Escolar Documentos
Profissional Documentos
Cultura Documentos
PRUEBAS
PSICOLÓGICAS RAFAEL A.
LEAL ZAVALA
Módulo de Aprendizaje
Pág.
Presentación Leal, R. 1
1
En segundo lugar, deseamos agilizar los procesos de aprendizaje en el aula así como
promover el aprendizaje fuera del aula. Es importante que sepas que un aprendizaje a largo
plazo es muy difícil que se logre si sólo te restringes a estudiar para los exámenes.
Como último motivo, es evidente que con mucha frecuencia las sesiones de aprendizaje
en el aula se convierten en exposiciones de temas que están muy distantes de las cosas que
deseamos aprender o comprender tanto en la psicología o vida personal. Situación que lleva
a una escenario común: “tienen alguna pregunta” (profesor); “no profesor, ninguna”
(Estudiante). Por tanto, tendrás mayor capacidad de formular mayores inquietudes en clase
cuanto más conocimientos previos.
Una vez que hayas conocido todas las lecturas que contiene este módulo contarás con
una visión panorámica general sobre aspectos básicos de la construcción de pruebas
psicológicas. No serás un experto en construcción de pruebas, aunque hace mucha falta de
este tipo de profesionales en nuestra región y país, pero al menos esperamos ayudarte a lograr
un nivel aceptable de alfabetización psicométrica, la suficiente como para que puedas ser un
usuario informado de los test psicológicos así como para que tengas mayor facilidad para
decidir qué instrumentos utilizar cuando tengas que realizar tu tesis de licenciatura o de tus
estudios de postgrado.
2
LECTURA BÁSICA Nº 1
TEMA: IMPORTANCIA DE LA PSICOMETRÍA
3
INFORMES PSICOLÓGICOS
Revista de la Facultad de Psicología, adscrita a la Escuela
de Ciencias Sociales. Universidad Pontificia Bolivariana
Número 5
2003
GRAN CANCILLER
Monseñor Alberto Giraldo Jaramillo
Arzobispo de Medellín
RECTOR GENERAL
Monseñor Gonzalo Restrepo Restrepo
DIRECTOR DE LA REVISTA
Psicólogo Óscar Muñiz Gil
COMITÉ EDITORIAL
PhD. Yvonne Gómez Maquet
Psicoanalista Hermes Padilla
PhD. Jorge Enrique Palacio Sañudo
Psicóloga, Mg. Ofelia Acosta de Pérez
Psicóloga María Paulina Pérez Sierra
EDICIÓN Y DISEÑO
Publicación anual de la Facultad de Psicología de la Editorial Universidad Pontificia Bolivariana
Universidad Pontificia Bolivariana, Medellín, Colombia.
PORTADA
Recoge resultados de investigaciones científicas Autorretrato, Van Gogh, 1887.
y reflexiones en las áreas sociales, de la psicología
y el psicoanálisis, con el fin de fomentar el intercambio ISSN 0124-4906
de conocimientos y opiniones.
Home Page: http://www.upb.edu.co
Cualquier artículo se puede reproducir E-mail: psicoupb@upb.edu.co
siempre y cuando se cite la fuente. Medellín, Colombia.
2
4
ARTÍCULO LIBRE
Psicometría:
historia y conceptos básicos
para la estandarización
de pruebas objetivas
Correspondencia y reimpresos a: el uso del análisis factorial, siguiendo con la
dcastrillon@yahoo.com importancia y las diferencias naturales de la
Validez interna y externa y, por último, finaliza
con la baremación o los puntajes de referencia.
PALABRAS CLAVE:
Test, origen, estandarización. INTRODUCCIÓN
Los tests forman parte de la cotidianidad del
hombre occidental. Desde los primeros años
de escolarización, los niños comienzan a
RESUMEN responder a tests que servirán para medir sus
En la historia de la psicometría se cometieron aptitudes intelectuales y su potencial para el
muchos errores que dieron como resultado aprendizaje; se utilizarán también para acre-
consecuencias de muchas clases, entre ellas ditar su progreso y su nivel de conocimientos,
la segregación social. Sin embargo, los así como para orientarlo vocacionalmente. Hoy
esfuerzos serios y constantes de psicómetras tenemos un fenómeno de generalización en la
en todo el mundo han dado como resultado aplicación de la psicometría en un mayor
una disciplina con resultados plausibles. número de escenarios. Así, se usan sin recato
También existen críticas, y debe haberlas, para el ingreso del joven a la universidad y
sobre el uso de las pruebas y de su seguridad para decidir quién será contratado para un
al estandarizarlas. Por último se exploran los puesto de trabajo y quién será ascendido;
pasos para la estandarización, iniciando con además, los tests desempeñan también un
* Psicólogo, especialista en psicología clínica, magíster en psicología. Docente Facultad de Psicología, UPB, Medellín, Colombia.
101
5
PSICOMETRÍA: HISTORIA Y CONCEPTOS BÁSICOS PARA LA ESTANDARIZACIÓN DE PRUEBAS
102
6
PSICOMETRÍA: HISTORIA Y CONCEPTOS BÁSICOS PARA LA ESTANDARIZACIÓN DE PRUEBAS
persona que trabajara con tesón y con la sigue sin resolverse. La evaluación psicológica
suficiente capacidad podía llegar a tener éxito. realizada con tests ha sido cuestionada cuando
se ha efectuado con un objetivo diagnóstico,
Para poder organizar y educar a una sociedad habitualmente en el campo de la psiquiatría,
tan caótica, se hacía necesario detectar las la psicología clínica o de la salud; pero nunca
diferencias individuales en las capacidades las críticas han sido tan intensas cuando los
mentales de los sujetos. Si además contamos tests son utilizados en procesos de selección
con la fuerte expansión de su economía y el y, excepto cuando se rechaza a las personas
enorme crecimiento industrial, entenderemos que aspiran a ingresar a una institución laboral
el entusiasmo con el que fueron acogidos los o educativa (Graham y Lilly, 1984).
tests en las primeras décadas del siglo XX en
EE.UU. La crítica más frecuente a los tests es que no
son lo suficientemente válidos ni confiables
A partir de su éxito inusitado en el ámbito edu- como para tomar decisiones trascendentales.
cativo y militar, Cattell funda la Psychological Los más virulentos críticos (Gould, 1981)
Corporation, la editora más antigua e afirman que aunque los tests tengan validez
importante de EE. UU. en la publicación de interna, son bastante incompletos o parciali-
tests, fomentando la investigación en áreas zados y, por tanto, no resulta adecuada su
afines a las mencionadas, pero también con aplicación en procesos de selección o asesora-
un fuerte crecimiento en el terreno laboral y miento. El cuestionamiento más generalizado
clínico (Gregory, 2001). Es en estos campos está centrado en el limitado alcance en la
en donde la psicometría tiene un verdadero medición de habilidades muy específicas,
nicho de crecimiento y la generalización se da como para ser predictores suficientemente
a todos los niveles de la sociedad permitiendo significativos a largo plazo.
tomar decisiones con mayor objetividad a partir
de ello. También se ha criticado el contenido y formato
de sus ítems (con especial atención en los de
selección múltiple) (Thorndike y Hagen,
LAS CRÍTICAS
1989), los métodos estadísticos usados, las
Después de un período inicial en los años 20´s estrategias utilizadas para la interpretación de
de uso desordenado y con una creencia ciega sus puntuaciones y la interpretación misma,
en ellos a pesar de la poca evidencia, los tests la cual está en confluencia con las teorías en
han venido generalizándose y estudiándose de boga de cada época. Además, los tests son
manera más sistemática y crítica. En la creados en una época específica y, aunque
psicometría actual se dispone de un mayor las teorías se modifiquen y avancen en su
número de tests y de un corpus teórico más capacidad explicativa, estos continúan en el
amplio, profundo y coherente, pero se tiene mercado sin modificaciones.
menos confianza en la precisión de los
resultados de las pruebas que a comienzos En más de una ocasión, los tests han influido
del siglo XX. No puede resultar menos que de manera adversa en el proceso enseñanza-
paradójico. aprendizaje de los estudiantes pues, muchos
profesores, se han limitado a enseñar las
El debate sobre el coeficiente intelectual se habilidades que posteriormente iban a ser
inicia en los años 40, pero se desata con fuerza evaluadas, centrándose en las especificaciones
y alcanza su cenit a finales de los 60 y durante de los libros o a los formatos de evaluación
toda la década siguiente. En los años 80 los existentes, de manera que la enseñanza se ha
ánimos se calman un poco, pero la discusión visto focalizada a temas y métodos específicos,
103
7
PSICOMETRÍA: HISTORIA Y CONCEPTOS BÁSICOS PARA LA ESTANDARIZACIÓN DE PRUEBAS
104
8
PSICOMETRÍA: HISTORIA Y CONCEPTOS BÁSICOS PARA LA ESTANDARIZACIÓN DE PRUEBAS
Esta falacia descalificó la posición y el alcance irresponsable de ellas. Por último, la mayoría
de los tests al atribuir las diferencias a los de los psicólogos maneja información
resultados y no a las personas confundiendo parcializada, incompleta y desactualizada de
así la legítima igualdad de derechos y lo que es la psicometría, por lo que se cometen
oportunidades con las diferencias en los errores profundamente lesivos a las personas
resultados obtenidos tratando de manera muy o instituciones, pretendiendo generar
ingenua de intervenir en la desigualdad bienestar. La poca investigación psicométrica
acallando la psicometría. No se puede olvidar que ha existido en el pasado, no permite que
que esta aplicación de la psicología trata de la normal conjunción entre la teoría y la técnica
ser un medio en donde se evidencien las se desarrolle en paralelo, y la causa más
diferencias y no una estrategia para mejorar frecuente del mal uso de estos elementos sea
las condiciones sociales. la desactualización teórico-técnica y el
desconocimiento en el manejo y la
Esto no puede concluirse de otra manera a la interpretación de las pruebas.
de darle a cada señor su honor, posibilitando
la reflexión sobre la responsabilidad que le Resolver esta serie de problemas supone
cabe a los Estados por encontrar una forma necesariamente regular el uso de los tests. La
más saludable para generar igualdad de cuestión es quién, cómo y cuánto. Es una
oportunidades y así poder asumir la irrefutable pregunta que se deja a la comunidad
diversidad del ser humano a pesar de lo psicológica colombiana para que reflexione
anterior. Además, a los psicómetras les queda sobre este asunto y busque las mejores
la tarea de generar instrumentos cada vez más soluciones. Por lo pronto, la mejor alternativa
sensibles que muestren diferencias entre es la adecuada y completa formación de los
grupos evitando el sesgo de la procedencia usuarios y la actualización permanente en
cultural, geográfica o étnica. Es allí en donde psicometría y teorías que la sustentan. Es
el sesgo es más común. necesario formar a los psicólogos en las
características técnicas de las pruebas y los
En otro sentido, las críticas a los tests están
necesarios elementos constitutivos de un test
enfocadas al uso que se hace de ellos. Algunas
elaborado con criterios que permitan tener
de las críticas se enfocan a la irresponsabilidad
resultados confiables.
en el manejo de las pruebas, otras hacen
referencia al manejo ético inadecuado y la Se recomienda a los psicólogos usar sólo
tercera a conocimientos insuficientes, falta de aquellas pruebas que tengan estudios de
información o información errónea. Las críticas Fiabilidad y Validez (ojalá en varias culturas),
a la irresponsabilidad en el manejo de las que estén basados en teorías actuales o, por
pruebas saltan a la vista en Colombia, pues lo menos, en permanente revisión y que el
no existe un organismo regulador de la práctica uso sea supervisado por un psicómetra con
psicológica, y por lo tanto el uso que en el experiencia en el uso de esa prueba. No está
área de psicometría se da, queda al libre de más proponer investigación permanente en
albedrío de los profesionales de la psicología. la estandarización de pruebas o en la
A pesar de los esfuerzos de los distribuidores correlación entre ellas o con variables
de pruebas en el país para restringir la venta presuntamente asociadas pero con mayor
de estos elementos a profesionales no evidencia.
psicólogos, inevitablemente, otras personas
pudieran tener acceso a estos materiales y, En el próximo punto se proponen elementos
muchas veces sin pretenderlo, hacer un uso mínimos en este sentido.
105
9
PSICOMETRÍA: HISTORIA Y CONCEPTOS BÁSICOS PARA LA ESTANDARIZACIÓN DE PRUEBAS
106
10
PSICOMETRÍA: HISTORIA Y CONCEPTOS BÁSICOS PARA LA ESTANDARIZACIÓN DE PRUEBAS
Otra posibilidad del análisis factorial es la conducta que debe medirse. Un test de este
rotación de factores, la cual se utiliza para tipo busca evaluar un área de conducta
simplificar la interpretación de los factores específica a través de una selección de
obtenidos por el aumento de la cantidad de reactivos que representa el universo muestral
cargas positivas altas y bajas en la columna estudiado. Normalmente se usa para evaluar
de la matriz de factores. Se pueden obtener las adquisiciones culturales basadas en el
factores no correlacionados a los cuales se les aprendizaje de temáticas o habilidades
denomina factores ortogonales o se pueden específicas tales como conducir un automóvil
obtener factores correlacionados a los que se o el aprendizaje de la ortografía en un idioma.
les da el nombre de factores oblicuos. La
elección sobre cuál de las dos es mejor La validez de criterio que se divide en
depende de los objetivos del investigador y de concurrente y predictiva. Este tipo de validez
las características de los datos. Si se busca la se usa para evaluar la efectividad de una prueba
coherencia entre los ítems de una prueba, para predecir el desempeño del individuo en
entonces se trata de hallar el factor que los actividades específicas. La validez concurrente
agrupe con mayor coherencia entre sus hace referencia a la evaluación del desarrollo
medidas de varianza, es decir, ítems oblicuos. de una habilidad en grados y en el momento
en que se mide. La validez predictiva ayuda a
El segundo aspecto es la validez interna la cual anticipar cómo serán esas habilidades a futuro
puede considerarse como el grado en que una si intervienen cierto tipo de variables. Las
prueba proporciona información que es preguntas clásicas en esta validez son: ¿cumple
apropiada a la decisión que se toma (Anastasi, la persona con las cualidades esperadas en este
1998). Así, un juicio de validez está siempre en contexto? (concurrente), o ¿podrá esta persona
relación con la decisión específica o con el uso. desarrollar las cualidades esperadas para este
Las principales preguntas que deben resolverse contexto? (predictiva).
con respecto a la validez es si la prueba mide lo
que se desea medir, en qué grado lo mide y si La validez de constructo ha centrado la
mide sólo lo que deseamos medir (Thorndike, atención en la función que cumple la teoría
1989). Justamente por este tipo de preguntas psicológica en la elaboración de la prueba y
no debe aceptarse el nombre de la prueba como en la necesidad de formular hipótesis que
la principal evidencia para catalogarla pues puedan ser comprobadas o refutadas en el
finalmente se valida el uso, no la prueba. proceso de validación (Anastasi, 1998). Esta
Actualmente en psicometría se siguen dos validez se considera como el grado en el puede
tendencias principales. La primera tiene que ver afirmarse que mide un constructo o rasgo
con un fortalecimiento de la teoría que sustenta teórico, como por ejemplo el neuroticismo, la
las pruebas y la segunda, la estrecha vinculación ansiedad o la inteligencia. En este punto es
entre la teoría y la verificación psicológicas necesario reconocer el papel que cumple el
mediante la comprobación empírica y análisis factorial en la correlación de
experimental de las hipótesis (Anastasi, 1998). constructos identificados como sólidos frente
Este tipo de medición se divide en tres: la validez a nuevos constructos que se desean validar.
de contenido, la validez de criterio y la validez Otro de los métodos que se utiliza en la validez
de constructo. de constructo es la consistencia interna, la cual
busca estudiar el comportamiento de cada
En la validez de contenido se hace un examen ítem comparando el desempeño de este en su
sistemático del test para determinar si cubre puntaje máximo frente al del puntaje mínimo.
una muestra representativa del área de También se busca en este tipo de validez, la
107
11
PSICOMETRÍA: HISTORIA Y CONCEPTOS BÁSICOS PARA LA ESTANDARIZACIÓN DE PRUEBAS
108
12
PSICOMETRÍA: HISTORIA Y CONCEPTOS BÁSICOS PARA LA ESTANDARIZACIÓN DE PRUEBAS
cada subunidad. La cuarta se conoce como el son abiertos y la escala busca representar
muestreo de reactivos, en donde los items se rangos y no puntos específicos, lo cual
aplican a personas distintas elegidas de pretende combatir la idea de una medida
manera aleatoria, contestando reactivos exacta y sin variaciones con respecto a las
distintos un grupo y otro. Después se hacen diferencias individuales.
análisis de reactivos comparativos,
evidenciándose resultados muy similares a los
CONCLUSIONES
métodos más eficientes para extraer resultados
normalizados (Anastasi, 1998). La ligereza con la que se hicieron tests en los
primeros años alentó una innumerable
Los tipos de normas que se emplean pueden cantidad de investigaciones que han dado
ser por regiones, por raza, por edades y por como resultado métodos cada vez más
grado de escolaridad. También pueden ser por precisos y confiables a la hora de medir
edad mental o por cociente intelectual. Por actitudes, comportamientos, pensamientos,
último existen las normas percentilares, las emociones y otros aspectos que hacen parte
cuales consisten en la distribución que los del ser humano como son valores, creencias,
sujetos hacen en su puntuación directa, habilidades, intereses, vocaciones, entre otros.
convirtiendo esta puntuación a una medida Por fortuna, el aura de autoridad ha sido
que va de 1 a 100. Los rangos percentilares eficientemente cuestionada durante estos
son medidas de nivel ordinal y no de intervalo, años.
en el que la distancia entre el percentil 10 al
5 (o del 90 al 95) es mayor que la distancia A pesar de todas las críticas, las limitaciones
entre el centil 40 y el 45. Las normas de e inconvenientes, la psicología científica sigue
calificación estándar son medidas de intervalo postulando que no existe un mejor método o
y tienen cualquier media y cualquier desviación más objetivo que los tests. Sin embargo es
estándar que se busque. Se dividen en necesario tomar en cuenta que estos no deben
calificaciones Z, calificaciones z, calificaciones ser la única fuente de información a la hora
CEEB, calificación de CI de desviación, de tomar una decisión importante para un
estaninas y calificaciones T, las cuales se sujeto. Además las puntuaciones que se
explicarán a continuación. Las calificaciones derivan de la aplicación de un test son un
z tienen una distribución particular en donde indicador inconcluso de la variable psicológica
el 0 es la media y 1 es la desviación estándar. que este mide.
Las calificaciones Z son el resultado de tomar A pesar de todas sus dificultades, hay
las calificaciones z y multiplicarlas por una marcadores históricos que permiten vislumbrar
constante de 10 y sumarles otra constante de con cierto optimismo el futuro de los tests,
50, resultando una media de 50 y una pues, aunque su uso ha sido bastante
desviación estándar de 10. Las calificaciones controvertido, nunca se han dejado de utilizar.
del ejército de los Estados Unidos (ACGT) y la Y aunque se ha legislado a favor de la
escala Wechsler fueron convertidas a una prohibición o limitación de su aplicación,
media de 100 y una desviación estándar de también se ha legislado protegiendo su
20 en la primera y una media de 10 y una carácter de objetividad por encima de otros
desviación de 3 en la segunda. La estanina métodos, por ejemplo, los tests proyectivos
tiene una media de 5 y una desviación de 2 que derivan su fortaleza de la teoría que
aproximadamente. En esta escala hay nueve subyace, y no por el nivel de evidencia que
diferentes rangos representados por los plantea su uso.
números del 1 al 9. Estos últimos puntajes
109
13
PSICOMETRÍA: HISTORIA Y CONCEPTOS BÁSICOS PARA LA ESTANDARIZACIÓN DE PRUEBAS
110
14
LECTURA BÁSICA Nº 2
TEMA: TIPOS DE PRUEBAS
15
SILVIA TORNIMBENI
EDGARDO PÉREZ
FABIÁN OLAZ
(compiladores)
Con la colaboración de
NURIA CORTADA DE KOHAN
ALBERTO FERNÁNDEZ
MARCOS CUPANI
INTRODUCCIÓN
A LA PSICOMETRÍA
PAIDÓS
Buenos Aires
Barcelona
México
16
ÍNDICE
Introducción a la psicometría / Silvia Tornimbeni...[et.al.]. - 1a ed. - Buenos Aires : Paidós,
2008.
288 p. ; 22x16 cm. (Evaluación Psicológica; 21085)
ISBN 978-950-12-6085-4
1. Psicología. 2. Psicometría.
CDD 153.9
17
2
CLASIFICACIÓN DE LOS TESTS
Edgardo Pérez
18
40 INTRODUCCIÓN A LA PSICOMETRÍA CLASIFICACIÓN DE LOS TESTS 41
se solapan en grado considerable (Anastasi y Urbina, 1998; Ho- nación genética o cultural del comportamiento. Para Juan-Espi-
lland, 1997). Por otro lado, no existen diferencias formales entre nosa (1997), una habilidad desarrollada representa el logro en
las escalas que miden actitudes, rasgos de personalidad o inte- algún dominio (por ejemplo, la escritura) y la inteligencia, una
reses vocacionales. En efecto, casi todas estas escalas han adop- condición necesaria para ese logro. De acuerdo con este autor, la
tado un formato likert de respuesta (Acuerdo-Desacuerdo o Muy inteligencia general y las aptitudes específicas (verbal, espacial
seguro-Nada seguro, por ejemplo) que solo varía en el número o matemática, por ejemplo) dependen de características ligadas
de alternativas contempladas (tres, cinco, siete o diez, entre las a la constitución cerebral y de disposiciones genéticas de las
más comunes). personas, y son más resistentes al entrenamiento que las varia-
Por estas razones, consideramos que la clasificación plantea- bles medidas por los tests de logro o habilidades desarrolladas.
da por Cronbach (1998) continúa siendo la más adecuada pues- No obstante, en algunos tests de inteligencia o aptitudes se in-
to que se refiere a diferencias esenciales entre los tests inclui- cluyen ítems que parecen medir habilidades desarrolladas más
dos en sus dos categorías (ejecución máxima y respuesta típica). que aptitudes.
En este capítulo realizaremos algunos agregados a esa clasifica- La postulación de un factor cognitivo general (g) que permite
ción clásica. En efecto, incluimos en nuestra revisión la medi- resolver problemas novedosos de cualquier naturaleza se opone
ción de las creencias de autoeficacia (Bandura, 1987; 1997) y las a la concepción de aptitudes relativamente independientes,
habilidades sociales, constructos que hoy no pueden ignorarse también tradicional en la psicología. La existencia de un factor
dada su importancia conceptual y empírica. Además, comenta- general de inteligencia es apoyada por investigaciones psicomé-
remos ciertas teorías relevantes en relación con cada constructo tricas y de la genética del comportamiento (Plomin, DeFries,
y mencionaremos tests psicológicos desarrollados internacional- McClearn y McGuffin, 2002), pero esto no implica negar la exis-
mente y en nuestro ámbito en estas dos últimas décadas. tencia de aptitudes más específicas. En general se asocia este
factor g a la velocidad de procesamiento cognitivo cuyas bases
biológicas no están aún bien determinadas, aunque se ha encon-
2.1. Tests de ejecución máxima: trado alguna evidencia preliminar en relación con la velocidad
inteligencia, aptitudes y habilidades de conducción nerviosa y el número de neuronas corticales,
entre otros indicadores psicobiológicos. Se ha definido la inteli-
La característica principal de los tests de ejecución máxima gencia general como flexibilidad comportamental y mental para
es que demandan a los examinados que respondan de la forma encontrar soluciones novedosas a problemas. Claramente, la in-
más eficiente que puedan frente a tareas problemáticas (proble- teligencia no es exclusiva de la especie humana aunque el hom-
mas matemáticos, por ejemplo) que deben resolver (Cronbach, bre sea el mamífero más inteligente (Roth y Dicke, 2005).
1998). En estos tests se miden diferencias individuales en el ni- Un test que se considera un indicador adecuado de g es el de
vel de ejecución máximo ante distintas tareas, cuando se inten- Matrices Progresivas de Raven (1993). Se trata de una prueba
ta realizarlas (Nunnally, 1991). Esto significa que los desempe- no verbal, cuyos ítems muestran un patrón de relaciones (cruces
ños solamente pueden medirse cuando las personas están y círculos, por ejemplo) incompleto, donde los examinados deben
motivadas para realizar una tarea de la mejor manera posible. responder seleccionando la secuencia faltante que completa la
Bajo el concepto genérico de tests de ejecución máxima se in- serie. Si bien sus autores aseguran que este test mide “educción
cluyen variables relacionadas, tales como las aptitudes, las ha- de relaciones”, un concepto estrechamente relacionado con la in-
bilidades y la inteligencia. Debe aclararse que la delimitación teligencia general, diversos análisis factoriales han cuestionado
de estos conceptos es uno de los problemas más controvertidos esta estructura interna unitaria del test. Se ha afirmado que el
de la psicología, al igual que el dilema subyacente de la determi- Raven, en realidad, mide tres factores cognitivos (percepción,
19
42 INTRODUCCIÓN A LA PSICOMETRÍA CLASIFICACIÓN DE LOS TESTS 43
razonamiento analógico y capacidad espacial) y que debería citamente en la teoría CHC es la batería Woodcock-Johnson-III
complementarse con una medida del razonamiento verbal para (WJ-III) de aptitudes cognitivas (Woodcock, McGrew y Mather,
ofrecer un perfil más completo de la inteligencia en relación con 2001). Las aptitudes medidas por este test son: rapidez en el
las teorías actuales (Hogan, 2004). procesamiento, procesamiento visual, procesamiento auditivo,
Howard Gardner (1994, 1999) efectuó una crítica radical al memoria, comprensión-conocimiento, razonamiento fluido, lec-
modelo de inteligencia general con su Teoría de las Inteligencias tura-escritura y aptitud cuantitativa. Existen versiones de la
Múltiples (Multiple Intelligences, MI). Para Gardner, los tests WJ-III en varios idiomas (incluida una versión en español) y
miden preferentemente aptitudes relacionadas con los requeri- con un rango de aplicación de 2 a 90 años. Este test es de admi-
mientos académicos de la cultura occidental y por eso sólo iden- nistración individual y posee buenas propiedades psicométricas
tifican dos o tres dimensiones (lingüística, espacial y lógico-ma- de estandarización, confiabilidad y validez.
temática) de la inteligencia. Su teoría, basada primordialmente La teoría CHC representa un notable esfuerzo para lograr la
en criterios neuropsicológicos, propone ocho potenciales biopsi- conceptualización de la inteligencia. Sin embargo, aún existen
cológicos de procesamiento de información (“inteligencias”) que desacuerdos básicos entre los defensores de esta teoría. Por
permiten resolver problemas o crear productos valorados por ejemplo, algunos investigadores aceptan la existencia de g como
una cultura. Estas inteligencias, según Gardner (1999), son: un tercer estrato mientras que otros hablan sólo de dos estratos
Lingüística, Lógico-Matemática, Espacial, Cinestésico-Corpo- (aptitudes amplias y habilidades específicas). Del mismo modo,
ral, Musical, Interpersonal, Intrapersonal y Naturalista. La teo- no existe consenso respecto de la cantidad de aptitudes del se-
ría MI, de fuerte atractivo entre los educadores, constituye una gundo estrato.
fuente riquísima de hipótesis que no poseen una corroboración Recientemente (Johnson y Bouchard, en prensa) se ha pro-
empírica exhaustiva ni técnicas objetivas de medición de sus puesto otro modelo alternativo de la estructura de la inteligen-
constructos e indicadores (Hood y Johnson, 2002). En efecto, los cia humana, el VPR (verbal-perceptual-rotación de imágenes),
tests construidos para medir aspectos relacionados con las inte- basado en la teoría originalmente formulada por Vernon (1964).
ligencias múltiples, tales como el Multiple Intelligence Develop- La teoría VPR propone un factor general de inteligencia, un se-
mental Assessment –MIDAS– (Shearer, 1999) o el Inventario de gundo estrato de tres aptitudes generales (verbal, perceptual y
Autoeficiencia para Inteligencias Múltiples –IAMI– (Pérez, 2001), de rotación de imágenes) y un tercer estrato de ocho aptitudes
evalúan habilidades autopercibidas o autoeficacia (concepto que más específicas relacionadas con las anteriores (verbal, acadé-
trataremos más adelante) para actividades relacionadas con las mica, fluidez, numérica, memoria, espacial, velocidad percepti-
ocho inteligencias. va y rotación de imágenes). Este modelo se basa en evidencias
También existen desarrollos teóricos contemporáneos que re- psicométricas, neurocientíficas y provenientes de la genética del
presentan una solución de compromiso entre ambas posturas, comportamiento. Estas últimas indican que un 70% de la varia-
admitiendo la existencia del factor g pero también de aptitudes bilidad de esta estructura de la inteligencia es explicada por
y habilidades relativamente independientes. Una de estas teo- factores genéticos.
rías es la de Cattell-Horn-Carroll (CHC) (Carroll, 1993; Mc- En síntesis, la investigación parece apoyar la existencia de
Grew, Flanagan, Keith y Vanderwood, 1997), que propone un un factor general de inteligencia, que no explica la variabilidad
modelo de tres estratos: la inteligencia general en el estrato su- total del comportamiento inteligente, y de aptitudes cognitivas
perior (g), un estrato medio de aproximadamente diez aptitudes que realizan una contribución específica al comportamiento in-
cognitivas (procesamiento visual, por ejemplo) y un estrato infe- teligente, más allá de la contribución de g. Las aptitudes de ma-
rior con numerosas habilidades más específicas (como las des- yor relevancia consensuadas en las diferentes teorías son las
trezas manuales). Un instrumento contemporáneo basado explí- denominadas verbal y espacial; las demás aptitudes generales y
20
44 INTRODUCCIÓN A LA PSICOMETRÍA CLASIFICACIÓN DE LOS TESTS 45
específicas asociadas constituyen todavía un dominio altamen- Tabla 2.1. Relaciones entre los subtests
te controversial. y los cuatro factores de las escalas Wechsler
La revista Intelligence es una de las publicaciones más auto-
rizadas en relación con la investigación y medición de la inteli- Puntuaciones Comprensión Memoria Organización Velocidad de
gencia y allí regularmente aparecen artículos relacionados con de Índice Verbal de Trabajo Perceptual Procesamiento
las diferentes teorías que hemos mencionado. Subtest verbales
Las escalas más utilizadas para la medición de la inteligen- Vocabulario x
cia en nuestro medio son las elaboradas por David Wechsler en Analogías x
1939, con varias actualizaciones posteriores; las últimas refe- Aritmética x
rentes al WISC-IV (Wechsler, 2005), para niños y adolescentes, Retención de Dígitos x
y el WAIS-III (Wechsler, 1999), para adultos. Todas las escalas Información x
de Wechsler comprenden subtests verbales y de ejecución. Los Sucesión de Letras
y Números x
ítems de los subtests verbales plantean problemas del tipo ¿Qué
significa arrogante?, o Menciona un planeta de nuestro sistema Subtests de ejecución
solar que no sea la Tierra; los subtests no verbales consisten, Completamiento
por ejemplo, en ensamblar objetos a la manera de un rompeca- de figuras x
bezas. Dígitos y Símbolos
Análisis psicométricos contemporáneos de las escalas Wechs- Claves x
ler identificaron cuatro factores de inteligencia subyacentes (or- Diseño con Cubos x
ganización perceptual, memoria de trabajo, comprensión verbal Matrices x
Búsqueda de Símbolos x
y velocidad de procesamiento). En la última versión del WISC-
IV las puntuaciones se interpretan en función de esos cuatro
factores y no en la forma tradicional de inteligencia verbal y de
ejecución. En las versiones actuales de las escalas Wechsler los 2000), compuesto por ocho subtests que permiten obtener pun-
ítems están ordenados según los parámetros de dificultad y dis- tuaciones en competencias requeridas para el éxito académico u
criminación de la teoría de respuesta al ítem (Hogan, 2004). ocupacional (aptitud verbal, numérica, espacial, abstracta, me-
La tabla 2.1. presenta un listado de los subtests de estas es- cánica, administrativa, lenguaje y ortografía).
calas y su relación con los cuatro factores subyacentes a las Se ha criticado a este tipo de tests su falta de poder predicti-
puntuaciones. vo diferencial –puesto que los mejores predictores resultan ser
Las escalas Wechsler son muy empleadas en psicología clíni- los puntajes combinados de sus subtests verbales y numéricos,
ca y educacional y han sido estandarizadas cuidadosamente en algo equivalente a un test de inteligencia aunque innecesaria-
los Estados Unidos y España, entre otros países, con muestras mente más extenso–, así como la confusión conceptual de incluir
nacionales representativas y estratificadas por edad, sexo, raza, aptitudes (como las administrativas) que en realidad son un com-
educación y ocupación. puesto de factores cognitivos y de personalidad (Kline, 2000).
La orientación de carrera y la selección de personal son áreas No obstante, a los fines de orientación o selección suministran
de trabajo del psicólogo donde resulta de significativa importan- información más específica que los tests de inteligencia general,
cia la medición de aptitudes cognitivas. En estos ámbitos son y tal vez en esto radique su popularidad entre los orientadores.
muy empleadas pruebas multifactoriales como el Test de Apti- El desarrollo de pruebas de aptitudes con bases científicas sóli-
tudes Diferenciales (DAT-5) (Bennet, Seashore y Wesman, das (en especial tests colectivos) es uno de los grandes desafíos
21
46 INTRODUCCIÓN A LA PSICOMETRÍA CLASIFICACIÓN DE LOS TESTS 47
del futuro para la orientación vocacional y la selección de perso- cimiento en matemática respecto al rendimiento académico. Los
nal, dos de las áreas más importantes de la psicología aplicada tests referidos a criterio (TRC) constituyen un tipo especial de
(Johnson y Bouchard, en prensa). tests de rendimiento (en realidad, una forma particular de in-
En nuestro país, Cortada de Kohan (1998) elaboró el Test de terpretar los resultados de estos tests) que revisaremos en el ca-
Aptitud Verbal Buenos Aires, que consta de 98 ítems divididos pítulo de interpretaciones de puntuaciones de tests.
en dos mitades: sinónimos y definiciones. Todos los ítems son de Uno de los desarrollos contemporáneos más relevantes son
opción múltiple con 4 alternativas de respuesta, de las cuales los tests adaptativos o a medida, basados en la teoría de res-
una es la correcta. El tiempo de administración es libre, pero puesta al ítem. En especial los tests de rendimiento educativo
suelen ser suficientes 25 minutos para terminar la prueba, que han comenzado a adoptar crecientemente esta modalidad. A
puede ser aplicada tanto en forma individual como colectiva. El partir de un banco de ítems, la mayoría de los tests adaptativos
Test Buenos Aires posee baremos para la Argentina, Ecuador, operan mediante una estrategia de ramificación variable para
Colombia y España. Se han realizado los estudios psicométricos la selección progresiva de los ítems, que requiere establecer: a)
clásicos (confiabilidad, validez, análisis de ítems), pero además un procedimiento de inicio, a partir del cual se determina el pri-
se han obtenido para todos los ítems los parámetros de dificul- mer ítem a presentar, b) un procedimiento para seleccionar, tras
tad y discriminación según la teoría de respuesta al ítem, algo una estimación provisional del nivel del individuo en el domi-
muy novedoso en nuestro país. Puede ser utilizado con adoles- nio, el siguiente ítem a presentar, y c) un criterio para dar por
centes mayores, desde los 16 años, y adultos, con al menos tres finalizada la prueba (Olea, Ponsoda y Prieto, 1999). En compa-
años cursados de educación secundaria. También se dispone de ración con los tests convencionales de longitud fija, mediante un
una versión abreviada que mantiene las propiedades de confia- algoritmo adaptativo se consigue una mejor adecuación entre la
bilidad y validez de la forma completa y que debe administrar- dificultad de los ítems y el nivel de rasgo del sujeto, y por tanto
se con un tiempo límite de ocho minutos. se obtiene una estimación precisa de su nivel de rasgo con la
Un caso especial son los tests de rendimiento o logro. Este presentación de pocos ítems y en un tiempo de aplicación re-
tipo de pruebas se utilizan en todos los niveles del sistema edu- ducido. Además, dado que diferentes individuos reciben ítems
cativo para medir el conocimiento alcanzado en un área especí- distintos, los tests a la medida previenen que los ítems no sean
fica. En nuestro medio, Grasso (1969) elaboró un test de conoci- conocidos antes de su aplicación. Estos beneficios resultan espe-
miento en matemática para ingresantes a la universidad. La cialmente importantes para los responsables de programas de
prueba está compuesta por 70 problemas (del tipo: Si se lanzan evaluación educativa a gran escala, donde es necesario aplicar
tres monedas, ¿cuál es la probabilidad de obtener exactamente los tests de forma continua a muestras extensas.
dos caras?) que el estudiante debe resolver utilizando un forma- Otro ámbito relevante para el uso de tests de ejecución máxi-
to de opción múltiple de cinco alternativas de respuesta. Las ma es la neuropsicología, que estudia las relaciones entre el ce-
propiedades psicométricas del instrumento fueron adecuadas y rebro y la conducta (Kolb y Wishaw, 1986). El desarrollo de la
un análisis de regresión múltiple permitió constatar que expli- neuropsicología ha estado determinado por la necesidad de in-
caba un 76% de la varianza del rendimiento académico de los vestigar y encontrar herramientas que permitan el diagnóstico
estudiantes de primer año de la Facultad de Matemática, Astro- y el tratamiento de los déficit en el rendimiento cognitivo (me-
nomía y Física de la Universidad Nacional de Córdoba (prome- moria, lenguaje, atención, funciones visoespaciales, funciones
dio de calificaciones). Esta contribución específica fue muy su- ejecutivas) después de producirse una lesión cerebral. Frecuen-
perior a la realizada por las otras variables independientes del temente, estas lesiones resultan en trastornos cognitivos que
modelo (tests de aptitudes, intereses y valores) que sólo incre- afectan el desempeño de una persona en las actividades de la vi-
mentaron en un 8% la contribución explicativa del test de cono- da diaria, especialmente en la esfera laboral. Por ello, luego de
22
48 INTRODUCCIÓN A LA PSICOMETRÍA CLASIFICACIÓN DE LOS TESTS 49
una lesión cerebral es imperioso determinar la cantidad y cali- los 2 a los 5 años). Estas pruebas requieren un buen entrena-
dad de daño cognitivo que puede haber sufrido la persona. miento del evaluador en el manejo, observación de niños peque-
La evaluación neuropsicológica (EN) es la herramienta que ños y también sólidos conocimientos teóricos que permitan otor-
posibilita este diagnóstico. Lezak (1995) identificó cuatro aplica- gar a las conductas observadas la debida importancia en el
ciones esenciales de la EN: evaluación propiamente dicha, cui- contexto de un diagnóstico. Debe destacarse que en ningún caso
dado del paciente y planificación del tratamiento, rehabilitación los tests de desarrollo reemplazan el examen neurológico del ni-
y evaluación del tratamiento, e investigación. En el texto clási- ño, sino que lo complementan.
co de Lezak se ha realizado la mayor recopilación y descripción En general, los tests de evaluación del desarrollo poseen me-
de tests neuropsicológicos existentes, mencionándose más de nos confiabilidad y validez que otros tests de ejecución máxima,
500 pruebas de este tipo. debido quizá a la pobre capacidad de concentración de los niños
Las áreas cognitivas evaluadas por los tests neuropsicológi- pequeños y a la rápida maduración cognitiva que caracteriza a
cos son de una enorme variedad. Así, podemos citar, entre otras, este período de la vida (Aiken, 2003). No obstante, estos tests
memoria, atención, discriminación visual, gnosias visuales, gno- son útiles para el diagnóstico precoz del retraso mental, los
sias auditivas, discriminación de color, funciones ejecutivas trastornos cerebrales orgánicos y los trastornos del aprendizaje
(planeamiento, verificación), lenguaje (expresión, comprensión, (por ejemplo, dislexia y discalculia). Entre los principales ins-
denominación), praxias (constructivas, de miembros). Algunos trumentos que se utilizan en nuestro país podemos destacar las
de los tests más conocidos en este ámbito son: el Mini-Mental escalas de Gesell y Amatruda (1971), construidas para diagnos-
State Examination (Folstein, Folstein y McHugh, 1975), un test ticar si los niños alcanzan parámetros adecuados de desarrollo.
de inspección rápida (dura aproximadamente 5 minutos) del es- A lo largo de un extenso programa de investigación se obtuvie-
tado cognitivo general de una persona; el Test de Stroop (1935), ron datos normativos sobre el desarrollo de las habilidades mo-
una prueba de atención que requiere determinar el color en el trices, lingüísticas y sociales, así como del comportamiento
que están escritos los nombres de colores que se hallan impre- adaptativo, en niños de 0 a 6 años. Las puntuaciones de estas
sos en colores incongruentes con la palabra (por ejemplo, la pa- escalas, determinadas por la presencia o ausencia de conductas
labra “rojo” escrita en tinta verde); el Test de Clasificación de específicas características a determinada edad, se expresan en
Cartas de Wisconsin (Heaton, Chelune, Talley, Kay y Curtiss, términos de la edad de desarrollo.
1991), una prueba de flexibilidad cognitiva; y la Figura Comple- Otro instrumento de este tipo, de gran aceptación internacio-
ja, de Rey (1941), un test de memoria visual y praxias construc- nal, son las Escalas Bayley del Desarrollo Infantil. Las tres es-
tivas. Se ha demostrado acabadamente la importancia, utilidad calas (motora, social y comportamental) se consideran comple-
y justificación de esta área de evaluación, cuyo logro más re- mentarias y suministran una contribución interesante a la
ciente es la posibilidad de identificar precozmente déficit cogni- evaluación clínica del niño (Bayley, 1993).
tivos, tales como la demencia.
Otro dominio íntimamente relacionado con la prevención e
intervención es el desarrollo infantil. Los tests de evaluación del 2.2. Tests de comportamiento típico:
desarrollo infantil miden las áreas motora, afectiva, cognitiva y motivación, actitudes y personalidad
del lenguaje, facilitando la detección precoz de posibles trastor-
nos. La población meta de estos instrumentos es la que posee En este tipo de tests ninguna respuesta puede ser calificada
entre 0 y 5 años; incluye por lo tanto la evaluación del neonato como correcta o incorrecta. Aquí se evalúa el comportamiento
(los primeros 30 días de la vida extrauterina); el lactante (desde habitual de los individuos, recurriendo a distintas afirmaciones
los 30 días hasta los 24 meses de edad) y el pre-escolar (desde ante las cuales el examinado debe indicar su nivel de acuerdo o
23
50 INTRODUCCIÓN A LA PSICOMETRÍA CLASIFICACIÓN DE LOS TESTS 51
agrado, por ejemplo. Los tests de respuesta típica comprenden Hackett, 1994). La autoeficacia también se relaciona con las ap-
las medidas de rasgos de personalidad, intereses y actitudes, así titudes, puesto que las personas se sienten más seguras de em-
como de otros constructos afectivos y motivacionales relaciona- prender aquellas actividades en las que han experimentado éxi-
dos, como las creencias de autoeficacia (Cronbach, 1998). Los to. No obstante, sujetos con igual nivel de habilidad pueden
tests de habilidades sociales también deben incluirse en esta ca- experimentar diferente seguridad para emprender determina-
tegoría puesto que su formato habitual de respuesta es el de un dos cursos de acción, por lo cual la autoeficacia permite mejorar
autoinforme de respuesta típica y no el de un test de ejecución la predicción del rendimiento que realizaríamos si sólo nos guiá-
máxima. ramos por el nivel de habilidad real. Esto es así porque el desa-
Los tests de respuesta típica son, en su gran mayorí,a inven- rrollo de creencias de autoeficacia no sólo depende del éxito pre-
tarios de autoinforme donde se demanda al individuo informa- vio sino de otras fuentes, tales como el aprendizaje vicario y la
ción sobre sí mismo. Esta medición introspectiva y basada exclu- persuasión social.
sivamente en el lenguaje genera varias limitaciones importantes, La teoría social-cognitiva del desarrollo de carrera (Lent,
tales como no ser aplicables a niños pequeños y el hecho de que Brown y Hackett, 1994) propone un modelo explicativo de las
sus respuestas pueden falsearse (de manera intencional o no). Si interrelaciones entre rasgos de personalidad, intereses, habili-
bien se han ideado procedimientos para atenuar (no eliminar) las dades y autoeficacia que contribuye a esclarecer el significado
respuestas negligentes, deshonestas o tendenciosas, los resulta- diferencial de estos constructos.
dos de estos tests deben intepretarse con precaución y no debe- En la figura 2.1. pueden observarse las relaciones entre ras-
rían ser nunca el único criterio utilizado para tomar decisiones gos de personalidad (más básicos y ligados a lo genético) (A), las
clasificatorias o diagnósticas respecto a las personas. aptitudes (también hereditarias en gran parte y una de las
fuentes de la autoeficacia al facilitar las experiencias de logro
en un dominio) (B), la autoeficacia (más ligada al aprendizaje,
Escalas de autoeficacia relacionada con el constructo anterior pero también influida por
experiencias de aprendizaje adicionales tales como la persua-
La teoría social cognitiva ha destacado el papel de la autoefi- sión social y el aprendizaje vicario), y los intereses vocacionales
cacia percibida entre las variables motivacionales y afectivas. (aprendidos en gran medida y relacionados directamente con la
Bandura (1997) define la autoeficacia como la creencia en las autoeficacia y las expectativas de resultados, e indirectamente
propias capacidades para realizar determinados cursos de ac- con las experiencias de aprendizaje y la personalidad).
ción. Para este eminente teórico, las creencias de las personas Existen algunos interrogantes respecto a la naturaleza de la
acerca de sí mismas son elementos clave para la determinación autoeficacia. En efecto, si bien Bandura (1997) puntualizó cla-
de su comportamiento, dado que son un elemento de gran in- ramente que se trata de un constructo aprendido y contextual-
fluencia y desempeñan un rol importante en las elecciones efec- mente-específico, algunos investigadores postulan que también
tuadas por las personas, el esfuerzo que invierten, la perseve- existe un constructo de autoeficacia general, más semejante a
rancia para alcanzar metas y el grado de ansiedad y confianza los rasgos de personalidad, y otros han sugerido que la herencia
que experimentan frente a las tareas de la vida. influye de manera modesta en la autoeficacia además del papel
La autoeficacia se relaciona fuertemente con los intereses innegable del aprendizaje (Kaplan y Saccuzzo, 2006).
vocacionales pero se trata de una relación asimétrica, puesto El sitio web del Dr. Frank Pajares (www.emory.edu/EDUCATION/
que, tal como se ha comprobado en numerosas investigaciones, mfp), en la Universidad de Emory, Atlanta, constituye un teso-
las personas tienden a interesarse por aquellas actividades que ro informativo sobre teoría, investigación y medición de la au-
se sienten capaces de realizar exitosamente (Lent, Brown y toeficacia. Se han construido escalas de autoeficacia para el
24
52 INTRODUCCIÓN A LA PSICOMETRÍA CLASIFICACIÓN DE LOS TESTS 53
rendimiento
ejecución y
conductas de prevención de enfermedades de transmisión se-
Logros de
xual, el manejo de la tentación de beber y fumar, la enseñanza
y el aprendizaje de idiomas, varias de las cuales pueden consul-
tarse en la página mencionada. Bandura (2001) elaboró una mo-
12
nografía para orientar la construcción y análisis psicométrico de
5
este tipo de escalas, la cual es de consulta indispensable para
investigadores interesados en la medición de la autoeficacia.
Acciones de
Como ya señaláramos, en nuestro medio Pérez (2001) cons-
elección
Figura 2.1. Modelo social-cognitivo de desarrollo de carrera
9
Influencias contextuales próximas
4
puestas por Gardner (1999). El IAMI incluye 8 escalas obteni-
al comportamiento electivo
6
8 mente seguro de poder realizar exitosamente esa actividad”.
Este inventario está incluido en un Sistema de Orientación Vo-
3
ción de carrera.
Un concepto relacionado con el de autoeficacia es el de au-
1
Expectativas de
resultado
-Minusvalía/nivel
Antecedentes
Moderadores
Affordance)
(Contextual
de salud
(B)
25
54 INTRODUCCIÓN A LA PSICOMETRÍA CLASIFICACIÓN DE LOS TESTS 55
cianos internados y otra de individuos más independientes que ayudan a identificar carreras u ocupaciones donde puede encon-
participan en actividades recreativas en un club de adultos ma- trar satisfacción.
yores. Debe evitarse la práctica profesional de usar los inventarios
de intereses para orientar de manera específica a los estudian-
tes, puesto que éstos necesitan considerar, en el proceso de toma
Inventarios de intereses vocacionales de decisiones de carrera, variables igualmente relevantes y,
además, reunir experiencia exploratoria sobre carreras y ocupa-
Los intereses vocacionales han sido definidos como perfiles ciones (Hood y Johnson, 2002). En general, se recomienda con-
de agrados y aversiones respecto a actividades relacionadas con fiar en los resultados de estos instrumentos a partir de los 15-
carreras y ocupaciones (Lent, Brown y Hackett, 1994). La pro- 17 años, aproximadamente, puesto que se ha verificado que las
blemática de los intereses es de especial utilidad para los inves- puntuaciones de los inventarios de intereses son bastante esta-
tigadores del comportamiento vocacional. Un conocimiento ade- bles a partir de esa edad.
cuado de esta dimensión de la motivación permite predecir el El paradigma más influyente en el dominio de la medición de
monto de satisfacción que una persona experimentará en el de- los intereses vocacionales es el formulado por Holland (1997).
sempeño de una ocupación. Los intereses se relacionan también La teoría de Holland es un modelo de congruencia entre los in-
significativamente con la estabilidad y el compromiso de los in- tereses y habilidades de una persona, por un lado, y los factores
dividuos en sus carreras y ocupaciones. Otros investigadores inherentes a su ambiente, por otro. Según este modelo teórico,
han comparado el peso relativo de los intereses vocacionales en existen seis tipos de personalidad: Realista, Investigador, Artis-
relación con otras variables psicológicas (habilidades, rasgos de ta, Social, Emprendedor y Convencional (RIASEC), los que a su
personalidad), verificando que los intereses reciben gran consi- vez determinan seis patrones análogos de intereses y de habili-
deración por parte del individuo en situaciones de elección de dades percibidas. El desarrollo de estos tipos depende de una
carrera (Holland, 1997). compleja serie de acontecimientos familiares, orientaciones per-
Los inventarios de intereses son los instrumentos más popu- sonales iniciales, preferencias ocupacionales e interacciones con
lares en un contexto de orientación para la elección de carrera, contextos ambientales específicos. Los ambientes en los que vi-
según se desprende de encuestas realizadas en los Estados Uni- ven y trabajan las personas pueden también caracterizarse, de
dos, donde instrumentos como el Strong Campbell Interest In- acuerdo a su semejanza, con seis modelos que se corresponden
ventory (Campbell y Hansen, 1981) son empleados por casi el con los seis tipos de personalidad anteriormente mencionados.
90% de los orientadores (Hood y Johnson, 2002). Se los ha defi- Los inventarios de intereses vocacionales más populares son
nido como una serie de ítems en los que se solicita a los indivi- el Self-Directed Search (Holland, 1994), el Inventario de Strong-
duos que indiquen sus preferencias vocacionales, a partir de lo Campbell (Campbell y Hansen, 1981) y el Registro de Preferen-
cual se pueden obtener puntuaciones finales que representan cias Kuder (Kuder y Zitowsky (1991). Más allá de sus diferen-
un perfil de intereses (Cronbach, 1998). cias (Kuder obtuvo sus escalas por análisis factorial y emplea
Se coincide en señalar que estos instrumentos deben usarse ítems de elección forzosa, el inventario Strong posee claves ocu-
para seleccionar metas vocacionales, confirmar elecciones pre- pacionales formadas por la comparación de personas satisfechas
vias, descubrir campos de actividad laboral, incrementar el au- en una ocupación con respuestas de la muestra de estandariza-
toconocimiento y encontrar ocupaciones que proporcionen satis- ción), todos utilizan el modelo teórico RIASEC para interpretar
facción (Cronbach, 1998; Hood y Jonhson, 2002). Es claro que sus resultados, lo cual permite una convergencia conceptual im-
los inventarios de intereses poco nos dicen respecto al éxito aca- pensable en otros dominios de la psicología. Una iniciativa inte-
démico u ocupacional que podrá alcanzar una persona, pero nos resante es el Test Visual de Intereses Profesionales (Tetreau y
26
56 INTRODUCCIÓN A LA PSICOMETRÍA CLASIFICACIÓN DE LOS TESTS 57
Trahan, 1986), desarrollado por investigadores canadienses y También debe considerarse el papel de los factores culturales
basado también en el modelo de Holland, pero que utiliza 80 fo- que pueden falsear de algún modo los resultados de tests cuan-
tografías en color ilustrando actividades laborales en lugar de do se emplean en otras culturas (véase capítulo 7, “Adaptación
ítems verbales, con el fin de atenuar los problemas de sesgo cul- de tests a otras culturas”). Es frecuente encontrar, en los inven-
tural que generan estos últimos reactivos. tarios de intereses, ítems que mencionan actividades que en las
Recientemente se construyó un nuevo inventario de intere- culturas de origen tienen una popularidad que no poseen en
ses, con promisorias perspectivas. En efecto, el Personal Globe otros contextos; jugar béisbol, por ejemplo, tiene un significado
Inventory (Tracey, 2002) incluye ocho escalas básicas de intere- diferente en aquellos países donde es un deporte poco practica-
ses (Servicio, Relaciones Públicas, Asistencia, Arte, Ciencias de do. Algunos ítems mencionan títulos u ocupaciones que son fa-
la Vida, Mecánica, Tecnología y Negocios) semejantes al modelo miliares en el país de origen del inventario y, en cambio, resul-
RIASEC, aunque con mayor especificidad. La innovación quizá tan extraños para los ciudadanos de otras naciones (Fogliatto,
más importante que introduce es su discriminación entre profe- 1991).
siones de alto y bajo prestigio social, asociadas a sus ocho esca- Estos problemas indican con claridad los riesgos de emplear
las. Esto permite que el inventario pueda ser empleado para de un modo acrítico los tests construidos en otras culturas. Fo-
brindar orientación a trabajadores poco calificados, y no sola- gliatto planteó la necesidad de construir un cuestionario de in-
mente a estudiantes que aspiran a continuar una carrera supe- tereses de características locales y más adecuadas a las prefe-
rior. Los datos preliminares demuestran fuertes propiedades rencias, actividades educacionales y laborales, así como al
psicométricas de las escalas de este test. lenguaje habitual de los jóvenes de nuestro medio. Este instru-
Si bien existe evidencia preliminar de la influencia genética mento es su Cuestionario de Intereses Profesionales (CIP)
sobre los intereses vocacionales, existen interrogantes básicos (Fogliatto, 1991).
que deberán ser esclarecidos en el futuro, tales como ¿cuáles son
las bases neurobiológicas de los intereses vocacionales? o ¿en Tabla 2.2. Muestra de ítems del
qué medida pueden diferenciarse de otros constructos relaciona- Cuestionario de Intereses Profesionales Revisado (CIP-R)
dos (rasgos de personalidad o actitudes, por ejemplo)? Para po-
seer una teoría científica de los intereses vocacionales debe con- D I A
tarse con teorías explicativas y universales. En efecto, el modelo 1. Aprender estilos de pintura artística.
RIASEC es preponderantemente descriptivo y no ha logrado re-
2. Cantar en coros.
plicarse bien en algunos contextos culturales diferentes del oc-
cidental. 3. Trabajar en estudios jurídicos.
Hay una gran variedad de tests de intereses vocacionales pe- 4. Trabajar con calculadoras.
ro se presentan dificultades considerables cuando se emplean 5. Aprender a interpretar radiografías.
de modo transcultural. Uno de los obstáculos más significativos
6. Enseñar a niños.
en la traducción y adaptación de tests verbales son los proble-
mas de lenguaje. En este sentido, las traducciones libres pueden 7. Asesorar sobre el cuidado de plantas.
traicionar las intenciones originales del autor, y las literales,
por los problemas de equivalencia semántica y la diferente fre-
cuencia de uso de las palabras en lenguas diversas, no alcanzar La última versión del Cuestionario de Intereses Profesiona-
a expresar con precisión los significados de los ítems en sus ver- les (CIP-R) es asistida por computadora y se integra al Sistema
siones originales. de Orientación Vocacional Informatizado (Fogliatto y Pérez,
27
58 INTRODUCCIÓN A LA PSICOMETRÍA CLASIFICACIÓN DE LOS TESTS 59
2003) que incluye también el IAMI (Pérez, 2001), así como un Las escalas de actitudes surgieron como una preocupación de
banco de información académica sobre carreras y especialidades los investigadores frente a la problemática de la aceptación social
educativas del secundario. El CIP-R comprende 15 escalas (Cál- de grupos (y creencias) diferentes (Anastasi y Urbina, 1998). La
culo, Asistencial, Musical, Artística, entre otras) y 114 ítems primera escala de actitud fue la de distancia social (Bogardus,
que describen actividades académicas o laborales. La persona 1925) donde los examinados clasificaban varios grupos raciales y
debe responder utilizando tres alternativas de respuesta: Agra- religiosos en función de su aceptación. Fue notable la producción
do, Indiferencia o Desagrado a cada uno de los ítems, por ejem- de escalas de actitudes porteriormente a la Segunda Guerra
plo “Construir puentes”. El CIP-R posee buenas propiedades de Mundial, tales como la famosa escala para medir el autoritaris-
confiabilidad y validez de criterio con respecto a metas de elec- mo (Adorno, Frenkel-Brunswik, Levinson y Sanford, 1950).
ción de carrera. Un aspecto criticable de este inventario es que La medición de actitudes, además de tener múltiples aplica-
su construcción ha sido empírica, basándose exclusivamente en ciones, también posee distintas variantes, aunque en la actuali-
el análisis factorial exploratorio de ítems relacionados con ca- dad predominan las escalas tipo likert (Likert, 1932). Estas es-
rreras y no en una teoría explícita de los intereses vocaciona- calas se caracterizan por presentar afirmaciones (ítems) que
les. Por consiguiente, es dificultoso relacionar sus escalas con deben responderse empleando una escala de 5 a 7 alternativas
los constructos de teorías reconocidas, tales como el modelo que indican el acuerdo del examinado con el contenido enuncia-
RIASEC (Holland, 1997). do en cada ítem. Si bien, tradicionalmente, la construcción de
escalas de actitud se caracterizó por el uso de procedimientos
específicos, en la literatura actual son indicados los lineamien-
Escalas de actitudes tos generales de construcción de tests, que expondremos en el
capítulo 6.
Las actitudes se refieren a predisposiciones aprendidas para El desarrollo de escalas de actitudes consiste, inicialmente, en
responder positiva o negativamente ante objetos sociales parti- elaborar un conjunto de ítems relativos a la dimensión que se
culares, es decir, tipos de personas, instituciones sociales o si- pretende medir y asignar números a las diversas alternativas de
tuaciones (Aiken, 2003). Para Padua (1979), las actitudes son respuesta a esos ítems. Esos valores numéricos reflejan la inten-
tendencias individuales a reaccionar, positiva o negativamente, sidad de la actitud, positiva o negativa, que posee un sujeto fren-
frente a un valor social. te a un objeto determinado. Los procedimientos de determina-
Desde el punto de vista conceptual es díficil diferenciar las ción de la confiabilidad y validez de las escalas de actitudes
actitudes de los intereses (Anastasi y Urbina, 1998). Al respec- tampoco difieren de los utilizados en los otros tipos de tests.
to, piénsese cómo podría distinguirse una escala de intereses Aiken (2003) construyó una escala likert de actitud ante la
por el cálculo y otra de actitudes ante la matemática, por ejem- matemática, luego adaptada por Murat (1984) para nuestro me-
plo. Probablemente la diferencia esencial entre estos dos cons- dio. Una escala frecuentemente citada en la investigación con-
tructos radique en el área de la psicología donde se apliquen. temporánea es la de roles sexuales de Bem (1974) que mide ac-
En efecto, los inventarios de intereses miden patrones de prefe- titudes hacia la masculinidad y la feminidad (como estereotipos
rencias (y rechazos) por áreas de conocimiento o trabajo y son sociales). Cada ítem describe algunas características personales
utilizados casi exclusivamente por los orientadores vocaciona- típicas de los géneros, y la persona que responde debe indicar
les; las escalas de actitudes, en cambio, generalmente miden su grado de acuerdo empleando una escala likert de siete pun-
patrones de preferencias (y rechazos) por creencias e ideologías tos (muy de acuerdo, bastante de acuerdo, algo de acuerdo, ni
y por consiguiente son más empleadas en la psicología social o acuerdo ni desacuerdo, algo en desacuerdo, bastante en desa-
política. cuerdo y muy en desacuerdo).
28
60 INTRODUCCIÓN A LA PSICOMETRÍA CLASIFICACIÓN DE LOS TESTS 61
Tornimbeni y González (1997) elaboraron para nuestro país la personalidad se entienden como hereditarios en gran propor-
una escala de actitud hacia la investigación, cuyos ítems son del ción y, por consiguiente, bastante asimilables al concepto de
siguiente tipo. “temperamento” o “naturaleza emocional” de las personas (Car-
ver y Scheier, 1996). Algunas de las orientaciones temperamen-
• Recién al finalizar mi carrera voy a pensar en la posibili- tales básicas, tales como emocionalidad positiva (asimilable a
dad de convertirme en investigador. Extraversión y Amabilidad) y negativa (asimilable a Neuroticis-
mo), pueden distinguirse ya en la primera infancia (Tellegen,
Esta escala posee 5 alternativas de respuesta: muy de acuer- 1988). La investigación actual en genética del comportamiento
do, acuerdo, ni acuerdo-ni desacuerdo, desacuerdo y muy en de- (Plomin y colaboradores, 2002) apoya este condicionamiento he-
sacuerdo. reditario de la reactividad emocional de las personas, aunque
admite que el entorno familiar también explica parte de la va-
riabilidad de esa variable. Recientemente se ha sugerido que el
Inventarios de rasgos de personalidad incremento en la actividad social, el ejercicio físico y las técnicas
de relajación pueden modificar algunas tendencias emocionales
Otros tests de uso frecuente en la psicología contemporánea básicas de las personas (Lent, 2004).
son aquéllos construidos para medir rasgos de personalidad. Los rasgos de personalidad se relacionan con la conducta tí-
Aun cuando el término “personalidad” sea empleado en diferen- pica de las personas en su vida cotidiana, tales como el nivel de
tes acepciones y carezca de un sentido unívoco, la mayor parte ansiedad o de amabilidad. Existe un buen número de estrate-
de las definiciones coinciden en que hace referencia a las ten- gias diferentes para medirlos, aunque en los últimos años se
dencias afectivas básicas de una persona. Estas disposiciones le utilizan preferentemente los inventarios autodescriptivos o de
confieren relativa estabilidad al comportamiento individual, autoinforme (Casullo y cols., 1994). Un ítem típico de este tipo
más allá de las lógicas variaciones que resultan de la adapta- de inventarios puede ser como el siguiente: “Me agradan las
ción a diferentes contextos y situaciones. reuniones sociales.”
Según Nunnally (1991) el estudio total de la personalidad se Las opciones de respuesta a ítems como el anterior pueden ir
centra en dos grandes problemas: desde un formato dicotómico (“Sí-No” o “Verdadero-Falso”) a
uno de tipo likert. Actualmente se recomienda incluir varias al-
1) Cuáles son los rasgos dominantes de una persona en un ternativas de respuestas con la finalidad de mejorar la variabi-
momento determinado de su historia personal. lidad de las respuestas y, por consiguiente, la confiabilidad y va-
2) Qué factores determinan ese perfil de personalidad. lidez de los tests (Pajares, Hartley y Valiante, 2001).
Los inventarios de rasgos de personalidad se utilizan en ám-
La medición de la personalidad atañe principalmente al pri- bitos tan diversos como la clínica psicológica, la psicología ocu-
mer punto, y su propósito principal es describir a los individuos pacional y la investigación. Como afirmamos antes, uno de los
sobre la base de sus rasgos de personalidad predominantes. El principales inconvenientes de los autoinformes es la posibilidad
segundo punto se relaciona con la herencia y la experiencia, ya de que los sujetos falseen sus respuestas para dar una impre-
que para explicar el desarrollo de la personalidad de un indivi- sión socialmente aceptable (Anastasi y Urbina, 1998).
duo se debe recurrir a la genética del comportamiento y a las Pueden distinguirse dos tipos de inventarios de personali-
teorías del aprendizaje. dad: los que evalúan rasgos psicopatológicos y los que miden
En algunas de las teorías contemporáneas, tales como la de rasgos de la personalidad “normal”. Entre los primeros, de uso
los cinco grandes factores (Costa y Mc Crae, 1999), los rasgos de preferentemente clínico, uno de los más utilizados es el Inven-
29
62 INTRODUCCIÓN A LA PSICOMETRÍA CLASIFICACIÓN DE LOS TESTS 63
tario Multifásico de Personalidad de Minnesota (MMPI), elabo- Pueden establecerse relaciones entre ambas teorías, puesto
rado en la década de 1940 para diagnosticar trastornos psicoló- que dos constructos son perfectamente asimilables: Extrover-
gicos. Los 500 ítems del MMPI incluyen una amplia variedad de sión y Neuroticismo (el polo negativo de Estabilidad Emocional)
contenidos y comprenden áreas como actitudes sexuales, educa- y el tercer factor de la teoría PEN, Psicoticismo (también deno-
ción, ocupación, familia, salud, síntomas psicosomáticos, mani- minado Impulsividad), se relaciona con Responsabilidad y Ama-
festaciones neuróticas y psicóticas de la conducta, etc. En su bilidad de manera inversa. Por otra parte, el factor de Apertura
versión original permite obtener puntuaciones en diferentes es- (o Intelecto) de la teoría de los cinco grandes factores (Costa y
calas clínicas relacionadas con distintas categorías de la psico- Mc Crae, 1999) no es reconocido por Eynseck (1981) como un
patología clásica (histeria, hipocondría, por ejemplo). factor de personalidad. En síntesis, y tal como acontece con la
El MMPI-2 (Butcher, Dahlstrom, Graham, Telegen y Kaemmer, inteligencia, el dominio de la personalidad es altamente contro-
1989) es una versión revisada y actualizada que incluye nuevos versial. La revista Personality and Individual Differences es
ítems, escalas adicionales y baremos actualizados. La estructu- una de las mejores fuentes de consulta sobre la medición y teo-
ra interna del MMPI (constructos medidos por las diferentes es- ría de la personalidad.
calas del test) ha sido cuestionada por los análisis factoriales El NEO-PI-R (Costa y Mc Crae, 1999) mide los cinco grandes
realizados, que tienden a identificar dos factores (afectividad factores y 30 facetas específicas que permiten una mayor discri-
positiva y negativa) consistentes (Kaplan y Saccuzzo, 2006). No minación en la medición de la personalidad. El NEO-PI-R se
obstante, el MMPI es uno de los tests más populares e investi- emplea en diferentes áreas de la psicología aplicada (en especial
gados del mundo y, en los Estados Unidos, es aceptado como evi- en el ámbito laboral) y en la investigación. También existe una
dencia adicional en un proceso judicial. versión abreviada de este inventario, el NEO-FFI, que mide so-
Otros inventarios de personalidad de uso clínico miden un lamente los cinco factores principales sin las respectivas face-
trastorno psicológico específico, como el Inventario de Depresión tas.
BDI-II (Beck, Steer y Brown, 1996) o el Test de Ansiedad Rasgo- Uno de los principales investigadores del modelo de los cinco
Estado (Spielberger, 1983), entre otros numerosos instrumentos factores, Goldberg (1999), diseñó un banco internacional de ítems
de este tipo. (international pool items personality, IPIP), a disposición en la
Entre los inventarios usados para evaluar rasgos de persona- Web para los usuarios interesados en utilizar, investigar o cons-
lidad en personas sin trastornos psicológicos severos, los más truir inventarios de medición de la personalidad (www.ipip.org).
populares son el 16PF-5 (Russell y Karol, 2000), el EPQ-R Los inventarios que miden rasgos de personalidad “norma-
(Eysenck y Eysenck, 1997), y el NEO-PI-R (Costa y Mc Crae, 1999). les”, tales como el NEO en sus diferentes versiones (Costa y Mc
La teoría de los cinco grandes factores (Norman, 1963; Costa Crae, 1999) y el inventario 16PF-5 (Russell y Karol, 2000), se
y Mc Crae, 1999) es predominante en la construcción de los emplean crecientemente en psicología ocupacional y educacio-
inventarios de personalidad elaborados para medir predisposi- nal, aunque también en contextos clínicos, en especial para di-
ciones no patológicas. Esta teoría postula cinco dimensiones señar programas de intervención preventivos, relacionados con
afectivas básicas en las cuales diferimos los seres humanos: Es- el manejo de la afectividad y los vínculos interpersonales. Va-
tabilidad Emocional, Extroversión, Apertura, Responsabilidad rias investigaciones han demostrado que los factores Responsa-
y Amabilidad. El volumen de investigación acerca de este mode- bilidad y Apertura, en particular, son predictivos del rendimien-
lo es abrumador, aunque como en el caso de la inteligencia, exis- to académico y ocupacional (Tokar, Fisher y Subich, 1998). Por
ten varias teorías alternativas y competidoras, como la teoría su parte, Extraversión y Neuroticismo son factores asociados
PEN de Eysenck (1981), que propone tres factores (Neuroticis- con la satisfacción en el empleo y el bienestar psicológico gene-
mo, Psicoticismo y Extroversión) en lugar de cinco. ral (Lent, 2004).
30
64 INTRODUCCIÓN A LA PSICOMETRÍA CLASIFICACIÓN DE LOS TESTS 65
Otra estrategia de medición de la personalidad son las deno- niones o derechos de un modo adecuado a la situación, respetan-
minadas técnicas proyectivas, que emplean estímulos (ítems) do la expresión de esas conductas en los demás. Para Kelly
ambiguos ante los cuales se espera que los sujetos “proyecten” (1987), el concepto de HHSS incluye diferentes subcompeten-
sus sentimientos, deseos y emociones. Las técnicas proyectivas cias tales como habilidades conversacionales, habilidades hete-
poseen varias limitaciones que aconsejan su empleo como méto- rosociales de concertación de citas, habilidades para entrevistas
do de investigación más que de diagnóstico. Éstas comprenden: de trabajo, oposición asertiva y aceptación asertiva.
pobre confiabilidad, baja validez, carencia de un método objeti- Se han construido varias medidas de autoinforme de las
vo para puntuar e influencias contextuales sobre los puntajes HHSS, tales como el Inventario de Asertividad de Rathus (en
(Kline, 2000). Kelly, 1987) y la Escala Multidimensional de Expresión Social
El test proyectivo más conocido es el Psicodiagnóstico de (Caballo, 1987). Si bien algunos instrumentos han sido adapta-
Rorschach (1921) ya mencionado en el apartado histórico de la dos a nuestro medio, carecemos de inventarios locales de evalua-
primera parte de este texto. Incluye diez láminas (manchas de ción del constructo, por lo cual la elaboración de este tipo de tests
tinta simétricas) y las características de las respuestas son in- constituye un área de interés científico y aplicado en la región.
terpretadas por medio de parámetros preestablecidos, tales co- Finalmente, cabe señalar que, en estos últimos años, se han
mo atender a los detalles o a la figura global; o responder prefe- construido tests que no sólo contemplan características intrapsi-
rentemente al color o la forma. En los últimos años se han cológicas (cognitivas o afectivas) sino que también miden aspec-
realizado intentos por dotar de mayor estandarización a las con- tos relacionados con los diferentes ambientes en los cuales se
diciones de administración, puntuación e interpretación de sus desenvuelve el individuo. De este modo, existen tests para me-
resultados. Exner (1993) elaboró un sistema muy aceptado que dir dimensiones del ambiente social, escolar u ocupacional (Ka-
ha mejorado la confiabilidad de las puntuaciones del Rorschach, plan y Saccuzzo, 2006). Estos desarrollos son muy interesantes
aunque la evidencia es mixta respecto a su validez (Hogan, puesto que reconocen al comportamiento del ser humano como
2004). una función de su sistema nervioso (incluidos los componentes
psicológicos), la sociedad y la interacción entre ambos factores,
tal como ha sido remarcado por varios autores (Bandura, 1997;
Inventarios de habilidades sociales Bunge y Ardila, 2002).
Para finalizar, una sucinta referencia a una destacada inves-
Finalmente, otro desarrollo psicométrico contemporáneo es tigadora argentina (al igual que la Dra. Cortada de Kohan y la
el de la medición de las Habilidades Sociales (HHSS), construc- Dra. Casullo, mencionadas anteriormente) que trabaja asidua-
to proveniente de la psicología cognitivo-comportamental, y de mente en la construcción y adaptación de tests de respuesta tí-
gran relevancia en la evaluación clínica, educativa y ocupacio- pica: la Dra. Richaud de Minzi. Entre sus contribuciones en es-
nal. El término “habilidades sociales” se introduce en la litera- te ámbito pueden citarse la construcción de escalas para medir
tura en la segunda mitad de los años setenta, y a partir de la estilos de afrontamiento en niños y estilos parentales (Richaud
década siguiente se observa un incremento de la evaluación de de Minzi, 2005), así como diversas adaptaciones de tests de per-
habilidades sociales en diferentes ámbitos, tales como la psico- sonalidad, como el Inventario Beck y el NEO, ya mencionados
logía educativa, clínica y ocupacional (Mac Combs y Branan, anteriormente.
1990).
Las HHSS han sido definidas como el conjunto de conductas
que favorecen el desarrollo social de la persona y por medio de
las cuales ésta expresa sus sentimientos, actitudes, deseos, opi-
31
LECTURA BÁSICA Nº 3
TEMA: CONSTRUCCIÓN DE UNA PRUEBA
32
5.-PROCEDIMIENTO DE CONSTRUCCIÓN
DE UNA PRUEBA O TEST
5.1.- Introducción
El contenido de este tema se refiere al proceso general para la elaboración de un test. Los aspectos
a tener en cuenta a la hora de construir un instrumento de medida pueden clasificarse en dos tipos
(Prieto y Delgado, 1996): Aspectos contextuales o externos al propio reactivo y aspectos internos
al atributo que se mide y a la forma de medirlo. Los primeros hacen referencia a las características
que diferencian a la población con la que va a utilizarse la prueba y que si no son tenidas en cuenta
pueden interferir y sesgar1 inintencionadamente la evaluación del atributo que se pretende medir. El
segundo es un aspecto más estudiado en los manuales de psicometría y que hace referencia a la
definición del constructo (dominio o atributo) que se pretende medir así como todo lo relacionado
con la descripción, elaboración y análisis de los ítems o reactivos que constituyen la prueba.
Antes de entrar en el desarrollo de los distintos pasos a seguir, por lo que respecta a los atributos
internos del test queremos apuntar algunas cuestiones referentes a los aspectos externos al propio
test:
- Característica de la población a la que va dirigida la prueba, por lo que respecta a edad, nivel
educativo y cultural, clase social, ámbito de procedencia (rural o urbano), lengua materna,
presencia o ausencia de discapacidades específicas, pertenencia a minorías étnicas o
subculturas, etc (op. cit). Todos estos son aspectos a tener en cuenta a la hora de seleccionar
tanto el contenido como las características formales de los reactivos.
- Las restricciones temporales, así como la característica de aplicarlo de forma colectiva o
impersonal (tests de papel y lápiz, con soporte informático, alta importancia de las
instrucciones por escrito), pueden influir de forma diferencial a distintos subgrupos o estratos.
Dicho lo cual, la descripción que se va a presentar a continuación en este capítulo secuenciará los
pasos que pueden garantizar la elaboración de un buena escala o prueba, por lo que respecta a los
aspectos internos al propio test. Osterlind (1989) dice que el seguir unos pasos precisos y correctos
en la elaboración de un test no es criterio de validez, pero sí una cierta garantía de que los ítems que
1
Se entiende por sesgo a la diferencia en el valor escalar obtenido en una prueba por sujetos,
grupos o subpoblaciones que tienen un mismo nivel en el atributo que se mide. Recordemos lo dicho a este
respecto en el apartado 2.3 sobre errores conceptuales y errores sistemáticos.
116
33
Objetivo de la Prueba 117
resulten de ese test bien elaborado muy posiblemente midan ese constructo que verdaderamente se
quiere medir. Pero eso no quiere decir que, por el simple hecho del proceso seguido, tengamos
garantía de que los expertos a los que se les pida opinión van a apreciarlo como un test de validez.
Para ilustrar esta explicación, Osterlind (op. cit.) compara el proceso de elaborar un test1 con la
fabricación de un violín. El violín puede haber sido construido siguiendo de forma precisa los pasos
correctos. Pero cuando un violinista lo toca ante un auditorio, lo que el auditorio valora no es como
haya sido construido sino cómo suena, que es el criterio de validez. Igualmente, en la construcción
de tests, el proceso seguido puede ser una cierta garantía de que posteriormente sus usos van a ser
válidos, pero si lo son o no dependerá del correcto obrar del usuario en la situación concreta en la
que le ha tocado aplicarlo. Como dice J. L. Padilla (1995) en la elaboración de tests, como en las
disciplinas artísticas, la “genialidad” suele asentarse sobre un perfecto dominio de los “fundamentos
técnicos”.
Dejando a un lado las comparaciones, presentamos a continuación los pasos habituales para la
elaboración de un test, un cuestionario, e incluso cualquier tipo de escala (Croker y Algina, 1986):
1. Delimitación del objetivo para el que van a utilizarse las puntuaciones.
2. Definición del constructo que se pretende medir con el test.
3. Descripción general de los componentes del constructo.
4. Diseño del test.
5. Redacción de los ítems.
(Consulta a expertos y estudio de campo)
6. Análisis de la calidad de los ítems.
7. Estudio de la fiabilidad del test.
8. Estudio de la validez del test.
9. Elaboración de las normas de aplicación, interpretación y baremación de las puntuaciones.
Aunque parezca evidente, no siempre se realiza a nivel práctico el hecho de que el objetivo o
posibles usos más frecuentes del test sea fundamental y determinante a la hora de concretar y dar
sentido al resto de pasos de la construcción de un test. La forma de aplicación, la duración de la
prueba, el tipo de ítems, su nivel de dificultad, etc., todos ellos son aspectos que están en función del
objetivo para el que se vayan a utilizar las puntuaciones. Objetivo que se concreta en: características
1
Este capítulo es genérico y, por lo tanto, lo que en el se expone pretende ser de aplicación general
a la medición a través de todas sus posibilidades de escalamiento. Pero, debido a que los tests son los
instrumentos de medida más frecuentemente utilizados, a veces ofreceremos informaciones que son de interés
general pero lo son muy especialmente para las Teorías de los Tests.
117
34
118 Procedimiento General de Construcción de una Prueba
de la población y tipo de inferencias o usos que se van obtener de la prueba. Hasta tal punto es
importante el objetivo o usos que se hagan del test, que más correcto que decir de un test que es
válido sería decir que es válido o útil para determinadas aplicaciones.
No es tan extraño encontrar tests que no tienen explicitada una definición clara de objetivos. ¿Con
cuántos exámenes nos encontramos que tienen como referente una simple evaluación de contenidos,
más o menos circunstanciales, pero sin un claro planteamiento de objetivos didácticos en ninguno
de sus niveles? Si los exámenes no se refieren a objetivos, posiblemente sea porque los programas
están desprovistos de objetivos y posiblemente, lo que sería más grave, hasta los planes de estudio
pudieran estar desprovistos de objetivos.
Las mediciones en Psicología pueden responder a una gran variedad de objetivos y contextos:
evaluar el rendimiento académico, realizar diagnósticos clínicos, seleccionar aspirantes a puestos de
trabajo o a becas, orientar la trayectoria educativa, evaluar la congruencia o efectividad de
programas, etc. Es necesario ser conscientes de que cada uno de estos tipos de objetivos plantea unas
exigencias específicas a lo largo de todo el proceso de construcción. No es igual el test que pretende
la medición de un constructo teórico aptitudinal o de personalidad, que realizar una evaluación
académica, una selección de personal o un diagnóstico (más información a este respecto en Prieto
y Delgado, 1996). No es lo mismo, por ejemplo, elaborar un tests de psicometría para establecer la
linea base de la que partir en unas clases de recuperación (ítems fáciles), que hacerlo para diferenciar
los distintos niveles de conocimientos, que hacerlo para adjudicar una beca (ítems difíciles).
Podemos concluir que declarar explícitamente el objetivo para el que van a utilizarse las
puntuaciones ayuda a la definición del constructo en sus dos posibles vertientes:
1. La definición de una teoría consistente y sustantiva que relaciona el constructo con otros
constructos o variables empíricas de su entorno. Esto es lo que, dentro de la técnica de
modelos estructurales, se suele llamar parte estructural de un modelo o teoría.
2. La definición de los comportamientos que pueden considerarse como indicadores del
constructo. Aspecto semántico u operativo de cada constructo que en los modelos
estructurales, se identifica con el modelo de medida del constructo (Bollen, 1989). Por
ejemplo, mediremos la actitud hacia la psicometría recogiendo información sólo de los
componentes de dicha actitud que estén relacionados con el rendimiento en psicometría.
Los dos aspectos considerados anteriormente suelen corresponderse con dos acepciones o
evidencias de validez: Validez de contenido y validez predictiva. A su vez, la validez de Constructo,
más global y defendida últimamente, asume ambas acepciones de la definición del constructo. A ello
vamos a dedicar el siguiente apartado.
Parece claro, por lo dicho, que es importante conocer los objetivos del test para así tener más fácil
los contenidos o lo que, a un nivel superior de abstracción, podemos llamar definición del constructo.
Por lo tanto, a partir de los objetivos hemos de dar un paso más que nos acerque a la elaboración
de los ítems que serán la materia prima con la que vamos a medir el atributo o constructo del que se
trate en cada caso, o los genes de los que depende la calidad del test resultante (Osterlind, 1989).
La definición del constructo se debe realizar de la manera más sistemática posible. Hay dos
grandes aproximaciones para hacer la definición de los constructos. En función de la novedad o no
del objetivo que nos planteemos con la prueba y del tipo de test del que se trate se insistirá más en
un procedimiento u otro. Pero las dos aproximaciones siguientes las presentamos separadas, más en
aras de claridad terminológica que porque creamos que son dos procesos excluyentes (Padilla, 1995):
118
35
Definición del Constructo 119
1. Aproximación inductiva o exploratoria. El autor del test escribe un gran número de ítems que
supuestamente miden el constructo (después presentaremos algunos recursos a los que acudir
para tener ciertas garantías de validez de contenido). A continuación, se administran los ítems
a un grupo grande de personas. Las respuestas de las personas a los ítems son analizadas
mediante técnicas estadísticas para buscar patrones de relación entre los ítems. El autor del test
“pone nombre ...” a esos patrones de relación y de esta forma “define” el constructo. La
aproximación trabaja desde las respuestas de las personas hacia la definición del constructo.
Sobre este procedimiento de aproximación al constructo hay que manifestar algunas reservas
si se llevara a cabo en sentido estricto. Un proceso inductivo en el que se parta de un total
desconocimiento de lo que se quiere medir, dará lugar a resultados azarosos y posiblemente
inesperados, pues dependería completamente de circunstancias o preferencias arbitrarias y
descontroladas.
2. Aproximación deductiva o confirmatoria. El constructo no se mide en el vacío. Está insertado
en una teoría que dirige la propia definición del constructo indicando los comportamientos que
pueden considerarse indicadores del constructo. La contrastación de las hipótesis estructurales
que pone de manifiesto la teoría determinará la validez del test. Esta aproximación va desde
la teoría hacia los hechos.
Normalmente, se parte de situaciones en las que se tiene un cierto conocimiento del constructo
que se quiere medir, aunque a posteriori la investigación también aumente el bagaje de conocimien-
tos sobre dicho constructo. Así pues, se trata de dos procedimientos no excluyentes que, como suele
ocurrir en el proceso investigador en su conjunto, funcionan de forma complementaria. Además, no
se debe confundir el proceso inductivo para la construcción de ítems sobre un constructo novedoso,
con la despreocupación por conocer sobre el constructo que se quiere medir.
Tradicionalmente, el autor del test ha obtenido la información necesaria para definir el constructo
mediante los siguientes procedimientos (Croker y Algina, 1989; Martínez-Arias, 1995):
1. Revisión bibliográfica. Tener presentes las conductas o indicadores que hayan utilizado otros
investigadores para medir el mismo constructo y de los que podemos tener conocimiento por
sus publicaciones.
2. Análisis de contenido. Este procedimiento consiste en hacer preguntas abiertas relativas al
constructo que nos interesa a personas conocedoras del constructo o que son elementos de la
población objetivo y cuyas respuestas pueden indicar categorías conductuales representativas
del constructo.
3. Juicio de expertos. Se trata de pedir a personas “expertas” a través de entrevistas o
cuestionarios que nos indiquen qué tener en cuenta y, por lo tanto, medir en los sujetos por lo
que respecta al constructo .
4. Identificación de incidentes críticos. La particularidad de este procedimiento está en que
pedimos a personas cercanas a sujetos típicos de nuestra población objetivo, que nos
identifiquen comportamientos tipo de los distintos niveles del constructo.
5. Observación directa. El autor del test recoge la información mediante observación directa de
personas que manifiestan el constructo. Los comportamientos de estos sujetos que el autor
considere relevantes serán propuestos como posibles indicadores del constructo.
De esta forma hemos de conseguir la mejor aproximación a una buena y clara definición del
constructo o constructos a medir; tanto desde el punto de vista estructural o de teoría psicológica en
el que se encuadra, como operativo o de delimitación del tipo de indicadores comportamentales que
habremos de utilizar.
119
36
120 Procedimiento General de Construcción de una Prueba
Evidentemente, como el lector puede estar pensando, es muy difícil hacer un buen test, pero hay
algunos recursos, estrategias o ayudas para proporcionarnos como resultado un cuadro de contenidos
o de especificaciones del test. A ello dedicaremos el apartado siguiente (Osterlind, 1989).
Los constructos pueden variar desde los muy específicos y estrechamente definidos (p.e. el
atractivo de un nuevo modelo de coche) a los muy generales y, casi por definición, multidimensiona-
les (p.e. satisfacción con el trabajo). La ventaja de las escalas o subescalas unidimensionales es que
explican el por qué de su posible utilidad predictiva o diagnóstica. Mientras que en las pruebas de
rendimiento, de selectividad, o, en resumidas cuentas, de orientación práctica, lo único que importa
120
37
Descripción General de los Componentes del Constructo 121
es su utilidad y no su validez teórica o de constructo1 (El concepto de validez será desarrollado más
ampliamente en otro tema).
Las especificaciones del test y de los ítems son el recurso más frecuentemente utilizado,
especialmente en los tests de rendimiento, para garantizar que el test tenga validez de contenido.
Estas especificaciones no son otra cosa que una especie de árbol descendente que partiendo de los
objetivos de medida planteados con el tests llegue a objetivos específicos, operativos o evaluables,
pasando por puntos intermedios en los que los objetivos se cruzan con contenidos, taxonomías
cognitivas, etc (ver figura 5.1). Estas especificaciones frecuentemente incluyen, a través de un
cuadro de especificaciones del test, ponderaciones de los distintos apartados que resulten como
constitutivos del test, para orientar al redactor y aconsejarle la proporción de ítems que debe haber
de cada apartado del test. A modo de ejemplo, se puede observar el cuadro de especificaciones del
examen de Psicometría del curso 1996/97 de esta facultad de Psicología (ver tabla 5.1).
Tabla 5.1.- Cuadro de especificaciones del examen de Psicometría del curso 1996/97 (con los pesos en % ).
Después de este intento de conseguir la mejor validez de contenido por parte de los diseñadores
del test, se habrán de construir los ítems o el banco de ítems de la prueba. Siguiendo las directrices
de la tabla 5.1. se suele construir un banco de ítems que triplique, al menos, el número de ítems del
test resultante. El primer criterio al que se suele someter este banco de ítems es el del juicio de
expertos a través de dos tipos de tareas (Osterlind, 1989) que tienden a identificar y evaluar el
entramado o red de afinidad entre los distintos niveles de objetivos, contenidos y taxonomías
1
Entendemos por validez teórica o de constructo a la congruencia entre las relaciones que nosotros
encontramos de nuestro constructo con otras variables y las que se encuentran en la literatura existente sobre el
tema.
121
38
122 Procedimiento General de Construcción de una Prueba
cognitivas que dan lugar a los objetivos evaluables que constituyen el último elemento de la figura
5.1., así como las casillas de la tabla 5.1.
Los protocolos tipo, propuestos por Osterlind (1989), serán presentados en el apartado 5.7. de este
tema, que trata sobre el análisis de ítems1. Con su uso se pretende:
1.- Descubrir cuál es el objetivo de medida que intenta cubrir cada ítem.
2.- Evaluar en una escala de 1 a 3 o de 1 a 5 el grado de adecuación de cada ítem a su objetivo u
otro criterio interno o externo al test.
El diseño del test consiste en el conjunto de decisiones que el autor debe tomar relacionadas con
la “estructura” o “forma” del test. En este momento del proceso de elaboración debe considerar:
Diseñar el test es preparar la información necesaria para elaborar la población inicial de ítems.
El autor del test en este paso como en los anteriores debe asegurar que el test final aportará la
información necesaria para alcanzar el objetivo para el que van a utilizarse las puntuaciones. Todas
las decisiones que tome debe someterlas al criterio siguiente: ¿contribuye a lograr el objetivo para
el que van a utilizarse las puntuaciones?
Examinemos con algún detalle cada una de las cuestiones anteriores, relativas al diseño del test.
Es imposible fijar a priori el número de ítems que debemos hacer para constituir la población
inicial de ítems. También es evidente que, como después someteremos los ítems de esa población
inicial a un proceso formal de revisión para conocer su calidad, habrá que elaborar más ítems de los
que en última instancia formarán el test final.
Tampoco podemos olvidar que el modelo lineal aditivo de las escalas tipo Likert y de la Teoría
Clásica de los Tests recomienda elaborar tests largos, para favorecer el que podamos obtener
mediciones fiables. El supuesto sobre el valor nulo del promedio de los errores de medida de los
items del test sólo se podrá alcanzar cuando el número de ítems es suficientemente grande.
La regla más común establece intentar elaborar tres o cuatro veces más ítems de los que prevemos
formarán el test final. Por ejemplo, para un test que previsiblemente tendrá 10 ítems podemos
intentar elaborar 30 ó 40 para la población inicial. No obstante, si por las peculiaridades de la
variable resulta especialmente difícil redactar ítems, podemos disminuir la regla intentando elaborar
sólo el doble de ítems para formar la población inicial.
1
En realidad estos protocolos de depuración de ítems a partir de juicios de expertos se pueden utilizar en
todas y cada una de las distintas fases de depuración (prepiloto, piloto, ...definitivo).
122
39
Descripción General de los Componentes del Constructo 123
Cuando hablamos de tipo de ítems nos referimos al formato del ítem que se va a diseñar y que,
lógicamente, viene determinado por el tipo de constructo que se vaya a medir y por la finalidad de
uso que se le va a dar a la prueba. Por lo que respecta al formato de los ítems, la primera decisión
a tomar es si el sujeto debe construir la respuesta (respuesta abierta) o si ha de seleccionarla de entre
las propuestas. Las primeras se adaptan mejor a los procesos cognitivos complejos y en los que es
primordial la actividad o producción del sujeto, mientras que los segundos son últimamente
preferidos por su mayor precisión o fiabilidad, además de por su mayor rapidez de corrección.
El tipo de alternativa de respuesta es la forma en que se va a pedir a las personas que respondan
al test. Los tipos de alternativas de respuesta más frecuentes en tests de ejecución máxima (para
mayor información sobre ventajas e inconvenientes de cada tipo de ítems consultar Osterlind,1989)
son:
p.e.: (todos estos ejemplos de tipos de ítems han sido tomados de J. Muñiz, 1994)
5- Elección múltiple .- Suelen tener entre tres y cinco alternativas de respuesta, de entre las que el
sujeto tiene que elegir cuál es la correcta, o la más correcta si hubiera varias que pudieran ser
consideradas como correctas. No obstante, hay pruebas psicométricas que ofrecen la posibilidad de
elegir varias alternativas como correctas, e incluso de ordenarlas en cuanto al grado de corrección;
pero crean algunos problemas de calibración o de obtención de las puntuaciones en el atributo que
se mide.
p.e.:
123
40
124 Procedimiento General de Construcción de una Prueba
la derecha. Constituyen una forma rápida de preguntar y responder sobre una gran cantidad de
contenidos, pero no es adecuado para evaluar sobre procesos cognitivos de mayor complejidad.
p.e.: Un ítem en el que se pida al sujeto que relacione fechas y echos históricos; y en el campo de
la Psicometría podemos poner este ítem (op. cit.)
4.- Completar, sustituir o corregir algún o algunos elementos de una frase o serie estimular. Este
tipo de ítems evitan la influencia del azar, pero al igual que en el caso anterior son excesivamente
memorísticos.
p.e.:
Se dice que un test tiene validez de........................cuando los ítems muestrean adecuadamente el
dominio.
contenido *
5.- Respuesta corta. Se pide la respuesta sin oferta de alternativas de respuesta. Con ello se evita
la influencia del azar. Pueden ser adecuados para evaluar la claridad con la que se han asimilado
algunos conceptos simples. Como todas las respuestas abiertas, éstas también pueden tener
problemas de fiabilidad.
p.e.:
¿Cómo se denomina la correlación entre test y criterio?
coeficiente de validez *
6.- Ensayo.- Ítems que requieren respuestas más largas y con mayor tiempo que en el tipo anterior,
e incluso en ellos se suele permitir el uso de materiales complementarios.
p.e.:
Exponga sus conocimientos acerca de la validez aparente.
Para intentar objetivar la puntuación o corrección de este tipo de ítems se suele recurrir a varios
jueces o correctores a los que se les provee de listas de control de categorías a evaluar en las
respuestas; así como de las escalas de calificación más adecuadas para cada una de las categorías de
respuesta (Rivas, 1983).
En los tres primeros tipos de ítems la actividad del sujeto consiste en seleccionar la respuesta y
en los dos últimos los sujetos tienen que generar la respuesta. En el tipo de ítem cuarto todo depende
de que se oferten elementos de entre los que elegir el correcto o no.
De forma general no se puede afirmar que un tipo de reactivo sea mejor que otros. Siempre cabe
responder: depende de para qué, cómo y cuándo.
124
41
Dise½o del Test 125
- Cuando se utilizan cifras (números, fechas, etc.) en las alternativas es conveniente presentarlas
ordenadas para evitar confusiones innecesarias por parte de los sujetos. p.e.:
"En una distribución normal al percentil 95 le corresponde una Z entre:
a) -0.5 y 1.0
b) 1.0 y 1.5
c) 1.5 y 2.0 *"
- Conviene evitar el uso como última alternativa de "todas las anteriores", pues conociendo que una
de las anteriores es incorrecta, ya queda descartada esta última. Por ir contra la lógica seguida en
el control de los efectos del azar (ver apartado siguiente).
En general, todas estas recomendaciones y otras muchas que se podrían hacer se resumen en el
buen uso del sentido común de cara a intentar que la puntuación en el test, y, por lo tanto, las que
se obtengan en los ítems, dependan exclusivamente o al menos en la mayor medida del constructo
que se mide y no de otros constructos ajenos, como suelen ser las habilidades lingüísticas, etc..
Para mayor información sobre tipos de reactivos el alumno puede consultar F. Rivas (1983, 1er
tomo).
En los cuestionarios de personalidad o actitudes (tests de ejecución típica) se suelen utilizar
formatos del tipo SI/NO, SI/NO/A VECES, o escalas tipo Likert (más adelante se hablara de este tipo
de escalamiento) en las que el sujeto gradúa o pondera su respuesta en escalas de 3 a 9 posibles
valores. En estas escalas de actitudes se suelen distinguir tres tipos de alternativas de respuesta:
Las alternativas de acuerdo piden a la persona que indique el grado de acuerdo con la información
presentada en el enunciado del ítem. Habitualmente, son bipolares -registran el acuerdo y el
desacuerdo- y simétricas respecto a un punto neutro. A través de las alternativas de respuesta, el
sujeto indica si está “fuertemente”, “moderadamente” o “ligeramente” de acuerdo o en desacuerdo
con el enunciado del ítem. Los modificadores (p.e. muy, bastante, ...) deben ser los mismos para el
125
42
126 Procedimiento General de Construcción de una Prueba
acuerdo y el desacuerdo, haciendo que las elecciones de respuesta sean simétricas. Para alcanzar esta
simetría, no es imprescindible incluir un punto neutro. Las alternativas de acuerdo son las más
populares y versátiles, utilizándose para una gran variedad de variables.
El siguiente ítem del ejemplo muestra la utilización de alternativas de acuerdo:
C Un trabajo bien hecho es una buena medida de lo que vale una persona
Muy en desacuerdo 1 2 3 4 5 Muy de acuerdo
Las alternativas de evaluación piden a la persona que haga un juicio en una dimensión de
“bueno-malo” (o “adecuado-inadecuado”, “correcto-incorrecto”, etc). Las alternativas suelen ir desde
lo positivo (excelente) a lo negativo (terrible ...). Pueden utilizarse para medir actitudes o hacer
juicios sobre la calidad de la ejecución en diferentes dominios.
El siguiente ítem con alternativas de evaluación pertenece a un test para medir los aspectos del
trabajo que más valoran las personas:
C Buen sueldo
Nada importante 1 2 3 4 5 Muy importante
Las alternativas de frecuencia suelen preguntar a las personas cuantas veces ocurre algo o debería
ocurrir. Pueden utilizarse alternativas numéricas o verbales (una vez por día, una vez a la semana...).
Suelen extenderse desde “nunca...” a “Siempre”. Pueden utilizarse para medir variables de
personalidad cuando se necesita que la persona indique con qué frecuencia realiza determinados
comportamientos (o para describir el ambiente, indicando cuantas veces ocurre algo).
En un test para medir el tipo de atribución que hacen las personas sobre las causas del paro
juvenil podemos encontrar el siguiente ítem de frecuencia:
Hay muchos constructos para los que cualquiera de estos tipos puede servir, para otros unas
alternativas serán más adecuadas que otras. (p.e. comportamiento de voto). La decisión sobre si
utilizar un tipo u otro de alternativa de respuesta debe justificarse en relación con el criterio expuesto
en párrafos anteriores: ¿qué tipo de alternativa contribuye más al objetivo para el que van a utilizarse
las puntuaciones aportadas por el test?
Otra decisión importante es el número de alternativas de respuesta en las pruebas de actitudes.
A priori puede pensarse que cuanto mayor sea el número de alternativas obtendremos una mayor
precisión en las respuestas. En principio, esto es cierto y por ello hay tests que utilizan hasta 100
posibles valores de respuesta. El criterio es considerar la capacidad de las personas que van a
responder al test para discriminar entre diferentes alternativas, es decir, para discriminar su nivel de
acuerdo, juicio o evaluación sobre el contenido del enunciado del ítem. Por lo mismo, de 3 a 9
alternativas pueden ser adecuadas para la mayoría de los constructos y situaciones.
En los tests de aptitudes y de rendimiento suele ser frecuente ofrecer varias alternativas de
respuesta, de las cuales suele ser sólo una la correcta. Algunos autores se han planteado cuál es el
número óptimo de alternativas de respuesta con miras a optimizar la fiabilidad y validez de la prueba.
El disponer de más alternativas de respuesta hace disminuir la probabilidad de acertar por azar, pero
también hace necesario disminuir el número de ítems (lo que afecta negativamente a la fiabilidad y
validez del test). De los trabajos realizados sobre este tema cabe resaltar a Lord (1977, 1980) que tras
una buena revisión de las aproximaciones precedentes deriva la siguiente fórmula:
126
43
Dise½o del Test 127
1
A ' 1 % (5.1)
(1& r)p
Donde:
p: Índice de dificultad deseable de los ítems a construir.
r: Relación entre dos ítems equivalentes con infinitas alternativas.
A la vista de la literatura existente, y sin que esté plenamente demostrado en todas las
circunstancias, parece ser tres el número aconsejable de alternativas de respuesta en los tests de
alternativas de respuesta con una correcta (Lord, 1977 y 1980).
Es el momento de pensarse cómo contribuirá cada ítem a la puntuación total del test o
puntuación en el constructo. En los tests de ejecución máxima se suele valorar la respuesta a cada
reactivo de forma dicotómica : correcta = 1 punto e incorrecta 0 puntos. Así se obtendría la
puntuación total como la suma de unos, esto es, como la suma de aciertos. Cuando se responde
eligiendo una alternativa de entre la posibles respuestas ofertadas se suele aconsejar corregir la
puntuación total con el número de errores. Guilford (1936) y Lord (1952) afirman conseguir con esta
corrección sobre las puntuaciones del test una cierta mejoría en el coeficiente de validez de la prueba.
La lógica consiste en que si queremos que la P.D. (Puntuación Directa) refleje lo que el sujeto
sabe o posee del constructo, hay que restar al número total de aciertos (AT), el número de veces que
el sujeto ha acertado por azar (AA):
(5.3)
AA ' R(Al)( P(Ac)
1 (5.4)
P(Ac) '
K
Sabiendo que el número de Errores (E) es igual al número de (R(Al)) multiplicado por la
probabilidad de errar (P(E)) cada vez que se responde al azar:
E ' R(Al)( P(E) (5.5)
127
44
128 Procedimiento General de Construcción de una Prueba
Despejando R(Al):
E (5.6)
R(Al) '
P(Ec)
1 KE E (5.9)
AA ' ( '
K K & 1 K & 1
Por fin, sustituyendo 5.9. en .5, tenemos la puntuación directa descontando de ella los aciertos
por azar:
E (5.10)
PD ' AT &
K & 1
Pero frecuentemente el comportamiento del sujeto, cuando sabe que sus errores van a restar
puntos de la puntuación total, no es espontaneo y deja sin reponder items sobre los que tiene cierto
grado de certeza sobre la respuesta correcta. Para evitar este problema algunos autores (Renom
Pinsach, 1997) proponen un procedimiento alternativo. Este, consiste en evaluar el número de ítems
que se saben a partir del número de ítems que se aciertan, el número de alternativas de cada ítem y
del número de ítems que se intentan responder (ver ecuación 5.11).
128
45
Dise½o del Test 129
1 − PS
PAT = PS + ; KPAT = KPS + 1 − PS
K
KPAT − 1
KPAT = ( K − 1) PS + 1 ⇒ PS =
K −1
AT
K( &1
IR
PD ' (IR (siendo IR el número de intentos de respuesta)
K&1
(5.11)
AT
K( &1
n
PD ' (n (siendo n el número total de ítems)
K&1
AT
K( &1
n
NOTA ' (NM (siendo NM la nota máxima de la prueba)
K&1
En los tests de ejecución típica no se puede decir que haya respuestas correctas o incorrectas y,
por lo tanto, no cabe restar errores para obtener la puntuación resultante1. La puntuación total se
obtiene como resultado de la suma de las puntuaciones en los ítems que utilizamos como indicadores
del constructo correspondiente. Las distintas posibles respuestas a los ítems han de poder ordenarse
a lo largo del continuo que representa el constructo. Por ejemplo, las alternativas de frecuencia
varían desde la no ocurrencia (nada o nunca) a la ocurrencia constante (siempre o continuamente).
La ordenación a lo largo del continuo permite la cuantificación de las alternativas de respuesta.
Dependiendo del constructo es posible que los números varíen desde el 0 a valores positivos
(escalas unipolares como las de frecuencia), o tener el 0 como centro de la escala y disponer de
valores positivos y negativos (escalas bipolares o de acuerdo).
En las escalas unipolares las alternativas de respuesta se valoran de forma consecutiva, desde el
número más bajo (habitualmente 1) al más alto (habitualmente 5). En las escalas bipolares las
alternativas pueden enumerarse de la misma forma con valores negativos y positivos, y el 0 como
punto neutro. Si se utilizan ítems redactados de forma positiva y negativa habrá que tener cuidado
para invertir las puntuaciones de los ítems negativos, o viceversa.
1
Aunque sí existe algo parecido como es el efecto de la deseabilidad social, cuya influencia hay que
intentar evitar.
129
46
130 Procedimiento General de Construcción de una Prueba
En los tests de personalidad, la puntuación total en cada escala o subescala es igual al numero
de ítems constitutivos de dicha escala y que el alumno ha respondido afirmativamente, pudiendo (a
veces) ser computado un ítem en varias subescalas.
Cuando los ítems se ponderan de forma diferenciada la puntuación total de un sujeto en la prueba,
independientemente de que sea de ejecución máxima o típica, es igual a la suma, para todos los
ítems, de la ponderación por la puntuación del ítem. También en este caso se puede corregir el
efecto del azar pero, debido a su complejidad, no consideramos importante especificar la fórmula.
La redacción de los ítems, tal y como hemos planteado el procedimiento de construcción de una
prueba, consiste en escribir los enunciados y demás componentes de los ítems (el tipo de alternativa
de respuesta es elegido en el paso anterior). Al igual que ocurre con otros pasos, en la elaboración
del test no hay unas normas, criterios o recomendaciones que garanticen totalmente la redacción de
enunciados de calidad. Escribir buenos enunciados para los ítems es una habilidad que progresa con
la práctica. Pero, para evitar en la medida de lo posible los primeros fracasos, creemos pertinente
transmitir algunas recomendaciones obtenidas del libro de Osterlind (1989).
Algo muy importante es la precisión en el lenguaje. El ítem debe ser breve, no ambiguo, sin
palabras irrelevantes o tautológicas y sin términos polisémicos. Se evitarán las palabras estereotipa-
das y las dotadas de prejuicios o sesgos. No conviene intentar hacerse el simpático con la redacción
de los ítems, pues ello puede despertar en el sujeto que responde actitudes insospechadas y que, casi
seguro, no tendrán nada que ver con el atributo que se pretende medir. Del cumplimiento de estas
consignas se debe derivar que entre el escritor de ítems y el que los responde haya un total acuerdo
en el significado de lo que se pregunta.
Los ítems están constituidos por unos elementos o partes claramente diferenciadas que
presentamos en el cuadro 5.1.
En su formato más simple un ítem está constituido por un tronco, enunciado o pregunta y, en el
formato más frecuente, varias alternativas de respuesta: una es la respuesta correcta (o en su caso
la más correcta) y los demás son los distractores. Frecuentemente esta unidad básica va acompañada
por el planteamiento de algo (problema, texto, ilustración, diagrama..etc) que se utiliza como objeto
sobre el que referir la/las pregunta/s. Cuando esto es así, el ítem va acompañado por una instrucción
(en negrita) que dirige la actividad del sujeto a leer el texto, ver el gráfico y responder al/los ítem/s.
Si esta referencia va acompañada por varios ítems que preguntan sobre ella se suele hablar de
superítem. Esta estructura de ítem/s permite mayores posibilidades a la hora de preguntar sobre
referentes de una cierta complejidad y evaluar procesos cognitivos distintos.
Es recomendable evitar las frases incompletas como tronco del test y sustituirlas por enunciados
declarativos o interrogativos. Porque estos son más consistentes con las alternativas, que además así
estarán expresadas de forma más completa. Con ello se ponen en funcionamiento procesos
cognitivos de nivel superior al de la simple memorieta de rellenar el hueco o completar la frase.
En los tests de ejecución máxima, se suelen utilizar alternativas de una única respuesta correcta,
o bien de las que una de ellas es la mejor respuesta correcta o la más correcta. El primer tipo de
alternativas suele requerir del sujeto el recuerdo de hechos o información, mientras que las del tipo
de la mejor respuesta correcta requieren de juicio y discriminación, consecuentemente son más
difíciles y pueden ser utilizadas para mayor variedad de propósitos de medida ( p.e. los niveles
cognitivos como análisis, síntesis, evaluación, etc).
130
47
Redacción de los Ítems 131
Hay que tener ciertas precauciones con las alternativas del tipo todas las anteriores o ninguna
de las anteriores. Solo son recomendables cuando el enunciado del ítem lo pida, pero no como
recurso para completar el número de alternativas. Permiten dotar de una mayor dificultad el ítem
pero hay que tener cuidado de no dar pistas con el resto de alternativas. Este tipo de alternativas son
incompatibles con los ítems del tipo de la mejor respuesta correcta.
Hay que tener cuidado con el uso de determinantes o cualificadores en los ítems. No suelen ser
recomendables por dotar de una cierta indefinición o subjetividad al ítem. Además pueden dar pistas
sobre la respuesta correcta.
131
48
132 Procedimiento General de Construcción de una Prueba
132
49
LECTURA BÁSICA Nº 4
TEMA: REDACCIÓN DE REACTIVOS
50
164 INTRODUCCIÓN A LA PSICOMETRÍA CONSTRUCCIÓN DE TESTS 165
c. Especificación de las características de la situación de eva- elección múltiple (multiple choice) que comentaremos en esta
luación: por ejemplo, en un texto de divulgación científica, sección.
seleccionar las ideas principales y parafrasear el conteni- Para Nunnally (1991), los dos errores más comunes en la re-
do de las mismas. dacción de ítems son: a) la ambigüedad, con preguntas vagas
d. Características de la respuesta: se especifica cuál es la res- que admiten varias respuestas, por ejemplo, “¿que pasó con el
puesta que se espera del estudiante evaluado, por ejemplo, Arte en el siglo XV?”, y b) la trivialidad, al centrarse en aspec-
que seleccione correctamente las ideas principales. tos poco importantes del constructo o dominio, por ejemplo, re-
querir la memorización de fechas irrelevantes. Bandura (2001)
Además de definir el dominio es necesario delimitar aspectos recomienda adicionalmente evitar el argot técnico que no forma
complementarios del test, tales como la finalidad y la población parte del lenguaje cotidiano y los ítems que incluyen aspectos
meta del test (por ejemplo, un inventario de autoinforme para diferentes (multidimensionales) de un constructo para los cua-
evaluar el autoconcepto en niños), el modo de aplicación (indivi- les los individuos pueden tener diferentes percepciones, tales
dual o colectivo, por ejemplo), el formato de respuesta (dicotó- como: ¿cuán seguro te sentís de nadar y remar adecuadamente?
mica o tipo likert, por ejemplo) y el tiempo de administración Es obvio, en el ítem anterior, que una persona puede sentirse
(duración del test), entre otras consideraciones preliminares competente para nadar pero no para remar, y viceversa.
(Hogan, 2004). El plan inicial del test también debe prever las En la evaluación educativa, merece un apartado especial la
instrucciones de administración y el modo de calificación e in- construcción de pruebas objetivas con preguntas cerradas, ya
terpretación de las respuestas (puntuaciones originales, trans- sea del tipo verdadero/falso o de alternativas múltiples. Según
formadas o ipsativas, por ejemplo). Bloom (1966), estas pruebas son útiles para la medición de al-
gunos objetivos cognoscitivos de nivel básico, tales como:
6.2. Redacción de los ítems • Recordar (creador del coeficiente de correlación, por ejem-
plo).
Existen pautas convencionales para la redacción de ítems de • Comprender (el concepto de confiabilidad, por ejemplo).
tests. Éstas incluyen recomendaciones del tipo: • Aplicar un concepto general o utilizar información para re-
solver un problema (dada la media y la desviación están-
• Redactar ítems congruentes con el objetivo de medición. dar de una distribución, obtener la puntuación estándar
• Evitar los ítems demasiados largos (de más de 20 voca- correspondiente al puntaje original X).
blos). • Analizar, que se refiere al pensamiento crítico, es decir, a
• Evitar las oraciones complejas con ambigüedades de sentido. identificar causas y realizar inferencias en base a informa-
• Evitar las frases con doble negación. ción específica (interpretar los coeficientes alfa del test X e
• Evitar el uso de expresiones extremas (nunca, siempre, to- indicar qué factores pueden haber afectado la consistencia
dos). interna de ese test).
• Utilizar el lenguaje más apropiado al nivel de maduración
y educativo de la población meta de la medición (Oester- Para los objetivos cognoscitivos de nivel superior, tales como
lind, 1990). evaluar (juzgar el valor de materiales, tests o métodos estadísti-
cos, por ejemplo) y crear (diseñar una investigación para verifi-
Recientemente, Moreno, Martínez y Muñiz (2004) han for- car la estabilidad de un test, por ejemplo), se requiere otro tipo
mulado otras directrices útiles para la redacción de ítems de de pruebas, tales como las de preguntas abiertas o ensayo, así
51
166 INTRODUCCIÓN A LA PSICOMETRÍA CONSTRUCCIÓN DE TESTS 167
como ítems que combinan la computación con el audio, el video 4. Se deberá evitar redactar la proposición base como enun-
y la realidad virtual en la formulación de las preguntas y el for- ciado negativo, a menos que la finalidad sea reforzar el
mato de respuesta, dentro de la denominada evaluación autén- aprendizaje de lo que no debe hacerse.
tica (Moreno, Martínez y Muñiz, 2004). Seguramente la evalua- 5. La base no debe contener expresiones que puedan debili-
ción del futuro exigirá pruebas con ítems que permitan medir de tar o confundir la respuesta correcta.
manera más pertinente el pensamiento creativo (divergente) y 6. Cuando se intenta evaluar la comprensión de términos, es
la resolución de problemas reales de una disciplina (Woolfolk, preferible que estos conceptos se mencionen en la base, y
2006). las descripciones o definiciones se incluyan en las alterna-
A continuación se explicitan algunas recomendaciones para tivas de respuesta.
la construcción de ítems en las pruebas de opciones múltiples, 7. Debe evitarse que el ítem se refiera a contenidos triviales.
puesto que son difíciles de elaborar adecuadamente. En ese sen- Lo esencial del contenido debe incluirse en la base, no en
tido e ingeniosamente, Woolfolk (2006) comentó que muchos es- los distractores, para evitar la lectura de material extenso
tudiantes llaman a estas pruebas “de adivinación múltiple”, por o redundante que dificulte la comprensión del ítem.
lo mal que frecuentemente se elaboran.
Estos tests incluyen un enunciado, tronco o base, por ejem- Con referencia a las alternativas de respuesta (distractores y
plo: “el método más adecuado para evaluar la estabilidad tem- clave u opción correcta):
poral es…” y una serie de alternativas o respuestas posibles, ta-
les como: a) partición en mitades, b) acuerdo de jueces, y c) test- 1. El ítem deberá contener una sola opción correcta, la cual
retest. tiene que estar acompañada por distractores que sean
Con referencia al enunciado o base del ítem, las principales plausibles para el estudiante que no conoce la respuesta
recomendaciones son: correcta y fácilmente desechables para el que la conoce.
2. Todas las alternativas deberán ser gramaticalmente se-
1. Debe contener un esquema de indagación completa (que el mejantes e igualmente aceptables desde el sentido común.
estudiante no necesite leer las alternativas para emitir la La distancia conceptual entre la opción correcta y los dis-
respuesta correcta). tractores debe ser amplia, pero lo suficientemente limita-
2. Se debe incluir lo estrictamente necesario para la com- da como para que no se rechace a estos últimos por obvios.
prensión de las respuestas. Una ventaja de las puntuacio- 3. Por lo general, tres alternativas de respuesta son suficien-
nes estándar es…, por ejemplo, y no: Hay varios tipos de tes puesto que el formato de cuatro opciones es más difi-
puntuaciones derivadas. La puntuación estándar es espe- cultoso de elaborar y, muchas veces, la elección de la últi-
cialmente ventajosa por… ma opción de respuesta resulta algo forzada. Redactar
3. Es preferible que las palabras que puedan repetirse en las tres alternativas para un contenido determinado es más
alternativas se incluyan sólo en la proposición base. Un sencillo e igualmente confiable.
ítem del tipo de: “Una puntuación percentil: a) indica el 4. En cuanto al formato, se deberá evitar que la alternativa
porcentaje de ítems que se respondieron de manera co- correcta sea la más larga.
rrecta; b) indica el porcentaje de casos que obtuvieron una 5. Se deberán evitar las expresiones muy literales que expli-
puntuación igual o menor a cierta puntuación original”, quen el texto de estudio y que favorezcan la mera memori-
etc., por ejemplo, puede mejorarse con una base que expre- zación.
se: “Una puntuación percentil indica”, evitando repetir 6. Las alternativas incorrectas deberán tener el mismo gra-
“indica” en las alternativas. do de especificidad que la opción correcta de respuesta.
52
168 INTRODUCCIÓN A LA PSICOMETRÍA CONSTRUCCIÓN DE TESTS 169
7. La alternativa correcta deberá estar dispuesta aleatoria- contribuirá significativamente a la confiabilidad y validez de las
mente. En el conjunto de ítems que componen una prueba, puntuaciones del test a construir (Oesterlind, 1990).
la opción correcta debe estar repartida entre las distintas Los procedimientos empíricos que se utilizan para el juicio de
ubicaciones posibles (a, b, y c, por ejemplo). expertos acerca de la calidad de los ítems son los mismos que
8. Debe evitarse que un ítem pueda ayudar a la respuesta co- fueron descritos en el capítulo, de validez (en el apartado de evi-
rrecta de otro. dencia relacionada con el contenido). Por lo general se emplean
9. Las distintas opciones de respuesta al ítem tienen que ser escalas numéricas para que los jueces evalúen la calidad y con-
independientes entre sí, sin solaparse y sin referirse unas sistencia de los ítems y se descartan aquellos con puntuaciones
a otras pues ello introduce dificultades o facilidades inde- medias más bajas y con escaso grado de acuerdo, respectiva-
bidas. Por esta razón, deben limitarse las expresiones del mente. Pueden utilizarse estadísticos de concordancia, tales co-
tipo “todas las anteriores” o “ninguna de las anteriores”. mo el coeficiente kappa mencionado en el capítulo 3 de confiabi-
La mayoría de los estudiantes inteligentes conocen que las lidad de los tests. Se recomienda que los ítems seleccionados
respuestas categóricas de este tipo son casi siempre inco- sean aquellos que, al menos, un 60% de los jueces consideran
rrectas. meritorios (Herrera Rojas, 1998). Es útil también incluir pre-
guntas adicionales sobre los ítems (sobre su facilidad de com-
Por último, deberían redactarse al menos el doble (40, por prensión, por ejemplo) que faciliten una redacción más adecua-
ejemplo) de los ítems que constituirán el test final (20), puesto da de algunos de ellos.
que muchos serán descartados en el proceso de revisión de ex- No deberíamos confiar exclusivamente en el juicio de los ex-
pertos y el análisis estadístico ulterior. pertos y siempre es conveniente realizar una prueba piloto en
una muestra pequeña, con el objetivo de corroborar empírica-
mente que los ítems sean claros y comprensibles para la pobla-
6.3. Revisión de expertos ción meta del test.
53
LECTURA BÁSICA Nº 5
TEMA: REDACCIÓN DE REACTIVOS PARA ESCALAS DE
ACTITUDES
García Sánchez, J., Aguilera Terrats, J. R., & Castillo Rosas, A. (2011). Guía
técnica para la construcción de escalas de actitud. Odiseo, revista electrónica
de pedagogía, 8 (16).
54
Año 8, núm. 16, enero-junio 2011. ISSN 1870-1477
Formatos de lectura: PDF / HTML -- Sobre los autores -- PARA CITAR este artículo :
García Sánchez, J., Aguilera Terrats, J. R., & Castillo Rosas, A. (2011). Guía técnica para la
construcción de escalas de actitud. Odiseo, revista electrónica de pedagogía, 8 (16).
Recuperado el {día, mes y año} a partir de: http://www.odiseo.com.mx/2011/8-
16/garcia-aguilera-castillo-guia-construccion-escalas-actitud.html
Resumen: El presente artículo trata de ser, de una manera muy sintética, una guía
técnica para construir paso a paso uno de los instrumentos más utilizados para la
recogida de información dentro de las ciencias sociales; las escalas de actitud.
Particularmente utilizado tanto por la psicología como por la sociología, este instrumento
se encuentra dirigido en general, a la medición de aspectos relativos a la “intensidad” de
un sentimiento o una actitud de un grupo de personas respecto a un tópico o un tema en
particular.
El uso y procedencia de la escala, como instrumento para la recogida de información, se
emparenta con el enfoque cuantitativo dentro de la investigación de corte social. Su
construcción puede ser muy onerosa en términos de tiempo y esfuerzo, sin embargo, es un
instrumento muy utilizado por lo que vale la pena generar una guía técnica que, como la
presente, permita a aquellos interesados en su desarrollo y aplicación tener los elementos
mínimos indispensables y básicos para su implementación. Tal es pues el objetivo del
presente artículo, mismo que fue desarrollado con fines didácticos para apoyar,
precisamente, un taller sobre investigación social en el ámbito de la educación superior.
55
GARCÍA, AGUILERA, Y CASTILLO GUÍA TÉCNICA PARA LA CONSTRUCCIÓN DE ESCALAS DE ACTITUD
Actitudes y escalas
Una actitud es una predisposición aprendida para responder consistentemente de una
manera favorable o desfavorable ante un objeto o sus símbolos (Fishbein y Ajzen, 1975;
Oskamp, 1977). Así, los seres humanos tenemos actitudes hacia muy diversos objetos o
símbolos, por ejemplo: actitudes hacia el aborto, la política económica, la familia, un
profesor, diferentes grupos étnicos, la ley, nuestro trabajo, el nacionalismo, nosotros
mismos, etc.
Las actitudes están relacionadas con el comportamiento que mantenemos en torno a los
objetos a que hacen referencia. Si mi actitud hacia el aborto es desfavorable,
probablemente no abortaría o no participaría en un aborto. Si mi actitud es favorable a
un partido político, lo más probable es que vote por él en las próximas elecciones. Desde
luego, las actitudes sólo son un indicador de la conducta, pero no la conducta en sí. Por
ello las mediciones de actitudes deben interpretarse como "síntomas" y no como "hechos"
(Padua, 1979). Si detecto que la actitud de un grupo hacia la contaminación es
desfavorable, esto no significa que las personas están adoptando acciones para evitar
contaminar el ambiente, pero sí es un indicador de que pueden irlas adoptando
paulatinamente. La actitud es como una "semilla", que bajo ciertas condiciones puede
“germinar en comportamiento”.
Las actitudes tienen diversas propiedades, entre las que destacan: dirección (positiva o
negativa) e intensidad (alta o baja), estas propiedades forman parte de la medición
(Hernández Sampieri, 1999, pp. 255).
Las actitudes no son susceptibles de observación directa sino que han de ser inferidas de
las expresiones verbales, o de la conducta observada. Esta medición indirecta se realiza
por medio de unas escalas en las que partiendo de una serie de afirmaciones,
proposiciones o juicios, sobre los que los individuos manifiestan su opinión, se deducen o
infieren las actitudes.
Las escalas son instrumentos muy utilizados para medir actitudes y valores. Definimos
una escala como una serie de ítems o frases que han sido cuidadosamente seleccionados,
de forma que constituyan un criterio válido, fiable y preciso para medir de alguna forma
los fenómenos sociales. En nuestro caso, este fenómeno será una actitud cuya intensidad
queremos medir.
• Escalas Thurstone
• Escalas de Guttman
• Escalas de Likert
Los dos primeros tipos de escala se describen brevemente y la de Likert de estudia más a
fondo y se ejemplifica.
56
GARCÍA, AGUILERA, Y CASTILLO GUÍA TÉCNICA PARA LA CONSTRUCCIÓN DE ESCALAS DE ACTITUD
Escala de Thurstone
Esta escala es utilizada, principalmente, para la medición de actitudes y valores. Los
principales pasos para su construcción son:
b) Establecer once categorías para calificar cada afirmación, siendo la primera la más
favorable, la undécima la más desfavorable y la sexta, neutra.
d) Atribuir a cada enunciado un valor escalar igual a la mediana de las categorías que le
han asignado los jueces.
e) Seleccionar los enunciados menos ambiguos: los que tienen menos sensibilidad en las
categorías asignadas por los jueces.
f) Elegir un número de enunciados (en general unos veinte), que son los que constituyen
la escala definitiva.
En la aplicación de la escala, los sujetos se limitan a señalar las afirmaciones con las que
están de acuerdo. La puntuación máxima coincide con el número de afirmaciones de la
escala; si hay 20, caso más general, la puntuación máxima será de 20.
Esta escala se encuentra con una gran dificultad: lo laborioso de su construcción. Otro de
los inconvenientes es que combinaciones diferentes de respuestas, puedan dar una misma
puntuación global
Escala de Guttman
Es un tipo especial de escala sumatoria, en cuanto que el valor total de los ítems que la
componen no puede calcularse, a menos que éstos tengan entre sí una relación lógica de
inclusión en la escala. La persona (juez o experto) que acepta un ítem debe, lógicamente,
aceptar aquellos que le siguen sucesivamente en orden de inclusión. Por esto la escala
Guttman recibe el nombre de escala acumulativa. Más que un procedimiento para medir
actitudes es una técnica para establecer si un conjunto de ítems constituye o no una
escala unidimensional.
Escala de Likert
Las escalas de Likert, en las cuales haremos un énfasis un poco mayor, están formadas
por un conjunto de preguntas referentes a actitudes, cada una de ellas de igual valor. Los
sujetos responden indicando acuerdo o desacuerdo. Se establecen generalmente cinco
Odiseo. Revista Electrónica de Pedagogía.
México. Año 8, núm. 16, enero-junio 2011. ISSN 1870-1477. Página 3
57
GARCÍA, AGUILERA, Y CASTILLO GUÍA TÉCNICA PARA LA CONSTRUCCIÓN DE ESCALAS DE ACTITUD
rangos, pero pueden ser tres, siete, o más. El sujeto señala con una cruz o un círculo la
categoría elegida para cada persona.
A la Escala de Likert también se le llama escala aditiva, ya que cada sujeto obtiene como
puntuación global la suma de los rangos otorgados a cada elemento.
Numéricas: 1 2 3 4 5
Gráficas:
2) Construcción de una serie de ítems relevantes a la actitud que se quiere medir. Este
paso se conoce también con el término de “operacionalización de la variable”.
3) Administración de los ítems a una muestra de sujetos que van a actuar como jueces,
para que les asignen puntajes, según su sentido positivo o negativo.
4) Se asignan los puntajes totales a los sujetos de acuerdo al tipo de respuesta en cada
ítem (la suma es algebraica).
6) Análisis de los ítems utilizados para eliminar los que resulten inadecuados.
58
GARCÍA, AGUILERA, Y CASTILLO GUÍA TÉCNICA PARA LA CONSTRUCCIÓN DE ESCALAS DE ACTITUD
Elaboración de Ítems
Un ítem es una frase o proposición que expresa una idea positiva o negativa respecto a un
fenómeno que nos interesa conocer. Por ejemplo, el ítem: "Las normas sobre utilización de
carretillas elevadoras dictadas por la empresa, en la práctica cotidiana, son de difícil
cumplimiento", expresa una opinión sobre un tema: la política normativa de la empresa, y
se refiere concretamente al manejo de carretillas. La posición valorativa de tal afirmación
hecha por un individuo se puede considerar como un indicador de su opinión sobre dicha
política normativa, sobre el uso de carretillas elevadoras, sobre la seguridad en la
empresa, etc.
Las proposiciones pueden presentarse con una redacción tal que indiquen directamente
una actitud contraria al objeto de referencia de tal modo que el estar de acuerdo con esa
proposición signifique tener precisamente una actitud con ese sentido o dirección. Se
habla de ítems negativos o inversos; y de ítems positivos o directos en la situación
contraria.
Hay investigaciones que construyen sus escalas con todos los ítems negativos, por las
diversas ventajas que ofrecen, como:
• Tienden a discriminar mejor, es decir, establecen con claridad las diferencias entre
personas con distintas actitudes.
59
GARCÍA, AGUILERA, Y CASTILLO GUÍA TÉCNICA PARA LA CONSTRUCCIÓN DE ESCALAS DE ACTITUD
• Pueden redactarse de tal modo que expresen una hostilidad con mayor sutileza, sin
herir los valores democráticos de algunas personas. (Levinson, 1964)
Lo más aconsejable es usar dentro de una misma escala ítems positivos y negativos.
Una vez formulados los ítems conviene proceder a su revisión, tanto en lo que se refiere a
su forma como a su contenido.
a) Cada proposición debe ser debatible, debe reflejar una opinión, no un hecho.
e) Cada proposición debe ser completada en cuanto a expresar una actitud definida hacia
un asunto único.
Número de ítems
El número varía según la naturaleza de la variable a medir y está determinado por el
grado de profundidad que desea alcanzar el investigador. Al respecto, conviene recordar
que los ítems elegidos pretenden ser una muestra del universo de indicadores de esa
variable.
60
GARCÍA, AGUILERA, Y CASTILLO GUÍA TÉCNICA PARA LA CONSTRUCCIÓN DE ESCALAS DE ACTITUD
Para la solución del problema anterior se han propuesto tres soluciones o procedimientos:
c) Ponderación arbitraria
El procedimiento que mejor cumple los supuestos teóricos de esta escala sumatoria es el
de la desviación sigma, sin embargo en la práctica, lo más usual es asignar una
ponderación arbitraria, en la cual se pueden usar los números 1, 2, 3, 4, 5, o bien 2, 1, 0, -
1, -2, para cada una de las categorías de muy de acuerdo (5) de acuerdo (4), etc.
Una vez que las personas han contestado todos los ítems, se calculan los puntajes
escalares individuales, sumando para cada persona los puntajes de cada una de las
categorías de respuestas que señaló, según su particular grado de acuerdo-desacuerdo con
las proposiciones.
Al calcular los puntajes totales de cada persona debe tenerse la precaución de convertir a
su verdadero valor los puntajes de los ítems negativos o inversos que se han mezclado con
ítems positivos.
61
GARCÍA, AGUILERA, Y CASTILLO GUÍA TÉCNICA PARA LA CONSTRUCCIÓN DE ESCALAS DE ACTITUD
c) Método de Edwards.
Si una escala definitiva consta de 10 ítems con puntajes que van de 1 a 5, los valores
teóricos máximos y mínimos son 50 y 10 respectivamente. Los valores reales de la escala
pueden emplearse directamente o bien pueden agruparse en categorías, lo cual puede
resultar a veces más apropiado. La categorización de la escala suele hacerse en forma
arbitraria tanto en lo que se refiere al número de categorías como a los límites numéricos
de cada una de ellas.
62
GARCÍA, AGUILERA, Y CASTILLO GUÍA TÉCNICA PARA LA CONSTRUCCIÓN DE ESCALAS DE ACTITUD
Diagrama No.1. Secuencia lógica para el desarrollo de una escala (fuente: los autores).
La lógica para construir una escala, que se muestra en el diagrama No.1, puede ser
analizada a través de un ejemplo práctico. Para ello, recurrimos al estudio realizado por
Adorno y colaboradores llamado “La Personalidad Autoritaria”, publicado en español en
el año de 1965 y del cual se presenta, de manera resumida, la metodología y los elementos
que permiten ilustrar las fases del diagrama. Estos componentes dieron origen a la
construcción de una de las escalas del estudio, denominada “Escala F”, de la cual se
toman algunos ítems como ejemplo.
63
GARCÍA, AGUILERA, Y CASTILLO GUÍA TÉCNICA PARA LA CONSTRUCCIÓN DE ESCALAS DE ACTITUD
Objetivo
Descubrir las correlaciones existentes entre la ideología de un individuo y los factores
sociales que han actuado en su vida pasada, sigan o no ejerciendo su influencia en el
presente. (Adorno, 1965, p.31).
64
GARCÍA, AGUILERA, Y CASTILLO GUÍA TÉCNICA PARA LA CONSTRUCCIÓN DE ESCALAS DE ACTITUD
i) Sexo (Sex). Preocupación exagerada por los “hechos” sexuales” (Adorno, 1965, p.234).
Ejemplos de ítems
A continuación se presenta, a manera de ejemplo, una selección de tres de las nueve
variables y dos ítems para cada una de ellas. Cabe aclarar que la Escala F completa
consta de un total de 58 ítems para las nueve variables que la constituyen.
1. La obediencia y el respeto por la autoridad son las principales virtudes que debemos
enseñar a nuestros niños.
24. Algunas personas nacen con la necesidad de saltar de los lugares altos.
50. Es un error confiar en alguien que no es capaz de mirarnos directamente a los ojos.
Conclusiones
La elaboración de un instrumento de medición no es una tarea fácil. Su diseño y
validación, tratándose de un instrumento dirigido a evaluar las actitudes humanas es
difícil, sobre todo, si se considera lo etéreo del problema. Esto último no tendría por que
ser considerado espinoso o caótico siempre y cuando se siguiesen ciertas reglas basadas
en la sistematización y la organización de los datos.
65
GARCÍA, AGUILERA, Y CASTILLO GUÍA TÉCNICA PARA LA CONSTRUCCIÓN DE ESCALAS DE ACTITUD
Bibliografía
Adorno, Frenkel-Brunswich y colaboradores (1965). La Personalidad Autoritaria,
Editorial Proyección. Buenos Aires.
Diseño de formas para la recolección de datos. (2005) [en línea]. Disponible en:
Fernández de Pinedo, Ignacio. (2005). Construcción de una escala de actitudes tipo Likert
[en línea]. Disponible en: http://www.mtas.es/INSHT/ntp/ntp_015.htm [consulta 2008, 24
de octubre].
http://roble.pntic.mec.es/~agarci19/Orientainterviene/Cuestautoestima/secundaria.htm
[consulta 2008, 18 de septiembre.
Osorio Rojas, Ricardo Arturo. (2005). El cuestionario [en línea]. Disponible en:
66
GARCÍA, AGUILERA, Y CASTILLO GUÍA TÉCNICA PARA LA CONSTRUCCIÓN DE ESCALAS DE ACTITUD
67
LECTURA BÁSICA Nº 6
TEMA: REVISIÓN POR JUECES
68
¤ Editorial UOC 146 Psicometría
Tabla 1
Edición Validez
69
¤ Editorial UOC 147 Capítulo III. Validez
2.1. Concepto
Supongamos que se desea elaborar un test para evaluar la personalidad. En este ca-
so, se decide trabajar dentro del marco teórico de los cinco factores de la personali-
dad (extraversión, apertura, responsabilidad, amabilidad y neuroticismo). Dado
que se trata de un test que se va a emplear en una selección de personal concreta,
solo interesan las dimensiones de responsabilidad (a), amabilidad (b) y neuroticis-
mo (c). En este ejemplo el constructo es la personalidad que está compuesta por las
cinco dimensiones. Las dos primeras, para los intereses del test que se está realizan-
do, son información irrelevante. Las otras tres son el dominio que interesa evaluar.
A partir de este dominio se construyen ítems destinados a evaluar la responsabili-
dad (a’), la amabilidad (b’) y el neuroticismo (c’). Dichos ítems deben tener relación
con el factor que pretenden medir, es decir, los ítems que evalúan responsabilidad
están relacionados con la definición que existe en la comunidad científica sobre di-
cho factor (relevancia). Pero a su vez los ítems deben preguntar por la totalidad del
dominio que evaluar (representatividad).
70
¤ Editorial UOC 148 Psicometría
Figura 2
2.2. Procedimiento
71
¤ Editorial UOC 149 Capítulo III. Validez
que evaluarán cada contenido o habilidad del dominio que evaluar; el formato
de los ítems y de las respuestas (AERA, APA y NCME, 1999) (usualmente en este
paso también se determinan las propiedades psicométricas que se desea que ten-
ga la prueba).
Tras realizar los ítems se debe acudir a un grupo de expertos en la materia,
que harán las veces de jueces. Para evitar cualquier sesgo, dichos jueces no de-
ben estar implicados en la elaboración del cuestionario. Estos deben analizar
cada uno de los ítems valorando en qué medida son representativos y relevantes
para evaluar el dominio de interés, tomando como definición de este la aporta-
da por los autores del test.
Se puede defender que existen, por tanto, tres aspectos bien diferenciados
que se deben tener en cuenta a la hora de comprobar las evidencias de la validez
de contenido: la definición del dominio, la representación de los ítems que eva-
lúan el dominio y su relevancia (Sireci, 1998).
Es recomendable que la valoración de los ítems la realice cada juez por separado
para, de este modo, evitar posibles sesgos a la hora de responder. Una vez que se
poseen las valoraciones de todos los expertos, se deben buscar aquellos ítems en
los que haya concordancia, seleccionándolos para formar parte del cuestionario.
Por ejemplo, si 8 de los 10 jueces determinan que un ítem destinado a medir
depresión realmente evalúa lo que pretende, dicho ítem tendrá un índice de
congruencia de 0,8. Se suelen considerar adecuados aquellos ítems que poseen
un índice de congruencia igual o superior a 0,7 (Sireci, 1998).
Los ítems en los que no haya acuerdo (que no alcancen un índice de congruen-
cia de 0,7) no tienen por qué ser eliminados. Es recomendable que con estos ítems
se realice un grupo de discusión con los expertos para que comenten las diferen-
cias tratando de llegar a un punto de acuerdo para mejorar dichos ítems.
Este es el procedimiento más habitual a la hora de valorar los indicios de va-
lidez de contenido, si bien no está libre de críticas. El principal problema que se
plantea en la utilización de expertos es que estos son altamente competentes en
el contenido que se evalúa, por lo que pueden pasar por alto un texto cuyo nivel
no sea adecuado para la comprensión de los sujetos que hay que evaluar o que
puede ser fácilmente malinterpretado. Es decir, aunque el experto nos puede
proporcionar información muy relevante, lo que realmente importa es cómo
percibe y reacciona ante el test o el ítem la persona que está respondiendo
(Leighton, 2004).
72
LECTURA BÁSICA Nº 7
TEMA: Análisis de reactivos
73
UNIVERSIDAD PRIVADA ANTONIO GUILLERMO URRELO
FACULTAD DE PSICOLOGÍA
ANÁLISIS DE LOS REACTIVOS
Prof. Rafael Leal Zavala
El análisis de las respuestas que da un grupo de sujetos a los reactivos de una prueba
cumple con varias funciones. Así, Aiken (1996)1 “…. el objetivo principal de un análisis
de reactivos es ayudar a mejorar la prueba al revisar o descartar los reactivos que no han
sido efectivos”. Otra función importante del análisis de ítems considerada por Aiken,
especialmente para las pruebas de rendimiento, es la posibilidad de obtener información de
diagnóstico sobre lo que los sujetos saben y no saben. En conclusión, el análisis de ítems
nos permite determinar qué ítems son pertinentes para nuestra prueba.
La conveniencia de un test –sea cual fuere su propósito- depende del esmero con que
se eligieron sus ítems. Para esta selección, los teóricos han desarrollado criterios tanto
metodológicos como estadísticos. Así, Muñiz (2002), nos plantea como tres índices mayor
uso para el análisis de ítems a:
- Índice de dificultad.
- Índice de discriminación
- Índice de validez.
a) Índice de dificultad.
Los primeros dos procedimientos suelen ser un primer paso, especialmente si los
ítems han de utilizarse en pruebas de aptitudes especiales, pruebas de ejecución en campos
1
Aiken, L. (1996). Test psicológicos y evaluación. 8va Edición. México. Prentice Hall Hispanoamericana.
74
(tales como la música y el arte) donde distinciones y opiniones cualitativas tienen que
servir de criterios. Pero el número o la proporción del grupo capaz de resolver el ítem
correctamente, es el método “típico” para determinar la dificultad de las pruebas objetivas.
Es éste el enfoque estadístico de la validez de los ítems, a diferencia del que se basa en
juicios.
ID = _A_
Donde
A 0 1 1 1 3
B 1 0 1 0 2
C 1 1 0 0 2
D 1 1 1 1 4
E 1 1 0 0 1
75
tabla anterior, por ejemplo, el ítem más fácil es el segundo, que es acertado por cuatro de
los cinco sujetos; sin embargo, su índice de dificultad es el mayor (4/5).
Nótese también que en muchos test no tienen ningún sentido hallar el índice de
dificultad de los ítems, por ejemplo, en test dirigidos a evaluar aspectos de personalidad, en
los que los ítems no son fáciles ni difíciles.
b) Índice de discriminación
76
- Correlación biserial.- Si una de las variables a correlacionar, que en las presentes
circunstancias suele ser el ítem, no es dicotómica por naturaleza, pero por alguna
razón se dicotomiza y se asume que bajo esa dicotomización subyace una variable
continua distribuida según la curva normal, puede usarse la correlación biseria (Pb)
para estimar el índice de discriminación. La situación citada se da con cierta
frecuencia, por ejemplo, cuando ítems que a pesar de admitir una gradación de
respuestas se dicotomizan. Si se puede evitar, es desaconsejable la dicotomización,
puesto que con ella siempre se pierde información, reduciendo la escala de
medición a sólo dos categorías.
- Coeficiente phi (Ø).- Si las variables a correlacionar, en nuestro ítem y test, son
ambas dicotómicas, un coeficiente adecuado para estimar el índice de
discriminación viene dado por el coeficiente Ø, que es una mera aplicación del
coeficiente de correlación de Pearson.
c) Índice de Validez
77
LECTURA BÁSICA Nº 8
TEMA: Confiabilidad
78
APUNTES SOBRE
¿CÓMO VALORAR DE
METODOLOGÍA UN LA
COEFICIENTE DE
INVESTIGACIÓN
CONFIABILIDAD?
Profesor del área de postgrado de la Universidad Pedagógica de Durango; actualmente se desempeña como
Coordinador del Programa de Investigación.
Referentes Conceptuales
79
incontestables, pues, al fin y al cabo, el error cometido, sea el que sea, está
diluido en la puntuación empírica y no hay manera de separarlo. Sin embargo,
se han creado un conjunto de estrategias con este propósito.
En el caso de las variables psicológicas, la propuesta pionera y más
fructífera para la estimación de los errores fue hecha a principios de siglo por
Spearman (en Muñiz, 1998 y 2003) y se denomina hoy Modelo Lineal Clásico,
dando origen a todo un enfoque general sobre los tests que suele conocerse
como Teoría Clásica de los Tests (Muñiz, 2003).
La propuesta de Spearman (en Muñiz, 1998) se basa, entre otros
supuestos, en la definición del concepto de tests paralelos (aquéllos que
miden lo mismo aunque utilizando distintos ítems). A partir de esta propuesta
surgen y se desarrollan una serie de estrategias para la medición de la
confiabilidad entre las que destacan:
• La correlación entre dos formas paralelas del test,
• La correlación entre dos mitades aleatorias del test corregida mediante
la fórmula de Spearman-Brown, y
• La correlación entre dos aplicaciones del mismo test a una muestra de
personas.
De manera simultánea a estas estrategias se desarrollaron un conjunto
de fórmulas para medir la consistencia interna del test, por lo que se
estableció un nuevo rubro de la confiabilidad centrada en la consistencia
interna. Entre las fórmulas más conocidas tenemos el coeficiente KR20 y
KR21 (Kuder y Richardson), o el popular Coeficiente Alfa de Cronbach,
Aunque existen distintas formas de evaluar la confiabilidad de la
medición realizada por el instrumento, se puede afirmar que las estrategias
test-retest y las de consistencia interna suelen ser las más utilizadas (Muñiz,
1996 y 2003).
La estrategia test-retest consiste en la aplicación de un mismo
instrumento a una misma muestra de sujetos en al menos dos momentos
diferentes. No existe un criterio único respecto de cual debe ser el lapso
adecuado entre la primera y segunda aplicación. Este se establece en función
de los fines del instrumento o la investigación (Muñiz, 1996).
Por su parte, las estrategias de consistencia interna permiten aplicar el
instrumento tan sólo una vez. Las dos estrategias más utilizadas son la
confiabilidad por mitades y el coeficiente alfa de cronbach.
a) Confiabilidad por mitades.
Una forma de evaluar la consistencia interna de un instrumento es
mediante el procedimiento de dos mitades; en este caso todos los
participantes responden una sola vez a la prueba. Sin embargo, se le asignan
dos puntuaciones a cada participante. Para lograr esto, la prueba se divide en
dos mitades. Las dos puntuaciones se pueden calcular dividiendo la prueba a
la mitad dependiendo del número de ítems o se puede dividir tomando los
ítems pares e impares. Se obtiene la correlación entre las dos puntuaciones
resultantes y se utiliza la fórmula de Spearman-Brown para estimar la
confiabilidad del instrumento completo.
Este tipo de confiabilidad es conocido como confiabilidad por mitades
(Cozby, 2005), método de las mitades o splitt-half method (Briones, 2001),
80
método de mitades partidas o splitt-halves (Hernández, Fernández y Baptista,
2006) o simplemente Split-half (Bonilla, 2006)
b) Confiabilidad en Alfa de Cronbach
El procedimiento más utilizado (Muñiz, 1996 y 2003) para evaluar la
consistencia interna de un test es el coeficiente Alfa de Cronbach.
La confiabilidad en Alfa de Cronbach es una generalización de las
fórmulas KR para ítems de alternativas múltiples. El Alfa de Cronbach, cuyo
cálculo emplea el promedio de todas las correlaciones existentes entre los
items del instrumento que tributan al concepto latente que se pretende medir
81
La confiabilidad de .80 o superior puede ser considerada como
moderada.
Alrededor de .70 se considera baja.
Inferior a .60 indica una confiabilidad inaceptablemente baja.
A manera de cierre
Lista de Referencias
82
Ilustración 1 La interpretación de los fenómenos J. M. L. A.
INVESTIGACIÓN EDUCATIVA
No. 6 enero de 2007 10
UNIVERSIDAD PEDAGÓGICA DE DURANGO
83
LECTURA BÁSICA Nº 9
TEMA: Confiabilidad
84
Telos
ISSN: 1317-0570
wileidys.artigas@urbe.edu
Universidad Privada Dr. Rafael Belloso Chacín
Venezuela
1. Generalidades de la confiabilidad
Dos características deseables en toda medición son la confiabilidad y la vali-
dez; al referirse a cualquier instrumento de medición en el campo de las ciencias
sociales y de la conducta, se consideran estas dos cualidades como aspectos claves
de la llamada “solidez psicométrica” del instrumento (Cohen y Swerdlik, 2001).
En esta Nota nos ocuparemos fundamentalmente de la confiabilidad y específica-
mente del coeficiente a (alpha) de Cronbach.
Algunos autores encuentran cierta similitud entre las acepciones cotidianas
y técnicas de la confiabilidad (Cozby, 2005; Kerlinger y Lee, 2002; Cohen y
Swerdlik, 2001). Variando un poco el ejemplo dado por el primero de estos auto-
res, en una pareja uno de los dos puede considerar altamente confiable al otro, en
el sentido de la puntualidad, porque generalmente llega a las citas a la hora conve-
nida. Vale comentar, que en esta situación un solo encuentro con retardo, aunque
sea el primero de los encuentros, no permite estimar la confiabilidad. No se de-
cepcione casi a priori!
La confiabilidad o fiabilidad, se refiere a la consistencia o estabilidad de una
medida. Una definición técnica de confiabilidad que ayuda a resolver tanto pro-
blemas teóricos como prácticos es aquella que parte de la investigación de qué
tanto error de medición existe en un instrumento de medición, considerando tan-
to la varianza sistemática como la varianza por el azar (Kerlinger y Lee, 2002).
Dependiendo del grado en que los errores de medición estén presentes en un ins-
trumento de medición, el instrumento será poco o más confiable.
A partir de estas consideraciones, los autores definen la confiabilidad como
la ausencia relativa de errores de medición en un instrumento de medida. Expre-
sado más explícitamente, un puntaje observado o medido es la suma de un punta-
je real o verdadero más un puntaje de error o error de medición (Magnusson,
248
86
Confiabilidad y coeficiente Alpha de Cronbach
2. Fuentes de Inconsistencia
Entre los factores que reducen la confiabilidad o consistencia de un instru-
mento de medición pueden considerarse (Nunnally, 1970): a. instrucciones no
estandarizadas, las originadas por el encuestador si las instrucciones del instru-
mento de medición son dadas oralmente sin tener un conjunto estándar de ins-
trucciones que pueda leerse invariablemente; b. errores en el registro de puntajes
de respuesta, vinculadas a la transcripción “a mano” de los distintos puntajes de
respuesta; c. errores debido al ambiente de medición, relacionados con la aplica-
ción de los instrumentos en condiciones ambientales distintas (iluminación, nive-
les de ruido, confort, etc.) a diversos grupos de encuestados; d. errores debidos al
muestreo de contenido, presentes en situaciones cuando el objetivo del instru-
mento es estimar un puntaje de los encuestados respecto al dominio de ciertos
contenidos; e. errores debidos a fluctuaciones en los encuestados, estrechamente
vinculados al individuo encuestado, como distracciones momentáneas, equivoca-
ción al momento de marcar una respuesta en la hoja, un lápiz o bolígrafo roto o
defectuoso, etc.
249
87
Milton Quero Virla
Telos Vol. 12, No. 2 (2010) 248 - 252
ger y Lee, 2002), las cuales eran solo aplicables a formatos binarios de calificación
o de respuesta (dicotómicas). Por lo tanto, con la creación del a de Cronbach, los
investigadores fueron capaces de evaluar la confiabilidad o consistencia interna de
un instrumento constituido por una escala Likert, o cualquier escala de opciones
múltiples. Se afirma que varias modificaciones de las fórmulas de Kuder y Richard-
son se han propuesto en el transcurso del tiempo, pero la que ha recibido mayor
aceptación hasta la fecha es el estadígrafo a Cronbach (Cohen, y Swerdlik, 2001).
Para determinar el coeficiente a Cronbach el investigador calcula la corre-
lación de cada reactivo o ítem con cada uno de los otros, resultando una gran can-
tidad de coeficientes de correlación. El valor de a es el promedio de todos los coe-
ficientes de correlación (Cozby, 2005). Visto desde otra perspectiva, el coeficien-
te a Cronbach puede considerarse como la media de todas las correlaciones de di-
visión por mitades posibles, otro método de cálculo de consistencia interna, las
buenas junto las malas (Cohen y Swerdlik, 2001).
5. Previsiones prácticas
Mientras que el conocimiento del grado de validez de un instrumento per-
mite usar significativamente los datos obtenidos con él, el conocimiento de su
confiabilidad permite usar los datos correctamente (Magnusson, 1978). Desde
250
88
Confiabilidad y coeficiente Alpha de Cronbach
Referencias Bibliográficas
Brown, Frederick G. (1980). Principios de la Medición en Psicología y Edu-
cación. Editorial El Manual Moderno. México.
Carmines, Edward and Zeller, Richard. (1979). Reliability and Validity
Assessment. SAGE Publications. USA.
Cohen, Ronald y Swerdlick, Mark. (2001). Pruebas y Evaluación Psicológicas.
Introducción a las Pruebas y a la Medición. McGraw Hill. México.
Cozby, Paul C. (2005) Métodos de Investigación del Comportamiento.
McGraw Hill. México.
Kerlinger, Fred y Lee, Howard. (2002). Investigación del Comportamiento.
Métodos de Investigación en Ciencias Sociales. McGraw Hill. Méxi-
co.
251
89
Milton Quero Virla
Telos Vol. 12, No. 2 (2010) 248 - 252
Lèvy M, Jean Pierre y Varela M., Jesús. (2005). Análisis Multivariable para las
Ciencias Sociales. Pearson. Prentice Hall. España.
Magnusson, David. (1978). Teoría de los Test. Editorial Trillas. México.
Nunnally, Jum C. Jr. (1970). Introduction to Psychological Measurement.
McGraw Hill. Japan.
Nunnally, Jum C. y Bernstein, Ira H. (1995). Teoría Psicométrica. McGraw
Hill. México.
252
90
LECTURA BÁSICA Nº 10
TEMA: Baremación
91
5
INTERPRETACIÓN DE PUNTUACIONES
5.1.1. Concepto
Un test está formado por varios ítems ante los cuales el indi-
viduo debe emitir sus respuestas. El resultado inicial de un test
es el puntaje bruto, directo u original que se obtiene por la su-
matoria de las respuestas correctas (en los tests de ejecución
máxima) o respuestas clave (en los tests de comportamiento tí-
pico) (Walsh y Betz, 1990).
En el caso de los tests construidos sobre la base de la teoría
de respuesta al ítem (TRI), esta puntuación original se denomi-
na puntuación theta. A diferencia de las puntuaciones origina-
les de tests basados en la teoría clásica de los tests (TCT), las
puntuaciones theta no se obtienen de la simple sumatoria de las
respuestas a los ítems, sino que resultan de la interacción de las
respuestas del examinado con las características de los reacti-
vos (la dificultad de los ítems, por ejemplo) (Hogan, 2004). Estas
puntuaciones varían entre -4 y 4, aproximadamente, y se inter-
pretan de manera semejante a las puntuaciones estándar que
examinaremos más abajo.
Pese a las particularidades de cada teoría (TCT o TRI), las
puntuaciones originales de tests son arbitrarias y, por lo gene-
ral, no poseen un significado unívoco. De esta manera, por ejem-
plo, es poco esclarecedor conocer que un individuo resolvió 15
problemas en un test de habilidades matemáticas de 30 ítems.
El hecho de que las puntuaciones originales no sean suficientes
92
138 INTRODUCCIÓN A LA PSICOMETRÍA INTERPRETACIÓN DE PUNTUACIONES 139
para interpretar los resultados obedece a limitaciones de los valencia entre puntuaciones originarias y transformadas que
tests como instrumentos de medición (Murat, 1985), tales como: permiten la comparación de los resultados individuales con los
de un grupo de referencia (Grasso, 1999). El paso b del esquema
1. Carecen de cero absoluto (el cero en puntuación no indica anterior es relativamente rutinario y no presenta dificultades
ausencia absoluta del rasgo porque nunca se realiza un especiales para un profesional entrenado en el test en cuestión.
muestreo exhaustivo o representativo de sus posibles “in- Los pasos a y c, en cambio, requieren conocimientos específicos
dicadores operacionales”). y se desarrollarán en el siguiente apartado.
2. No poseen unidades de medida constantes (situación muy Algunas precisiones semánticas previas son necesarias para
diferente a otras unidades de medida, como el metro para evitar confusiones; en efecto, tal como define el diccionario de la
medir la longitud o el kilogramo para el peso). Real Academia Española, los baremos son normas establecidas
por convención para evaluar los méritos personales. Por consi-
En los tests que miden rasgos latentes (como inteligencia o
guiente, ambos términos (normas y baremos) poseen el mismo
personalidad) la estrategia comúnmente empleada para atri-
significado en este contexto. Hemos optado, en general, por el
buir significado a las puntuaciones originales es comparar los
término “baremo” para no generar confusión con las “normas” o
resultados individuales con las puntuaciones del grupo de refe-
estándares técnicos de los tests psicológicos, un concepto más
rencia en la misma prueba.
general y anteriormente definido. No obstante, en la literatura
De esta manera, los puntajes originales individuales son
psicométrica en español las dos palabras se usan indistin-
comparados con la distribución de puntajes de uno o más grupos
tamente y con similar frecuencia. En inglés no existe esta difi-
de referencia (APA, 1999). Continuando con la ejemplificación
cultad, puesto que “norms” refiere a “baremos” así como “stan-
anterior, si sabemos que el 60% de los estudiantes de un curso
dards” a “normas técnicas”.
obtuvo puntajes de 15 o inferiores en el test de habilidades nu-
méricas, hemos agregado significado al puntaje original de este
estudiante.
5.1.2. Muestra de estandarización
Para poder realizar esta interpretación comparativa de los
puntajes individuales se requiere un proceso denominado estan-
Para Murat (1985), quien se propone aplicar un test tendrá
darización, el que se desarrolla mediante las siguientes opera-
que decidir entre: a) construir sus propias normas de interpre-
ciones:
tación de los puntajes (baremos), o bien, b) emplear los baremos
a) Selección de una muestra representativa de la población elaborados por otro investigador.
meta para la cual se elaboró el instrumento, o muestra de En este último caso se deben tomar precauciones especiales
estandarización. antes de utilizar el test, tales como confirmar que los baremos
b) Administración del test a esa muestra y registro de las estén actualizados y que la muestra de estandarización original
puntuaciones originales de los individuos. sea semejante a la población meta de un test particular. Estas
c) Transformación de las puntuaciones originarias en pun- consideraciones adquieren especial relevancia en nuestro me-
tuaciones derivadas que indican la posición relativa de los dio, dado que muchas veces no contamos con normas locales y el
puntajes directos individuales en relación con el grupo de profesional se ve enfrentado a la difícil situación de escoger en-
referencia. tre un baremo elaborado para una población diferente a la cual
pertenecen los individuos que pretende evaluar o no hacer uso
El producto final de este proceso de estandarización son los de baremo alguno.
baremos de un test, que han sido definidos como tablas de equi- Si se opta por el uso de baremos, la muestra de estandariza-
93
140 INTRODUCCIÓN A LA PSICOMETRÍA INTERPRETACIÓN DE PUNTUACIONES 141
ción original debería ser lo más parecida posible a la población de de referencia en situaciones de evaluación que no implican cla-
aplicación actual del test en características demográficas tales co- sificación de personas, en especial cuando se emplean tests de
mo sexo, edad, nivel educativo y nivel socioeconómico u otras va- comportamiento típico como los inventarios de intereses voca-
riables relacionadas con el desempeño en el test. Es muy impor- cionales o de personalidad (Goldberg, 1999; Cronbach, 1998).
tante que las muestras de estandarización sean cuidadosamente Ambas objeciones son atendibles y deberían considerarse antes
definidas y claramente descritas por los constructores del test pa- del empleo o construcción de un baremo.
ra que, de esta forma, el usuario pueda escoger aquellos instru- En particular, debe enfatizarse que si se construye un bare-
mentos cuyas normas sean apropiadas para su población meta. mo para interpretar los puntajes de un test, debe ser generado
No debe confundirse la elaboración de un baremo con el pro- a partir de una muestra representativa de la población meta de
ceso más complejo y comprensivo de adaptación de tests, que no evaluación. De otro modo, la utilización del baremo puede con-
sólo implica poseer normas adecuadas sino replicar los estudios ducir a intepretaciones equívocas y a errores considerables pa-
psicométricos esenciales del instrumento. La construcción de ra el autoconocimiento de los individuos o la clasificación efec-
baremos es sólo una condición necesaria pero no suficiente para tuada a partir de un test.
un empleo adecuado y éticamente responsable de tests elabora- Sin recursos humanos y económicos considerables es muy di-
dos en otros contextos socioculturales, problemática que se tra- ficultoso construir baremos nacionales o regionales. Una alter-
tará en el capítulo final de este texto. nativa factible es la de obtener normas específicas (una institu-
Para construir baremos se debe disponer de una muestra re- ción, por ejemplo) o de utilidad local (una ciudad pequeña, por
presentativa de la población que será evaluada por medio de un ejemplo) y para un grupo claramente definido (adolescentes ur-
test. Los baremos nacionales son extremadamente costosos y di- banos que cursan el secundario básico, por ejemplo). A su vez,
fíciles de obtener. La APA (1999) menciona diferentes tipos de los usuarios deben estar atentos a las situaciones en las cuales
normas (baremos) que pueden ser apropiadas para el uso de un los baremos son menos apropiados para algunos grupos de indi-
test dado: normas locales (de un determinado lugar geográfico), viduos que para otros. En un inventario de intereses ocupacio-
normas regionales y normas específicas (por ejemplo, de una nales, por ejemplo, los baremos utilizados para aquellas perso-
institución u ocupación). Es de especial importancia, sin embar- nas que se encuentran actualmente trabajando en alguna
go, que todos los baremos sean producto de un proceso de mues- ocupación pueden ser inapropiados para interpretar los punta-
treo técnicamente riguroso. jes de los individuos desocupados (APA, 1999).
Cuando un test es susceptible de aplicación a grupos distin- Las técnicas estadísticas para obtener muestras de estanda-
tos y existen diferencias significativas entre ellos en la variable rización van desde el muestreo aleatorio simple hasta estrate-
medida por el test, deben elaborarse baremos separados de mo- gias más sofisticadas como el muestreo aleatorio estratificado,
do que cada persona pueda ser comparada con su verdadero que reduce al mínimo la posibilidad de seleccionar una muestra
grupo de referencia. Éste es, por ejemplo, el caso de los inventa- no representativa (Aiken, 2003). En el muestreo aleatorio estra-
rios de intereses, en los que normalmente se presentan baremos tificado, la población meta es categorizada en una serie de va-
diferenciados por sexo, puesto que las mujeres y los hombres riables (sexo, edad, nivel socioeconómico, lugar de residencia)
(como grupo) difieren significativamente en sus perfiles de inte- que se supone poseen relación con el constructo medido por un
reses vocacionales. test y luego se seleccionan aleatoriamente submuestras propor-
Existen voces críticas al empleo de baremos debido a las difi- cionales de cada uno los estratos considerados.
cultades que se presentan para obtener muestras verdadera- Otro aspecto a tener en cuenta es el de actualización de los
mente representativas de una población determinada y a la uti- baremos. Algunos autores (Grasso, 1999; Aiken, 2003) reco-
lidad real de comparar los resultados individuales con un grupo miendan actualizar las normas cada cinco años, aproximada-
94
142 INTRODUCCIÓN A LA PSICOMETRÍA INTERPRETACIÓN DE PUNTUACIONES 143
mente, e inclusive antes si se presenta un cambio significativo, Las transformaciones lineales más utilizadas son las puntua-
tal como una modificación curricular importante en un nivel ciones estándar o z.
educativo. La actualización periódica de los baremos es un re-
quisito básico para la validez de las interpretaciones de los pun- Puntuación estándar (z):
tajes de test referidos a normas (APA, 1999).
Como señala Aiken (2003), al transformar las puntuaciones
originarias en puntajes z se obtiene una distribución que tiene
5.1.3. Métodos de transformación de puntuaciones la misma forma, pero una media y una desviación estándar di-
ferentes a las de la distribución de la puntuaciones originarias.
Recordemos que para interpretar comparativamente los re- La media de las puntuaciones z es igual a 0 y la desviación es-
sultados individuales de un test es necesario transformar las tándar es igual a 1. Los puntajes equivalentes z de una distribu-
puntuaciones directas (originales) en otras derivadas. Las ción particular de puntuaciones originales pueden calcularse
transformaciones para obtener estas puntuaciones derivadas por medio de la siguiente fórmula:
pueden ser de dos clases: lineales y no lineales.
X±M
Transformaciones lineales zi =
sx
Una transformación es lineal cuando se obtiene una nueva es-
cala de medición que respeta las distancias entre las unidades de Esto es, la puntuación estándar de un sujeto es igual a su
medida de la escala original. Es decir, un cambio en la puntua- puntuación originaria (X) menos la media de las puntuaciones
ción de la escala original se corresponde directamente con el cam- del grupo de referencia (M), dividido por la desviación estándar
bio de puntuación en la escala transformada. De esta manera, la (s) (Murat, 1985). Al efectuar esta transformación, la media del
relación entre los intervalos es independiente de la unidad de me- grupo de referencia es el punto de origen de la nueva escala de
dida empleada y del punto de origen de la escala. Esto se obtiene medición y la unidad de medida será la desviación estándar. En
restando un valor constante de cada puntuación original y divi- otras palabras, las puntuaciones estándar expresan la distancia
diendo el resultado por otra constante, como veremos más abajo. del individuo a la media en función de la desviación estándar de
Las transformaciones lineales no alteran la distribución ori- la distribución (Anastasi y Urbina, 1998).
ginal de frecuencias de las puntuaciones. Si la distribución ori- Un ejemplo de cálculo de puntuaciones estándar con una me-
ginal es normal continuará siéndolo después de ser transfor- dia (M) de 60 y una desviación estándar (s) de 5 para dos indivi-
mada y si, por el contrario, presenta una asimetría positiva o duos (S1 y S 2) sería el siguiente:
negativa, estas características también se mantendrán luego de
la transformación (Martínez Arias, 1995). Recuérdese que una Puntuación S1 Puntuación S2
distribución de frecuencias muestra la cantidad de sujetos que
obtuvieron un valor determinado o están incluidos en una cate- x1 = 65 x2 = 58
goría de la variable medida. Cuando la información de una ta-
bla de distribución de frecuencias se presenta gráficamente z1 = 65 - 60 z2 = 58 - 60
(histogramas o polígonos de frecuencias) hablamos de la forma 5 5
de distribución de las frecuencias, tales como distribuciones
normales o percentilares, entre otras. z 1= 1 z2= -0,40
95
144 INTRODUCCIÓN A LA PSICOMETRÍA INTERPRETACIÓN DE PUNTUACIONES 145
96
146 INTRODUCCIÓN A LA PSICOMETRÍA INTERPRETACIÓN DE PUNTUACIONES 147
Transformaciones no lineales
( fa + 0.50. fp).100
Px =
Las transformaciones no lineales, a diferencia de las lineales, N
asumen una distribución a priori (distribución normal, por
ejemplo) que altera la forma de la distribución de los puntajes Donde:
originales (Murat, 1985). Además, estas puntuaciones no pue- fa = Frecuencia acumulada hasta el puntaje original
den ser sumadas, promediadas o correlacionadas, puesto que no seleccionado
respetan las diferencias entre intervalos de la escala de medida fp = Frecuencia propia del puntaje original seleccio-
original. Poseen la ventaja comparativa de resultar fácilmente nado
comprensibles para personas sin conocimientos estadísticos es- N = Número total de casos
pecializados (maestros o estudiantes, por ejemplo). Las dos
transformaciones no lineales más usuales son los percentiles y Para ejemplificar el calculo de percentiles utilizando esta for-
las puntuaciones estándar normalizadas. mula se utilizarán los datos de la tabla siguiente.
a) Percentiles
Tabla 5.2. Datos sin agrupar del CIP-R
Los percentiles expresan el porcentaje de personas, en un
grupo de referencia, que queda por debajo de una puntuación Puntaje original Frecuencia Frecuencia acumulada
original determinada. Así, por ejemplo, si el 30% de los indivi-
duos de una muestra de estandarización obtuvo un puntaje 27 32 809
igual o inferior a 40 en un test, a una puntuación original de 40 26 25 777
le corresponderá un percentil 30 (P30). Un percentil es un punto 25 33 752
en la escala de medición originaria que divide el total de obser- 24 24 719
vaciones en dos partes. De este modo, el percentil 30 dejaría por 23 24 695
debajo el 30% de los casos de la muestra de estandarización y 22 25 671
por encima quedaría el 70% restante. 21 27 646
Con los percentiles empezamos a contar desde abajo, de tal 20 31 619
forma que a un percentil más bajo corresponde una posición 19 31 588
más baja del individuo en el test. El percentil 50 (P50) corres- 18 42 557
ponde a la mediana. El percentil 25 se corresponde con el pri- 17 35 515
mer cuartil (Q1) y el percentil 75 con el tercer cuartil (Q3). Estos 16 50 480
dos últimos percentiles suelen utilizarse como puntos de corte 15 54 430
para indicar la magnitud relativamente elevada y baja (respec- 14 38 376
tivamente) de un atributo determinado. 13 52 338
Si bien el cálculo de percentiles se realiza fácilmente desde 12 62 286
cualquier software estadístico (tal como SPSS, por ejemplo), a 11 73 224
continuación se ejemplifica el cálculo de estas puntuaciones a 10 74 151
los fines de esclarecer la lógica del procedimiento. La fórmula de 9 77 77
cálculo para datos no agrupados es la siguiente:
97
148 INTRODUCCIÓN A LA PSICOMETRÍA INTERPRETACIÓN DE PUNTUACIONES 149
Si, por ejemplo, quisiéramos calcular el percentil para la Tabla 5.3. Baremo en percentiles del CIP-R
puntuación original 25, tendríamos:
Percentil B C D E F G H I J K L M M
Px = (719+0,50. 33) . 100
1 6 9 8 10 8 8 8 8 8 7 6 8 6
809 5 6 9 8 10 8 8 9 9 8 7 6 9 6
10 6 10 8 11 8 8 11 10 9 7 7 11 7
Px = (719 +16,5) .100 = 90,91 25 8 11 9 12 8 9- 13 12 10 7 8 13 8
809 40 10 12 11 15 9 11 16 14 11 8 10 15 9
50 12 14 13 17 10 13 18 16 13 9 12 17 11
Es decir que a una puntuación bruta de 25 le corresponde un 60 13 16 16 19 10 14 19 17 15 11 13 18 12
percentil equivalente a 90,91. 70 14 18 18 21 12 15 21 19 17 13 15 20 13
El sumar a la frecuencia acumulada la mitad de la frecuen- 75 15 19 19 22 12 16 21 20 18 14 16 20 14
cia correspondiente a la puntuación para la cual queremos cal- 80 16 21 20 24 13 17 22 21 19 15 16 21 15
cular el percentil (0,50 x fp), en este caso la puntuación 25, se 90 17 24 22 27 15 19 23 23 21 18 17 23 16
debe a que se supone que la puntuación 25 representa un inter- 95 18 26 24 29 17 22 24 24 23 20 18 24 18
valo que va desde 24,5 a 25,5, en el que se reparten de forma ho- 99 18 27 24 30 20 24 24 24 24 21 18 24 18
mogénea todas las frecuencias. El punto medio de este interva-
Ref.: A = Lingüística, B = Musical, C = Humanística, D = Económica, E = Tecnológica,
lo es 25, por lo que se le asignan hasta ese punto la mitad de las F = Naturalista, G = Asistencial, H = Artística, I = Sanitaria, J = Cálculo, K = Jurídica,
frecuencias (Martínez Arias, 1995). L = Comunicacional, M = Científica.
La tabla 5.3. presenta un baremo expresado en percentiles.
La facilidad de interpretación de los percentiles los hace es-
pecialmente atractivos. Pero, a pesar de su sencillez, tienen una de seis unidades percentilares (percentiles 93 y 99); en cambio,
desventaja considerable si se los compara con las transformacio- en el medio de la distribución, a una distancia de 3 unidades en
nes lineales. Al respecto, debe recordarse que los percentiles puntuación original (20-23, por ejemplo) le corresponde una di-
operan en un nivel de medición ordinal y no intervalar, como los ferencia de 27 unidades en percentiles (43-70). Esto puede ser
puntajes z. Por consiguiente, este tipo de puntuaciones deriva- particularmente problemático cuando se utilizan puntuaciones
das altera profundamente la distribución de las puntuaciones percentilares en contextos de clasificación (véase el capítulo 4
originales, transformándola en una nueva distribución con mar- sobre validez) o selección de personas.
cada desigualdad de las unidades en diversos puntos de la esca-
la (Hogan, 2004). b) Puntuación estándar normalizada (zn)
Este problema no es trivial puesto que una diferencia en el
puntaje original del test implicará muchos percentiles de dis- Para facilitar la comparación de diferentes puntuaciones
tancia a la mitad de la distribución, debido a que los percentiles transformadas (puntajes z con percentiles, por ejemplo), se sue-
tienden a agruparse en el medio de la distribución, pero sólo le recurrir a transformaciones no lineales que modifican la for-
una diferencia mínima en percentiles en los extremos de la dis- ma de distribución de las puntuaciones originales, convirtiéndo-
tribución (Aiken, 2003). Así, por ejemplo, en el inventario NEO- las en una distribución normal.
PI-R (Costa y McCrae, 1999), a la distancia entre una puntua- En psicometría es muy importante la distribución normal, un
ción original de 27 y 30 (3 puntos) le corresponde una diferencia modelo estadístico que permite estimar probabilidades de ocu-
98
150 INTRODUCCIÓN A LA PSICOMETRÍA INTERPRETACIÓN DE PUNTUACIONES 151
99
152 INTRODUCCIÓN A LA PSICOMETRÍA INTERPRETACIÓN DE PUNTUACIONES 153
texto de Martínez Arias (1995) se presentan tablas exhaustivas 5.2. Otros métodos de interpretación de puntuaciones
de las áreas de la distribución normal, comprendidas entre z -3
a 3. 5.2.1. Puntuaciones ipsativas
Aplicando a los datos del ejemplo anterior la fórmula de la
transformación lineal, se tiene que: Si bien la interpretación referida a normas es la más utiliza-
da, existen otras formas de interpretación de los puntajes origi-
T = 1. 89 . 10 + 50 = 68.9 nales de un test. Una de estas formas alternativas de interpreta-
ción son las puntuaciones ipsativas. Estos puntajes se obtienen
Redondeando este valor final tenemos un T = 69. Como pue- en tests que utilizan un formato de ítems de elección forzada,
de observarse en la tabla precedente, la puntuación T corres- donde el examinado debe optar por una alternativa entre varias
pondiente al percentil 97 es 69. que lo describen. En estos tests, los ítems se califican de tal ma-
Las puntuaciones T se distribuyen en un rango que va desde nera que la elección de una de las opciones de respuesta produce
20 (aproximadamente 3 desviaciones estándar por debajo de la un incremento en la puntuación de una escala o dimensión me-
media) a 80 (3 desviaciones estándar por encima de la media). dida y al mismo tiempo una disminución en el puntaje de otra de
No deben confundirse estas puntuaciones con los valores t de las escalas o dimensiones del test. Por consiguiente, este tipo de
Student utilizados en las pruebas estadísticas de significación. puntuaciones muestra la fuerza “relativa” de las puntuaciones
La decisión de normalizar las puntuaciones no debería tomarse en lugar de la fuerza “absoluta” de las mismas (Hogan, 2004).
sin cuidado; por ejemplo, no es recomendable cuando la distri- Para comprender cabalmente esta última afirmación considére-
bución de puntuaciones originales del test se aleja considerable- se el siguiente ejemplo.
mente de una distribución normal (Martínez Arias, 1995). A los fines de medir intereses vocacionales se pueden utilizar
Las puntuaciones T también pueden obtenerse de manera dos formatos de respuesta diferentes:
más directa, utilizando la fórmula cálculo de z’, en este caso con
una media de 50 y una desviación estándar de 10. Con este pro- Formato A:
cedimiento no se altera la forma de la distribución de los punta-
Seleccione de cada par de actividades aquella que más le interese:
jes originales como acontece cuando se utiliza el procedimiento
de normalización anteriormente descrito, y esta variedad de
a. Resolver ecuaciones matemáticas o b. Aprender estilos de pintura artística
puntajes T se convierte en otro caso de transformación lineal,
a. Tocar un instrumento musical o b. Hacer cálculos numéricos
que revisamos en el apartado anterior (Kaplan y Saccuzzo,
2006).
Formato B:
En la actualidad, todos los cálculos requeridos para construir
baremos se realizan por medio de programas estadísticos com- Examine cada ítem e indique con una cruz en el casillero co-
putarizados. Sin embargo, conocer algunos procedimientos bási- rrespondiente su Desagrado (D), Indiferencia (I), o Agrado (A)
cos de cálculo como los anteriores facilita una mejor compren- por el mismo.
sión de la lógica de los mismos así como una interpretación
adecuada de las salidas (outputs) de la computadora. D I A
1. Resolver ecuaciones matemáticas
2. Aprender estilos de pintura artística
3. Hacer cálculos numéricos
4. Tocar un instrumento musical
100
154 INTRODUCCIÓN A LA PSICOMETRÍA INTERPRETACIÓN DE PUNTUACIONES 155
101
156 INTRODUCCIÓN A LA PSICOMETRÍA INTERPRETACIÓN DE PUNTUACIONES 157
mundiales (1914-1945), para luego ser retomada a mediados del es seleccionado con el fin de obtener información que permita
siglo pasado (Martínez Arias, 1995). Recién en los años setenta discriminar entre estudiantes, mientras que en las pruebas re-
se comenzó a aplicar sistemáticamente este tipo de pruebas, en feridas a criterios, el contenido se selecciona sobre la base de su
particular en la evaluación educativa. importancia para el currículo. Los tests con referencia a normas
La evaluación en educación se realiza con diferentes fines, se basan en las diferencias individuales y, por lo tanto, tienen
entre ellos: como objetivo primordial la selección y la predicción (Glaser,
1963). Por el contrario, las pruebas con referencia a criterio in-
a) determinar la calidad de un sistema educativo
tentan medir cambios en los propios individuos o grupos como
b) evaluar la adecuación de un currículo
efecto de una intervención educativa. Por consiguiente, estos
c) evaluar los efectos de un programa de enseñanza
tests resultan más adecuados para fines de diagnóstico y pres-
d) evaluar el rendimiento de los estudiantes
cripción de las experiencias de aprendizaje requeridas para ase-
e) seleccionar aspirantes a un curso o carrera
gurar el logro de determinados objetivos.
La evaluación educativa comenzó como un medio para selec- Como afirma Hogan (2004), es más apropiado hablar de in-
cionar alumnos, y los tests que más se utilizaron fueron los re- terpretación referida a normas y a criterio, puesto que la pun-
feridos a normas, cuyos resultados se interpretan en función de tuación de un mismo test puede interpretarse de estas dos for-
un grupo normativo o baremo. Siguiendo este modelo, posterior- mas. Imaginemos un test de aritmética elemental, con ítems
mente se construyeron tests referidos a normas para ser aplica- relacionados con operaciones básicas (suma, multiplicación, di-
dos con otros propósitos, tales como evaluar la calidad de un sis- visión, resta) para estudiantes de cuarto grado. Podría fijarse
tema educativo o el rendimiento académico. No obstante, un punto de corte del 75% de los ítems acertados (25 ítems, por
algunos especialistas en educación advirtieron que la aplicación ejemplo) como indicador de rendimiento satisfactorio en ese do-
de este tipo de pruebas no proporcionaba información adecuada minio (aritmética elemental). Ésta es una interpretación rela-
si, por ejemplo, el propósito esencial era evaluar el logro de los cionada con criterio. Por el contrario, las puntuaciones del mis-
objetivos propuestos por un sistema educativo. mo test podrían interpretarse en referencia a normas si esa
En los años sesenta, junto con la instrucción programada y puntuación de 25 (los ítems acertados) se comparase con el ren-
otros programas educativos semejantes, surge la necesidad de dimiento de la población meta (por ejemplo, todos los estudian-
una evaluación diagnóstica previa de los individuos y, a poste- tes de cuarto grado de una ciudad) y se determinara que es
riori, para verificar los cambios en los mismos como efecto de la equivalente al percentil 75 de la muestra de estandarización del
aplicación de esos programas. Estas razones impulsaron el de- test, por ejemplo.
sarrollo de este enfoque alternativo en la interpretación de pun- Los tests referidos a normas sugieren más bien cuánto han
tuaciones de tests, donde no interesa tanto comparar al indivi- aprendido los individuos pero no esclarecen adecuadamente qué
duo con la población a la cual pertenece, sino medir cambios de han aprendido. En cambio, las pruebas con referencia a criterio
cada individuo a lo largo del aprendizaje. informan la posición absoluta de un sujeto en relación con un
La evaluación referida a criterio supone una filosofía diferen- dominio conductual definido explícitamente. De este modo, cual-
te del quehacer educativo. Tal como argumenta Tyler (1978), la quier cambio de posición del individuo en ese dominio adquiere
función esencial del maestro no es identificar a los mejores y a un significado más claro, pues refleja un cambio interpretable
los peores alumnos sino tratar de que todos los estudiantes lo- en términos conductuales (Himmel, 1979). Cada estudiante es
gren los objetivos relacionados con dominios de aprendizaje es- capaz o no de exhibir una habilidad particular, generar un pro-
pecíficos. ducto específico o manifestar cierta conducta (Popham, 1975), y
Según Bond (1996) el contenido de un test referido a normas su desempeño debería valorarse con respecto a qué alcanzó co-
102
158 INTRODUCCIÓN A LA PSICOMETRÍA INTERPRETACIÓN DE PUNTUACIONES 159
mo logro, y no con referencia a cuánto logró en comparación en ítems correspondientes a cada objetivo para estimar el grado de
sus compañeros. logro del mismo. Con este mismo criterio se analizaron los por-
La interpretación referida a criterio es aplicable sólo en do- centajes de respuestas discriminadas según las variables consi-
minios específicos de contenido, tales como aritmética, ortogra- deradas: turno de asistencia (escuelas diurnas y nocturnas), se-
fía o las habilidades requeridas para el ejercicio de una ocupa- xo y tipo de escuela (estatal o privada).
ción (Hogan, 2004). El análisis de los resultados en este tipo de De esta manera se identificaron, por ejemplo, diferencias en
pruebas puede realizarse distinguiendo las habilidades o con- el rendimiento de los alumnos de escuelas diurnas y nocturnas
ductas en relación con un contenido temático que presentan ma- en relación con la habilidad de interpretación. A continuación se
yor dificultad y las que son más fáciles de adquirir. Para ello, analizan los resultados obtenidos para las preguntas correspon-
puede computarse el número de estudiantes que dan la respues- dientes al objetivo “conocimiento de criterios”.
ta correcta en cada ítem y dividirse esa frecuencia por el núme- La inspección de los datos anteriores permite inferir que, en
ro total de estudiantes. general, los alumnos no logran reconocer una noticia entre los
Como ejemplo, se presentan e interpretan los resultados ob- textos periodísticos o distinguir los géneros literarios (los porcen-
tenidos en una prueba de Lengua aplicada a niños de 6º grado tajes de acierto oscilan entre el 25 y el 29%). En cambio, sí cono-
de la Provincia de Córdoba (Ferreyra, 1982) con el propósito de cen aquellos criterios que les permiten identificar distintas fuen-
evaluar el rendimiento de los alumnos al terminar el ciclo pri- tes de información (los porcentajes de acierto oscilan entre el 75
mario. En este caso, se fijaron los siguientes criterios: si el por- y el 90%). Asimismo, se observa menor rendimiento en los alum-
centaje de aciertos en el ítem era igual o menor al 30% se consi- nos de escuelas nocturnas que en los de escuelas diurnas. Entre
deraron difíciles, si era igual o mayor al 70% se consideraban estas últimas, las escuelas privadas obtienen porcentajes de
fáciles. Sobre la base de esos porcentajes, se examinaron los acierto ligeramente superiores que las oficiales, y lo mismo se ob-
serva entre varones y mujeres (ligeramente superior en las mu-
jeres). En síntesis, y en referencia al objetivo “conocimientos de
Tabla 5.5. Resultados de una prueba de Lenguaje. criterios”, se puede concluir que el mismo no es logrado en todos
Objetivo de conocimiento de criterios sus niveles o dimensiones por los estudiantes de esta muestra.
Nota: ED: estatal diurna; PD: Privada diurna; EN: estatal nocturna.
103
LECTURA BÁSICA Nº 11
TEMA: Visualización de resultados
104
Visualización de resultados
'Raúl Gon.zález Velásquez
ANCAHY NOTARIO
Máster Docenci.a Univnsibria
Matsw.- de iillprHa.
esde la edición anterior del Manual de publicaciones, pocas áreas han sido transfor-
madas-por los desarrollos tecnológicos de una forma tan evidente como los métodos
disponibles para la visualización de resultados de experimentos e investigaciones:
tablas, gráficas, esquemas, mapas, dibujos y fotografías. Hoy en día casi todos los métodos
de visualización de información son el resultado de la manipulación electrónica de los da-
tos básicos, ya sea con procesadores de textos, hojas de cálculo, programas estadísticos, o
mediante un software altamente especializado para crear imágenes digitales. Estos cambios
han aumentado en gran medida la flexibilidad con la que cuentan los autores para mostrar
los resultados de manera eficaz.
Las tablas y las figuras les permiten a los autores presentar una gran cantidad de in-
formación con el fin de que sus datos sean más fáciles de comprender. Por lo general, las
tablas muestran valores numéricos o información textual (p. ej., listas de palabras estímulo)
organizados en una técnica de visualización en columnas y filas. Una figura puede ser un es-
quema, una gráfica, una fotografía, un dibujo o cualquier otra ilustración o representación
no textual. En ocasiones, la frontera entre las tablas y las figuras podría ser imprecisa. Sin
gj embargo, las tablas casi siempre se caracterizan por una estructura· conformada por filas y
w
-o
§ columnas. Cualquier tipo de ilustración que no sea una tabla se denomina figura.
tll
Q) En este capítulo, analizaremos los propósitos de las técnicas para la visualización de da-
e
-o
T5
ro
tos y mostraremos procedimientos para diseñar y preparar modos de visualización de datos
N
de manera efectiva. Con este fin proporcionaremos una serie de pasos específicos y ejemplos
ro
e
ilustrativos para diseñar el formato y la construcción de tablas y figuras.
·¡;;
ro
·o..
o
u
o
o
LL
o Pautas generales para tablas y figu
E
o
E 5.01 Propósitos de la visualización de datos
§
r::
ta La visualización de datos puede tener distintos propósitos:
E
iij
exploración: los datos contienen un mensaje y, sin duda, usted quiere saber cuál es (el
análisis de datos exploratorios y las técnicas de extracción de datos son ejemplos de técni-
@ cas de visualización básicamente exploratorias);
105
PAUTAS GENERALES PARA TABLAS Y FIGURAS
106
VISUALIZACIÓN DE RESULTADOS JQ,2
El ANOVA unidireccional, F(J, 136) =4.86, MSE =3.97, p=.029, 112 =.03, demostró
diferencias estadísticamente significativas entre los dos grupos, de corrformidad con
lo establecido en la teoría.
La información que solía presentarse en tablas (p. ej., tablas de análisis de varianza [ANOVA])
ahora se presenta dentro del texto.
e
QJ
imagen tenga una resolución clara en su aplicación impresa. Como regla general, las figuras
·O
·¡:;
ro se reproducen en la versión impresa de los artículos tal como el autor las entrega (siguiendo
N
·g cualquier cambio de tipo editorial que haya sido aprobado por el editor).
S
ro
e
·¡¡;
Para las editoriales que ofrezcan archivos complementarios en línea, distinga con sumo
ro
·c..
cuidado los materiales que aparecerán con el artículo de aquellos que se incluirán en el
8o archivo complementario en línea (ver sección 2.13). Debido al costo relativamente alto
o
LL de la reproducción a color, incluya ésta sólo cuando enriquezca de manera considerable la
o
E comprensión del material. Si la representación a color no es esencial para la comprensión
E
o inmediata, sí puede incluirla en línea como material complementario.
107
f3() TABLAS
información más detallada de la tabla o figura. No utilice letras sufijas para enumerar las
tablas y figuras; es decir, desígnelas como Tabla 5, Tabla 6, Tabla 7 o Figura 5, Figura 6 y
Figura 7, en lugar de 5, 5a, y 5b. Si el manuscrito incluye un apéndice con tablas o figuras,
identifique dichos elementos con letras mayúsculas y números arábigos (p. ej., la Tabla Al
es la primera tabla del Apéndice A o de un solo apéndice que no haya sido designado con
una letra; la Figura C2 es la segunda figura del Apéndice C).
bias
Cuando diseñe las tablas que incluirá en el manuscrito, determine (a) los datos que los lecto-
res requerirán para comprender la explicación y (b) los datos necesarios para proporcionar
el "conjunto suficiente de estadísticas" (ver sección 4.44) que apoye el uso de los métodos
inferenciales empleados.
108
VISUALIZACIÓN DE RESULTADOS
letreros de las variables y las condiciones muy cerca de los valores de la variable para faci-
litar su comparación. La tabla 5.2 ilustra estos principios.
Todas las tablas están diseñadas para mostrar algo específico. Por ejemplo, las tablas que co-
munican datos cuantitativos son eficaces sólo cuando los datos están organizados de manera que
su significado sea obvio inmediatamente (Wainer, 1997). A menudo, los mismos datos pueden
estar organizados de maneras diferentes para enfatizar distintas características de los datos. En
la tabla 5 .3, los mismos datos de ponderación .de factores se visualizan de dos maneras distintas.
El primero ejemplo enfatiza la estructura factorial de las dos baterías de pruebas manteniendo
las subescalas de las baterías adyacentes una respecto a la otra. La segunda distribución de los
mismos datos resalta la naturaleza de los factores al agrupar las subescalas de las baterías de
pruebas de acuerdo con el patrón de las ponderaciones de factores. Elija la mejor distribu-
ción según sus propósitos.
•:
Título de la tabla······ de niños con o sin prueba .··palabras
de cíudadanía paterna ••• de las columnas. .
Títulq'izquíerdo: ): . . .·
encabeza la coh.imná Niñas .
dei eXtremo izquierdti • •• Título.:fuénof.
.._Grado Con Sin Con Sin.,.. ... ·.
sola cofúmna
Subtí.tulo: · · .. · · · · · · · · .... · · .. · · · .. · Onda 1
encabeza el ancho [
completo del' 3 280 240 281 232
cuerpo de la tabla, ••.
4 297 251 290 264
lo que permite más :
divisiones 5 301 260 306 221
de intersección
ColuiP,niJ ízquierda: ubica Tota 1 878 751 877 717
eri el éxiremo izquierdo de la·. una'coíumna' .
tabla·
Onda 1 ...C:· ..
g 201 189 210 199 ...... ·
a¡
"O
e
:::J
214 194 236 210
m
Q)
e 221 216 239 21 3
·O
·u
ro
N
.§
"5
Total _ _ _ _ 599
' 636
..._ _ _ _ _ _685
_____
622 .que
ro
e
·¡¡;
de
ro
·a. Notas de la tabla: · · · · · > Nota: Las notas generales de una tabla aparecen aquí, la ·
8o hay tres tipos de incluyendo las definiciones de las abreviaturas (ver
o
u_ sección 5.16).
o
E a Una nota específica aparece en una línea aparte
{l dé debajo de cualquier nota general; las notas específicas
o
E eHmina.illl'S- subsecuentes se encuentran a renglón seguido (ver
§ del sección 5.16).
r:::
!ll cuerpo de la tabla
E * Una nota de probabilidad (valor p) aparece en una línea
ii:i aparte debajo de cualquier nota específica; las notas de
1
probabilidad subsecuentes se encuentran a reglón seguido
(ver la sección 5.16 para obtener más detalles).
@
109
TABLAS
Jóvenes Adultos
No escriba '"la tabla que se muestra arriba (o abajo)" ni "la tabla de la página 32" debido
a que no puede determinarse la posición ni número de página de una tabla, hasta que las
páginas estén formadas.
110
LECTURA BÁSICA Nº 12
TEMA: Principios de psicometría
111
00 PRELIMINARES 22/3/10 11:10 Página III
5.a EDICIÓN
INVESTIGACIÓN EDUCATIVA
UNA INTRODUCCIÓN CONCEPTUAL
James H. McMillan
Sally Schumacher
Virginia Commonwealth University
Traducción
Joaquín Sánchez Baides
Ingeniero informático
112
www.FreeLibros.me
05 Capítulo 05 22/3/10 11:31 Página 180
Escalas de medida
Medir en educación implica, normalmente, la asignación de números a cosas
para diferenciar una cosa de otra. Sin embargo, a diferencia de la medida de fe-
nómenos físicos como el peso, la densidad o la longitud, los investigadores pue-
den usar números de maneras diferentes para la investigación de problemas.
113
www.FreeLibros.me
05 Capítulo 05 22/3/10 11:31 Página 181
Estadística Estadística
Población Muestra descriptiva inferencial
114
www.FreeLibros.me
05 Capítulo 05 22/3/10 11:31 Página 182
mayor que, o menor que. En otras palabras, hay un orden inherente a las catego-
rías. Ejemplos de medición ordinal son la clasificación de los miembros de una
clase a través de la media de sus puntuaciones, la clasificación de ideas desde la
más importante hasta la menos importante y el uso de rangos percentiles en los
tests de rendimiento.
Intervalo. Las medidas de intervalo comparten las características de las escalas
ordinales y, además, indican intervalos iguales entre cada categoría. Las escalas
de intervalo dan significado a la diferencia entre números proporcionando una
unidad constante de medición. La diferencia o intervalo entre 5 y 6, por ejemplo,
es la misma que entre 18 y 19. Las puntuaciones percentiles asociadas a la cur-
va normal, por ejemplo, no son un intervalo porque la distancia entre puntos per-
centiles varía dependiendo de los percentiles comparados. Hay una diferencia
mayor entre los percentiles extremos (por ejemplo, 2 y 3 ó 95 y 96) que entre los
percentiles cercanos a la mitad de la distribución. Ejemplos de escalas de inter-
valo incluyen: temperaturas Fahrenheit y Celsius y la mayoría de los tests estan-
darizados.
Razón. Las escalas de razón representan el tipo más refinado de medición. Las
escalas de razón son ordinales y de intervalo y, además, los números pueden
compararse mediante razones: esto es, un número puede compararse significati-
vamente diciendo que es dos o tres veces otro número, o un medio o un cuarto
de otro número. Son ejemplos de mediciones en escala de razón la distancia al-
canzada, la fuerza expresada como peso levantado o las vueltas en una carrera.
Sin embargo, la mayoría de mediciones en la educación no se expresan en forma
de razón. Los educadores piensan en términos de menor que o mayor que, no en
múltiplos (por ejemplo, un estudiante es más cooperativo o menos cooperativo,
no el doble de cooperativo o la mitad de cooperativo).
Aunque no siempre es fácil identificar la escala de medida de algunas
variables, es importante distinguir entre el nivel nominal y otros «más altos».
El manejo de muchos de los procedimientos estadísticos más comunes, como
por ejemplo, la media y la varianza, requiere una escala de medida de interva-
lo o de razón, aunque una escala ordinal a menudo es aceptable. La elección
de otros procedimientos estadísticos más avanzados depende de si los datos
son nominales o están en los niveles más altos. Si, por ejemplo, un investiga-
dor quiere comparar los estudiantes pertenecientes a una minoría y los que
no, sobre la base de sus elecciones de carreras, los datos son nominales, y cier-
tos procedimientos estadísticos serían apropiados para analizar los datos.
Si, por otro lado, estos mismos estudiantes fueran comparados por su rendi-
miento o por sus actitudes hacia la escuela, sería apropiado un conjunto dife-
rente de procedimientos estadísticos porque la escala de los datos rendimiento
y actitud es ordinal o de intervalo. Estas diferencias se seguirán tratando en el
capítulo 9.
115
www.FreeLibros.me
05 Capítulo 05 22/3/10 11:31 Página 183
Fuente: Glass, G. V., y Hopkins, K. D. (1996), Staticals Methods in Education ans Psychology (3ª ed.) Needham Heiights,
MA: Allyn y Bacon.
116
www.FreeLibros.me
05 Capítulo 05 22/3/10 11:31 Página 184
117
www.FreeLibros.me
05 Capítulo 05 22/3/10 11:31 Página 185
Las distribuciones de frecuencias son muy útiles para responder muchas pre-
guntas importantes. Indican rápidamente las frecuencias mayor y menor de puntua-
ciones; la forma general de la distribución (por ejemplo, grupos de puntuaciones en
ciertos lugares o puntuaciones dispersas de un modo uniforme) y si algunas pun-
tuaciones están aisladas de las demás.
118
www.FreeLibros.me
05 Capítulo 05 22/3/10 11:31 Página 186
6
Frecuencia
5
(f)
35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51
Puntuaciones
Polígonos de frecuencia
Otra forma de ilustrar una distribución de frecuencia es usar un polígono de fre-
cuencia. Un polígono de frecuencia es muy similar a un gráfico de barras excepto
que los puntos en vez de barras están dibujados y conectados por una línea. La fi-
gura 5.5 muestra nuestro ejemplo de datos en un polígono de frecuencia. Observe
que esta representación es muy similar a la figura 5.3.
Finalmente, también es útil representar gráficamente la distribución curvan-
do las líneas rectas de un polígono de frecuencia. La famosa curva normal, dis-
cutida más adelante en este capítulo, es un ejemplo del uso de esta técnica.
119
www.FreeLibros.me
05 Capítulo 05 22/3/10 11:31 Página 187
(a) (b)
70 54
53
60 52
51
50
50
40 49
48
30 47
46
6
Frecuencia
5
(f)
35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51
Puntuaciones
120
www.FreeLibros.me
05 Capítulo 05 22/3/10 11:31 Página 188
EXTRACTO 5.1
HISTOGRAMA
Tarea PA
10 Lento
Rápido
8
Número de sujetos
0
0 4.5 9.5 14.5 19.5 24.5 29.5
Palabras impresas
Fuente: Ehri, L. C. y Wilce, L. S., «The mnemonic value of orthography among begining readers», Journal of
Educational Psichology, 71, 26-40. Copyright «1979 de la American Psychological Association. Reimpreso con
permiso de Línea Carlson Ehri.
121
www.FreeLibros.me
05 Capítulo 05 22/3/10 11:31 Página 189
EXTRACTO 5.2
GRÁFICO DE BARRAS
50
40
30
Porcentaje
20
10
0
CT ME MA NH NJ NY PA RI VT
Fuente: Projections of Education Statistics to 2002, (1991), Washington, DC: National Center for Education
Statistics.
La media
La media (simbolizada por X o M) es simplemente la media aritmética de to-
das las puntuaciones. Se calcula sumando todas las puntuaciones y dividiendo la
suma entre el número de puntuaciones. Si, por ejemplo, tenemos una distribución
de 5, 8, 9 y 2, la media es 6 (5 + 8 + 9 + 2 = 24; 24/4 = 6). La media es la medida
de tendencia central más frecuentemente empleada porque se usan todas las pun-
tuaciones para su cálculo. La desventaja de la media es que cuando una distribu-
ción contiene puntuaciones extremadamente altas o bajas, las más atípicas de la
distribución, la media se desplaza hacia la puntuación extrema. Si, por ejemplo,
una distribución contiene las puntuaciones de 4, 5, 7 y 40, la media sería 14. Puesto
que en este caso la mayoría de las puntuaciones son considerablemente menores
que 14, la media es un poco engañosa con respecto a la tendencia central.
122
www.FreeLibros.me
05 Capítulo 05 22/3/10 11:31 Página 190
EXTRACTO 5.3
LA MEDIA
En la tabla 3 se presentan las medias para los tres periodos de recogida de datos.
Muestran un descenso en el número y porcentaje de elecciones de amistad interracial en
la clase de control entre el pretest y el postest y un incremento durante este periodo en
la clase experimental.
Fuente: Slavin, R. E. (1979), «Effects of biracial leranings teamson cross-racial friendships», Journal of Educationa
Psychology, 71. Reimpreso con permiso del autor.
La mediana
La mediana es ese punto que divide una distribución ordenada en mitades
que tienen un número igual de puntuaciones. Por esto, el cincuenta por ciento de
las puntuaciones está por debajo de la mediana y el otro cincuenta por ciento se
encuentra por encima de ésta. La mediana no está afectada por los valores reales
de las puntuaciones. Por ejemplo, la mediana del conjunto de puntuaciones 10,
15, 16, 19 y 105 es 16, debido a que la mitad de las puntuaciones están por en-
cima de 16 y la otra mitad por debajo. Dieciséis sería de esta manera un indica-
dor de tendencia central mejor que la media, que es 33. Si una distribución
contiene un número par de puntuaciones, la mediana es el punto medio entre las
dos puntuaciones centrales (por ejemplo, para las puntuaciones 2, 2, 4, 7, 8 y 12,
la mediana es 5,5).
123
www.FreeLibros.me
05 Capítulo 05 22/3/10 11:31 Página 191
La mediana se usa para describir datos que pueden tener puntuaciones extre-
mas, como por ejemplo el nivel de ingresos en los Estados Unidos. Las media-
nas también se emplean, a veces, para dividir un grupo de entrevistados en dos
grupos iguales. Un investigador puede, por ejemplo, obtener un indicador del
grado de éxito percibido por cada entrevistado en una escala de 7 puntos (éxito
extremo = 7, fracaso extremo = 1). Si el investigador quisiera dividir el grupo
de sujetos entre los que tienen una alta y baja percepción del éxito, puede utili-
zar la mediana. Este procedimiento se denomina división por la mediana. El ex-
tracto 5.4 muestra cómo puede utilizarse la mediana en la presentación de una
investigación.
EXTRACTO 5.4
LA MEDIANA
Una tendencia entre las familias que tiene claras implicaciones en las necesidades
educativas dentro de las comunidades urbanas es el descenso de los recursos financie-
ros que todas las familias están experimentando ahora, con un impacto incluso mayor
entre las familias urbanas de minoría étnica. El último informe de la mediana de ingre-
sos nacionales de familias blancas fue 18.370$, para hispanos 12.570$ y para negros
10.880$ (ACYF, 1980). Mientras el 16% de todos los niños está por debajo del
nivel de pobreza, un niño negro tiene 4 veces más posibilidades de estar por debajo
de este nivel, el 11% de los blancos y el 42% de los negros viven en la pobreza
(Edelman, 1980).
Las madres solteras tenían una mediana de ingresos que estaba muy por debajo del
total y de la que ganan las familias con dos padres; las madres negras tenían una me-
diana de ingreso que era sólo el 40% del de las familias con dos padres, las hispanas te-
nían el 39% y las madres blancas tenían el 38%. La menor proporción de madres blancas
se debe al hecho de que casi la mitad de las madres blancas no trabaja, a pesar del mar-
cado incremento del empleo urbano para blancos (ver tabla 1).
Fuente: Mc Adoo H. P., (1981), «Youth, school, and the family in transition», Urban Education, 16, 261-277. Copyright
1981 de Urban Education. Reimpreso con permiso de Sage Publications, Inc.
124
www.FreeLibros.me
05 Capítulo 05 22/3/10 11:31 Página 192
La moda
La moda es simplemente la puntuación que aparece más frecuentemente en
una distribución. La moda es un índice bruto de tendencia central y raramente se
utiliza en investigación educativa. Tiene utilidad sólo cuando interesa conocer la
puntuación u observación más frecuente o cuando los datos están en formato no-
minal. La palabra moda se utiliza, quizá más frecuentemente, para describir una
distribución indicando que la distribución es bimodal (dos modas) o trimodal
(tres modas). Estos términos se usan aun cuando sólo exista una moda pero exis-
ten, al menos, dos puntuaciones que tienen frecuencias definitivamente más al-
tas que el resto.
125
www.FreeLibros.me
05 Capítulo 05 22/3/10 11:31 Página 193
Para ilustrar con más detalle esta relación, considere el siguiente ejemplo.
Suponga que un profesor quiere presentar una puntuación media de lectura para
su clase. Tiene una puntuación de lectura de cada uno de los 20 alumnos, con un
rango entre 5 y 80. La distribución de puntuaciones se representa en la tabla 5.4.
126
www.FreeLibros.me
05 Capítulo 05 22/3/10 11:31 Página 194
MEDIDAS DE VARIABILIDAD
La tendencia central sólo es un índice que se utilza para representar un grupo
de puntuaciones. Para proporcionar una descripción completa, se necesita una se-
gunda medida estadística. Esta estadística hace referencia a una medida de varia-
bilidad. Las medidas de variabilidad muestran cómo está de separada la
distribución de puntuaciones de la media de la distribución o cuánto, sobre el pro-
medio, las puntuaciones difieren de la media. Las medidas de variabilidad también
se denominan en términos generales medidas de dispersión o distribución.
La necesidad de las medidas de dispersión se ilustra en la figura 5.7. Esta fi-
gura muestra cómo dos aulas con la misma puntuación media pueden ser muy di-
ferentes. En la clase B los alumnos son más bien homogéneos, similares unos a
otros, con pocos alumnos con alto o bajo rendimiento. Sin embargo, en la clase
A, el profesor tiene un rango amplio de rendimiento, un grupo heterogéneo de
alumnos cuyas puntuaciones se distribuyen entre 55 y 100.
O suponga que una persona va a apostar un sábado a un partido de balonces-
to entre los Bombers y los Dunkers. La sección de deportes del periódico no tie-
ne la estadística de los jugadores individuales, pero el periodista deportivo dice
que los jugadores de ambos equipos tienen aproximadamente la misma altura: el
promedio de altura esté en 2,02 y 2,05 metros, respectivamente, para los
Bombers y los Dunkers. Con sólo la media como ayuda para tomar una decisión,
el apostante realiza una apuesta por los Dunkers. Cuando ve el programa con las
alturas de los jugadores, descubre una limitación de la media.
Clase A Clase B
(f) (f)
55 60 65 70 75 80 85 90 95 100 55 60 65 70 75 80 85 90 95 100
X = 83 X = 83
Puntuaciones de habilidad Puntuaciones de habilidad
127
www.FreeLibros.me
05 Capítulo 05 22/3/10 11:31 Página 195
Bombers Dunkers
Leary, defensa: 6’0” Regen, defensa: 6’5”
Burns, defensa: 6’3” Lambiotte, defensa: 6’6”
Parker, delantero: 6’5” Hambrick, delantero: 6’8”
Gallagher, delantero: 6’7” Lang, delantero: 6’9”
Robinson, central: 7’3” Wergin, central: 6’10”
_ _
X = 6’61⁄2” X = 6’71⁄2”
El rango
El rango es la medida de dispersión más obvia. Simplemente es la diferencia
entre las puntuaciones mayor y menor de la distribución. Si, por ejemplo, la me-
nor de las 30 puntuaciones en un test es 65 y la mayor 90, el rango sería 25 (90-
65 = 25). Debido a que sólo hay dos puntuaciones involucradas en el cálculo del
rango, es muy fácil obtenerlo. Sin embargo, también es una medida de dispersión
muy tosca y puede ser engañosa si hay una puntuación atípicamente alta o baja.
El rango falla también al dar indicaciones sobre la variabilidad de las puntuacio-
nes en torno a la media de la distribución. Algunas veces los investigadores usa-
rán el rango intercuartílico, que indica la dispersión entre la mitad intermedia de
las puntuaciones.
Desviación típica
La desviación típica es un índice numérico que indica la variabilidad prome-
dio de las puntuaciones. Nos habla, en otras palabras, sobre la distancia, sobre el
promedio, de las puntuaciones desde la media. Una distribución que tiene un
conjunto de puntuaciones relativamente heterogéneo que se separa ampliamente
de la media (por ejemplo, la clase A de la figura 5.7) tendrá una desviación típi-
128
www.FreeLibros.me
05 Capítulo 05 22/3/10 11:31 Página 196
129
www.FreeLibros.me
05 Capítulo 05 22/3/10 11:31 Página 197
68%
de puntuaciones
34% 34%
de de
puntuaciones puntuaciones
10 15 20
15 – 5 = 10 15 + 5 = 20
X = 15
1 DT = 5
– 1 DT + 1 DT
130
www.FreeLibros.me
05 Capítulo 05 22/3/10 11:31 Página 198
5 10 15 20 25 30 35 40 45 50 55 60 65 70 75 80 85
X = 50 , 1 DT para A = 15
X = 50 , 1 DT para B = 5
131
www.FreeLibros.me
05 Capítulo 05 22/3/10 11:31 Página 199
EXTRACTO 5.5
DESVIACIÓN TÍPICA
TABLA 12: Medias y desviaciones típicas de los ítems de factores que se usan para
calificar las prácticas por profesores de secundaria1
Actuación disruptiva del alumno 1.5 .83 1.60 .91 1.56 .88
Mejorar desde el comienzo del año 2.86 1.14 2.83 1.12 2.85 1.13
Esfuerzo del estudiante –cuánto ha 3.31 1.13 3.16 1.10 3.23 1.11
intentado aprender
Niveles de capacidad de los alumnos 3.38 1.33 3.43 1.28 3.41 1.30
Hábitos de trabajo y limpieza 2.80 1.07 2.68 1.06 2.73 1.07
Finalización de deberes de casa 3.02 1.06 2.95 1.12 2.98 1.10
(sin calificar)
Calidad de los deberes completados 3.18 1.15 3.22 1.14 3.20 1.15
(calificada)
Rendimiento académico como 4.37 1.08 4.34 1.09 4.35 1.08
opuesto a otros factores
Rendimiento comparado con otros 2.06 1.13 2.23 1.18 2.16 1.17
alumnos de la clase
Rendimiento comparado con una 4.44 1.24 4.45 1.31 4.43 1.29
escala de porcentaje correcto
Objetivos de aprendizaje específico 4.38 .92 4.35 .91 4.37 .92
adquiridos
Grado en el que los alumnos prestan 3.12 1.11 3.20 1.12 3.17 1.12
atención y/o participan en clase
Inclusión de ceros determinando 3.61 1.29 3.90 1.32 3.77 1.12
el porcentaje correcto final.
Crédito extra por rendimiento 1.54 .86 1.49 .76 1.51 .80
no académico
Crédito extra por rendimiento 2.66 1.18 2.54 1.06 2.60 1.11
académico
1
Se usó una escala de seis puntos en la que 1 = no en absoluto y 6 = completamente
Fuente: McMillan, J. H. y Workman, D. (1998), Teachers’ Classroom assessment and Grading Practices, Richarmon,
VA: Metropolitan Educational Research Consortium y Virginia Commonwealth University.
132
www.FreeLibros.me
05 Capítulo 05 22/3/10 11:31 Página 200
EXTRACTO 5.6
DESVIACIÓN TÍPICA
Variables dependientes
Cualquier carrera de ciencias 4.40 (1.55)
Profesionales de ciencias físicas1 4.24 (1.79)
Profesionales de ciencias de la salud 4.56 (2.01)
Profesionales de servicios humanos 4.22 (1.77)
Variables independientes
Ciencia GPA2 3.66 (.48)
Apoyo de los amigos 5.69 (1.08)
Número de actividades de ciencias/matemáticas3 1.73 (1.32)
Número de actividades que no son de ciencias4 9.74 (3.67)
Percepciones de las madres sobre la capacidad 6.10 (1.05)
en ciencias del niño
Valoración de las madres de la ciencia para las mujeres 4.57 (1.04)
Interés de los adolescentes en biología 5.10 (1.43)
Interés de los adolescentes en ciencias físicas 4.75 (1.40)
1
El profesional incluye trabajos que precisan licenciaturas y grados avanzados. 2Rango = 1-4.
3
Rango = 0-5. 4Rango = 2-21.
Fuente: Jacobs, J. E., Finken, L. L., Griffin, N. L., y Wright, J. D. (1998), «The career plans of science-talented rural ado-
lescents girls», American Educational Research Journal, 35(4), 681-704.
Puntuaciones típicas
Puede observar que resulta engorroso analizar varias distribuciones si las me-
dias y las desviaciones típicas son diferentes para cada distribución. Para atenuar
este problema y facilitar la interpretación, las distribuciones de puntuaciones
133
www.FreeLibros.me
05 Capítulo 05 22/3/10 11:31 Página 201
EXTRACTO 5.7
DIAGRAMA DE CAJA
Dadas las diferencias de los patrones de dominio del álgebra entre estos tipos de cur-
so en Estados Unidos, ¿qué ocurre cuando el rendimiento de los estudiantes estadouni-
denses en álgebra se analiza separadamente según el tipo de curso? La figura 3
representa tal disgregación por las puntuaciones de un postest nivel-clase (ampliado pa-
ra incluir el postest paralelo de rendimiento para Japón) y muestra un patrón específico.
100
80
60
Porcentaje
correcto
40
20
0
Álgebra enriquecido típico compensatorio
Tipos de cursos de Estados Unidos Japón
(continúa)
1
(Nota del revisor: examen de evaluación académica, también conocido como SAT. Constituye el
estándar de las pruebas de admisión que suelen solicitar los colleges y universidades en EEUU).
134
www.FreeLibros.me
05 Capítulo 05 22/3/10 11:31 Página 202
(continuación)
FIGURA 3. Estados Unidos y Japón: postest de rendimiento en álgebra entre la población A (Nota: en
las cajas como las que encontramos en las figuras 3, 4 y 5, la longitud de la caja, el rectángulo limita-
do por las «bisagras», representa la proporción de la distribución que cae entre los percentiles 25 y
75. La línea que atraviesa la caja representa la mediana. La longitud de los «bigotes» representa el mí-
nimo y el máximo o el valor exterior adyacente,
1.5 = (percentil75 – percentil25),
Si esto es menos que el mínimo y el máximo. El * y el • representan los valores extremos.
Fuente: Westburry, I. (1992), «Comparing American and Japonese achievement: Is the United Status really a low
achievemenr?», Educational Researcher, 2 (15), 18-24.
Porcentaje de
casos bajo
porciones de
la curva normal
Percentiles
1 5 10 20 30 40 50 60 70 80 90 95 99
equivalentes
Q1 Md Q3
Puntuaciones z
–4.0 –3.0 –2.0 –1.0 0 +1.0 +2.0 +3.0 +4.0
Puntuaciones T
20 30 40 50 60 70 80
Puntuaciones
CEEB 200 300 400 500 600 700 800
(College Entrance Examination Board, examen de admisión a la Universidad)
Puntuaciones
ECN 1 10 20 30 40 50 60 70 80 90 99
Estaninos 1 2 3 4 5 6 7 8 9
Porcentaje en estaninos 4% 7% 12% 17% 20% 17% 12% 7% 4%
Fuente: Seashore, Harold G. (1980), «Methos of expressing test scores», en Test Service Notebook 148. New York: The
Psychological Corporation.
135
www.FreeLibros.me
05 Capítulo 05 22/3/10 11:31 Página 203
MEDIDAS DE RELACIÓN
Hasta este punto hemos discutido la estadística descriptiva que se utiliza pa-
ra resumir o dar una imagen de grupos sobre una variable cada vez. Sin embar-
go, existen muchas cuestiones de interés que dependen de la forma en que dos
o más variables se relacionan entre sí. ¿Están más motivados los alumnos más
brillantes? Si incrementamos la frecuencia del refuerzo, ¿aumentará también el
comportamiento diana o reforzado? ¿Existe una relación entre la autoestima y
el rendimiento? Si los alumnos aumentan su esfuerzo al estudiar, ¿se sentirán
más satisfechos de su rendimiento? En cada caso, se miden dos variables para
cada sujeto del grupo.
Diagrama de dispersión
La medida más fundamental de relación se llama diagrama de dispersión. El
diagrama de dispersión es un gráfico de representación de la relación, que se
logra al presentar visualmente la intersección de las puntuaciones de cada sujeto
en las dos variables. Como se muestra en la figura 5.12, una variable se ordena
en el eje horizontal (por ejemplo, edad) y la segunda variable se ordena en el eje
vertical (peso). Las puntuaciones de cada sujeto se indican al lado del gráfico en
orden aleatorio y las intersecciones se indican con la letra asignada a cada suje-
to. Todas las intersecciones juntas, forman un patrón que proporciona una indi-
cación general de la naturaleza de la relación. Obviamente, cuando los niños
crecen, sus pesos se incrementan y en estos casos la relación se denomina posi-
tiva o directa. De este modo, en una relación positiva el aumento del valor de
una variable va acompañado del incremento del valor en la segunda variable.
Recíprocamente, cuando el valor de una variable disminuye, el valor de la otra
variable también lo hace.
136
www.FreeLibros.me
05 Capítulo 05 22/3/10 11:31 Página 204
100 C
90 H
30
D I
20
2 3 4 5 6 7 8 9 10
Edad (años)
137
www.FreeLibros.me
05 Capítulo 05 22/3/10 11:31 Página 205
Variable Y
Bajo Bajo
Bajo Alto Bajo Alto
Variable X Variable X
138
www.FreeLibros.me
05 Capítulo 05 22/3/10 11:31 Página 206
Coeficiente de correlación2
Aun cuando los diagramas de dispersión son herramientas indispensables pa-
ra la evaluación de la relación entre dos variables, los investigadores muy rara
vez presentan este tipo de gráficos en los artículos publicados. El acuerdo más
común es calcular un número para representar la relación, denominado coefi-
ciente de correlación. Hay muchos tipos de coeficientes de correlación y la elec-
ción de uno u otro se determina por la escala usada en la recogida de datos y la
pregunta de investigación. Sin embargo, la interpretación del número elegido, bá-
sicamente es la misma. El número que representa la correlación puede ir de –1.00
a +1.00. Un valor positivo alto (por ejemplo, .85, .90, .96) representa una rela-
ción positiva alta; un valor positivo bajo (.15, .20, .08) una relación positiva ba-
ja; un valor negativo moderado (por ejemplo, –0.40, –0.37, –0.52) una relación
negativa moderada, un valor de 0 que no hay relación y así sucesivamente. De es-
ta manera, la fuerza de la relación es mayor cuando la correlación se aproxima a
+1 o –1 desde 0. Esto se ilustra en la figura 5.14. Observe que la fuerza de la re-
lación es independiente de la dirección.
–.5 +.5
Coeficiente de correlación –1 0 +1
2
Esta presentación se limita a la correlación simple. Los procedimientos correlacionales más
avanzados, como por ejemplo correlación múltiple, correlación parcial, análisis de función discrimi-
nante y correlación canónica, se basan en estos principios para examinar las relaciones combinadas de
diversas variables.
139
www.FreeLibros.me
05 Capítulo 05 22/3/10 11:31 Página 207
EXTRACTO 5.8
CORRELACIÓN PRODUCTO-MOMENTO DE PEARSON
(continúa)
140
www.FreeLibros.me
05 Capítulo 05 22/3/10 11:31 Página 208
(continuación)
Nota: 3er curso, n = 2,307; 10º curso, n = 644. Las correlaciones son estadísticamente significativas en el nivel .001 a
menos que se señale otra cosa.
*p < .05. **p < .01.
Fuente: Sutton, A., y Soderstrom, I. (1999), «Predicting elementary ans secondary school achievement with school-
related and demographic factors», Journal of Educational Research, 92 (6), 330-338.
141
www.FreeLibros.me
05 Capítulo 05 22/3/10 11:31 Página 209
EXTRACTO 5.9
MATRIZ DE CORRELACIÓN
En la tabla 2 se describen las correlaciones de orden cero entre las variables de contex-
to motivador y los signos de alienación. Todas las correlaciones estaban en la dirección es-
perada. Los problemas disciplinarios de los alumnos estaban fuertemente relacionados con
sus informes sobre el desinterés y la crítica y expectativas de los profesores. La relación más
fuerte encontrada ocurría entre las percepciones de los alumnos de las expectativas de los
profesores y el compromiso de los alumnos. Las aspiraciones académicas de los compañe-
ros y sus percepciones de las limitaciones económicas de la educación estaban relacionadas
tanto con los problemas de disciplina como con el compromiso.
Variables
de contexto motivador 1 2 3 4 5 6 7 8 9 10
1. Desinterés y crítica —
de los profesores
2. Motivación de los —.54*** —
profesores
3. Expectativas a largo —.39*** .34*** —
plazo de los profesores
4. Aspiraciones —.21*** .13** .36*** —
académicas del grupo
5. Resistencia .27*** —.09 —.22*** —.47*** —
a las normas
del colegio
de los compañeros
6. Apoyo académico —.32*** .31*** .29*** .47*** —.44*** —
del grupo
7. Limitaciones .38*** —.24*** —.35*** —.38***.27*** —.25*** —
económicas
de la educación
8. Beneficios económicos —.12* .21*** .32*** .32*** —.12* .21*** —.36*** —
de la educación
Índices de alienación
9. Problemas —.35*** .15** —.36*** —.26*** .17** —.21*** .29*** —.11** —
de disciplina
10. Compromiso —.16** .04 .44*** .27*** —.14** .19*** —.22*** .11** —.47*** —
Fuente: Murdock, T. B. (1999), «The social context of risk: Status and motivational predictors of alienation in middle
school», Journal of Educational Psychology, 91 (1), 62-75.
142
www.FreeLibros.me
06 Capítulo 06 22/3/10 11:33 Página 215
como por el diseño de investigación. Una vez que el propósito y las limitaciones
de la investigación están claros, se elige una técnica determinada que se ajuste al
diseño de investigación. No siempre una técnica sencilla es la mejor, la más fá-
cil o la más conveniente.
Validez
Como se indicó en el capítulo 4, la validez de un test es el grado en qué las
deducciones realizadas sobre la base de puntuaciones numéricas resultan apro-
piadas, significativas y útiles. Validez es un juicio sobre la idoneidad de una me-
dida para las conclusiones o decisiones específicas que son resultado de las
puntuaciones generadas. En otras palabras, la validez es un concepto específico
de situación: la validez se evalúa dependiendo de la finalidad, de la población y
de las características ambientales en las que se realiza la medición. Por lo tanto,
el resultado de un test puede resultar válido en una situación e inválido en otra.
Consecuentemente, para asegurar a los demás que el proceso tiene validez con
relación a los problemas de investigación, los sujetos y el entorno del estudio, es
procedimientos que se utilizaron para recoger los datos.
Esta conceptualización de la validez del test implica mucho más que deter-
minar, simplemente, si un test «mide lo qué se supone que tiene que medir».
Precisiones recientes realizadas por expertos en medición, además de lo que se
define en Standards for Educational and Psychological Testing (1985; 2000),
dan a entender claramente lo que es una inferencia, empleo, o consecuencia que
es válida o inválida, no un test. Por ejemplo:
143
www.FreeLibros.me
06 Capítulo 06 22/3/10 11:33 Página 216
144
www.FreeLibros.me
06 Capítulo 06 22/3/10 11:33 Página 217
La varianza residual del constructo se refiere al grado en el qué una medida in-
cluye material o factores que resultan extraños al constructo previsto. Un ejem-
plo de este tipo de factor sería la medición del razonamiento matemático con
problemas de narraciones. Como es necesaria la comprensión lectora para en-
tender los problemas, esta capacidad es tan importante como el razonamiento
matemático para el éxito. De este modo, la medida está influenciada, en cierta
medida, por factores que no forman parte del constructo.
Si la inferencia implicada en la investigación es un contenido primario o cons-
tructo, existen cinco tipos principales de evidencia que pueden usarse tanto para
apoyar las interpretaciones previstas como para eliminar cualquier hipótesis con-
traria sobre lo que se está midiendo: la evidencia basada en el contenido, en los
procesos de respuesta, en la estructura interna, en las relaciones con otras varia-
bles y en las consecuencias. Consideraremos las cuatro primeras, que poseen ma-
yor relevancia para la investigación.
La evidencia basada en el contenido del test. En general, la evidencia basada
en el contenido del test demuestra el grado en que la muestra de ítems o cuestio-
nes de la prueba es representativo de algún universo apropiado o ámbito de conte-
nidos o tareas. Este tipo de evidencia se acumula, por lo general, por expertos que
examinan los contenidos de la prueba e indican la escala con la que miden objeti-
vos o criterios predeterminados. Los expertos también juzgan la criticidad relativa
o importancia de las diversas partes de la prueba. Por ejemplo, para aumentar la
evidencia de un test de conocimiento sobre profesores eventuales, es necesario te-
ner expertos que examinen los ítems y juzguen su representatividad (por ejemplo,
¿es representativa una pregunta sobre Piaget de lo qué se necesita conocer sobre el
desarrollo del niño?) y si el porcentaje del test dedicado a los diferentes asuntos es
apropiado (por ejemplo, 20% del test se refiere a la gestión del aula, pero puede ser
que debería ser un 40%). La evidencia basada en el contenido del test es esencial
para tests de rendimiento. Además, el ámbito o universo que se representa debería
ser apropiado al empleo que se pretende dar a los resultados.
Desafortunadamente, la validez de la evidencia basada en el contenido del test no
se presenta en los artículos de investigación, porque normalmente no hay un esfuer-
zo para obtener tal evidencia a partir de las pruebas diseñadas de forma limitada.
Cuando se recurre a pruebas estandarizadas, es importante referirse a investigacio-
nes previas, a revisiones del procedimiento utilizado o a manuales técnicos.
La evidencia basada en el contenido es similar a la validez aparente, pero la
validez aparente es una estimación menos sistemática entre la medida y el ámbi-
to más extenso. La validez aparente es un juicio en el que los ítems parecen ser
relevantes, mientas que la validez de la evidencia del contenido establece la rela-
ción de forma empírica.
La evidencia basada en los procesos de respuesta. La evidencia basada en los
procesos de respuesta se centra en un análisis de las estrategias de ejecución o
145
www.FreeLibros.me
06 Capítulo 06 22/3/10 11:33 Página 218
146
www.FreeLibros.me
06 Capítulo 06 22/3/10 11:33 Página 219
EXTRACTO 6.1
VALIDEZ BASADA EN LAS RELACIONES CON OTRAS VARIABLES
Fuente: Slavin, R. E. (1979), «Effects of biracial leranings teamson cross-racial friendships», Journal of Educationa
Psychology, 71. Reimpreso con permiso del autor.
Efecto de la validez sobre la investigación. Debido a que la validez implica una in-
terpretación apropiada y la utilización de la información recogida a través de la me-
dición, es necesario tanto para usuarios como para investigadores de la investigación
juzgar el grado de validez que se presenta, basado en la evidencia disponible. En es-
te sentido, la validez es una cuestión de grado y no un planteamiento de todo o na-
da. Los investigadores deberían mostrar que las deducciones y conclusiones
específicas de sus estudios poseen una evidencia para la que existe validez. Los usua-
rios necesitan tomar la misma decisión basada en su empleo de los resultados. ¿Se
sugiere que la validez debe establecerse para cada situación de investigación y cada
empleo posible? Tal requerimiento añadiría una considerable cantidad de recogida de
datos y de análisis a cada estudio y, por lo tanto, lo haría irrealizable. En la práctica,
es necesario generalizar a partir de otros estudios y de otras investigaciones cuya
147
www.FreeLibros.me
06 Capítulo 06 22/3/10 11:33 Página 220
interpretación y empleo resulten válidos. Esta es una razón por la que las pruebas es-
tablecidas, para las cuales cualquier evidencia de validez debe ser probablemente acu-
mulada, por lo general, proporcionan medidas más fiables. De otra manera, sería un
error asumir que sólo porque una prueba está establecida, sus resultados son válidos.
Las pruebas diseñadas de forma limitada, sin historia de uso o revisiones efec-
tuadas por otros, necesitan evaluarse con más cuidado. Cuando los investigado-
res desarrollan un nuevo procedimiento, es muy importante reunir una evidencia
apropiada para la validez y, luego, presentar esta evidencia en el estudio.
Si se utiliza una prueba preparada o establecida de forma limitada, lo mejor
es reunir una evidencia para la validez antes de que se recojan los datos para el
estudio. Esta es la principal razón para un test piloto de cualquier prueba y de las
técnicas para administrarla. El investigador debería ser consecuente con el em-
pleo de los resultados. Por ejemplo, si empleará los resultados para determinar
qué estudiantes poseen los conocimientos básicos, es necesaria la validez del
contenido. Si está examinando una teoría relacionada con el desarrollo de un es-
tudio cognitivo, se necesita la validez del constructo.
Fiabilidad
La fiabilidad se refiere a la coherencia de la medición, el grado en el que los
resultados son similares sobre formularios diferentes de la misma prueba o de las
circunstancias de la recogida de datos. Otra forma de conceptualizar la fiabilidad
148
www.FreeLibros.me
06 Capítulo 06 22/3/10 11:33 Página 221
es determinar el grado en que las medidas están libres de error. Si una prueba
tiene un pequeño error, resulta fiable, y si tiene una gran cantidad de errores, es
de poca confianza. Podemos medir el error mediante la estimación de la cohe-
rencia de la valoración de un rasgo.
Piense por un minuto en los tests que ha realizado. ¿Las puntuaciones que recibió
eran exactas o encerraban algún grado de «error» en los resultados? ¿Eran algunos
resultados más exactos que otros? En la medición de rasgos humanos, como rendi-
miento, actitud, personalidad, estado físico o cualquier otro rasgo, casi nunca obten-
drá unos resultados que no posean algún grado de error. Muchos factores contribuyen
a desnaturalizar nuestras medidas. Puede haber preguntas ambiguas, la iluminación
puede ser escasa, algunos sujetos pueden estar enfermos, la estimación de un test de
rendimiento puede ser afortunada o desafortunada, los observadores pueden estar
cansados y así sucesivamente. Lo que esto significa es que, incluso, cuando un ras-
go permanecía constante al realizar dos tests con una semana de diferencia, las pun-
tuaciones podrían no ser exactamente las mismas debido a un error inevitable.
La puntuación obtenida puede considerarse como si tuviéramos dos compo-
nentes, uno verdadero o universo de puntuación, que representa el conocimiento
actual o el nivel de capacidad del individuo, y otro erróneo, fuentes de variabili-
dad no relacionadas con el propósito de la prueba:
puntuación obtenida = universo de puntuación o verdadero + error
En la tabla 6.2 se enumeran las fuentes de error más comunes. Por tanto, el
objetivo de la selección o evaluación de la prueba, es buscar la evidencia de que
el error se ha controlado lo más posible.
149
www.FreeLibros.me
06 Capítulo 06 22/3/10 11:33 Página 222
1
La mayoría de procedimientos se basan en la suposición de que habrá suficiente dispersión o am-
plitud en las puntuaciones para calcular los coeficientes de correlación. Algunos tipos de test (como
por ejemplo, los de referencia criterial) no proporcionan mucha variabilidad de puntuación y los indi-
cadores correlacionales tradicionales de fiabilidad pueden resultar inapropiados. Para estos test, los in-
vestigadores examinan los porcentajes de los examinados que se clasifican de la misma forma después
de realizar el test por segunda vez o después de aplicar formatos diferentes del mismo test; o el por-
centaje de respuestas que son iguales en momentos diferentes, además del coeficiente de correlación.
La presentación de la fiabilidad en este capítulo se enfocará desde los procedimientos correlacionales
tradicionales, debido a que son los únicos que encontrará de forma más frecuente en la bibliografía.
2
De acuerdo con los nuevos Standards for Educational and Psychological Testing estos índi-
ces de fiabilidad tradicionales son casos especiales de una clasificación más general denominada
teoría de la generabilidad. La teoría de la generabilidad tiene la habilidad de combinar varias fuen-
tes de error en una medida de variabilidad única. Y, aunque, normalmente no aparece en la biblio-
grafía, proporciona una indicación más exacta del grado de error.
150
www.FreeLibros.me
06 Capítulo 06 22/3/10 11:33 Página 223
151
www.FreeLibros.me
06 Capítulo 06 22/3/10 11:33 Página 224
152
www.FreeLibros.me
06 Capítulo 06 22/3/10 11:33 Página 225
de acuerdo sobre lo que han visto, escuchado o evaluado. Esto es, cuando dos o
más observadores o evaluadores observan o evalúan independientemente algún
aspecto concreto, ¿estarán de acuerdo entre sí sobre lo que han observado o eva-
luado? Si es así, entonces, existe algo de consistencia en la medida. Este tipo de
fiabilidad se emplea, normalmente, para investigación observacional y en estu-
dios basados en comportamientos en los que los juicios profesionales se hacen
sobre el comportamiento del estudiante. Se presentará como fiabilidad inter-ra-
ter o acuerdo tanteador y se expresará como un coeficiente de correlación o co-
mo un porcentaje de acuerdo. Sin embargo, este tipo de análisis no indica nada
sobre la consistencia de comportamiento o conducta en momentos diferentes
(irónicamente, las estimaciones de consistencia interna no las hace cualquiera).
Esto significa que es un medio para obtener un acuerdo inter-rater alto, que es re-
lativamente sencillo de hacer, y además para obtener datos que muestren que el
rasgo o comportamiento es consistente a través del tiempo.
Hemos resumido estos cinco tipos de fiabilidad mostrados en la tabla 6.4 de
acuerdo a las diferentes formas en las que se suministra un instrumento.
Interpretación de coeficientes de fiabilidad. Deben considerarse varios facto-
res en la interpretación de los coeficientes de fiabilidad:
1. Cuanto más heterogéneo sea un grupo en lo referente al rasgo que se mi-
de, más aumentará la fiabilidad.
2. Cuantos más ítems posea una prueba, más aumentará la fiabilidad.
3. Cuanto mayor sea el rango de puntuaciones, más aumentará la fiabilidad.
4. Los test de rendimiento con un nivel medio de dificultad tendrán una fia-
bilidad más alta que cualquier otro test más fácil o más difícil.
153
www.FreeLibros.me
06 Capítulo 06 22/3/10 11:33 Página 226
154
www.FreeLibros.me
06 Capítulo 06 22/3/10 11:33 Página 227
155
www.FreeLibros.me
06 Capítulo 06 22/3/10 11:33 Página 228
Tests estandarizados
Los tests estandarizados proporcionan procedimientos uniformes para la ad-
ministración y puntuación de la prueba. Cada vez que se aplica el test, se pide que
se realicen las mismas cuestiones, con un conjunto de instrucciones que especifi-
can como debe administrarse el test. Esto incluiría información sobre las aptitudes
de la persona que administra el test y las condiciones en las que debe administrar-
se, como por ejemplo: el tiempo permitido, materiales que pueden usarse por los
sujetos, y si pueden aclararse cuestiones sobre el test durante su realización.
Normalmente, la puntuación de las respuestas es objetiva, y la mayoría, pero no to-
dos los tests estandarizados se realizan en grupos matinales. El grupo tipo, como
se denomina, permite la comparación de una puntuación con la realización de un
grupo definido de individuos. Esto proporciona información importante y valiosa,
pero el investigador deber tener cuidado al interpretar las puntuaciones referidas a
normas (ver sección a continuación: pruebas con referencia a criterio y a normas).
La mayoría de los tests estandarizados se preparan comercialmente por expertos
en medición. Esto significa que se prestará una atención especial a la naturaleza de
156
www.FreeLibros.me