Você está na página 1de 28

ANASTASI A y URBINA S. Tests Psicolgicos, Edit.

Pretince Hall, Mxico 1998

Validez:

Conceptosbsicos

a validez de los instrumentos de medicin tiene que ver con lo que miden y con
qu tan bien lo hacen; nos indican qu se puede inferir a partir de sus resultados.
A este respecto, debe tenerse el cuidado de no aceptar el nombre de la prueba o
el test como indicador de lo que mide, pues aunque son ttulos cortos, conve
mentes para propsitos de identificacin, casi todos son demasiado generales y vagos
rara indicar el rea de conducta que cubren; no obstante, cada vez son mayores los es
uerzos por utilizar nombres ms especficos y que puedan definirse de manera empri
ca. El rasgo medido por determinadaprueba slo puede definirse mediante el examen
de las fuentes objetivas de informacin y las operaciones empricas utilizadas para es
tablecer su validez. Ms an, la validez no puede expresarse en trminos generales, no
es posible decir en abstracto que es "alta" o "baja", sino que hay que referirse al uso
particular para el que se planea utilizar el instrumento.
En principio, todos los procedimientosutilizados para determinar la validez se inte
resan en las relaciones entre la ejecucin en las pruebas y otros factoresobservados in
dependientemente de las caractersticas de la conducta considerada. Para investigar
estas relaciones se han empleado distintos mtodos, cuyos nombres tradicionalmente
e han concentrado en aspectos de la validez que son importantes para distintos usos
Je la prueba. En la medida en que se han desarrollado y expandido las aplicaciones de
los instrumentos, tambin se han modificado los conceptos de validez (Anastasi,
l 986a; Messick, 1988, 1989).

114

Principios tcnicos y metodolgicos

EVOLUCIN DE LOS CONCEPTOS DE VALIDEZ DE LAS PRUEBAS


Uno de los primeros usos de las pruebas fue la evaluacin de lo que los individuos ha
ban aprendido en determinadas reas de contenido. En la actualidad, se aplican a los
exmenes escolares de fin de cursos y las pruebas presentadas para obtener la licencia
de manejo o para desempear ciertas ocupaciones. En general, para evaluar esta cate
gora de pruebas se compara su contenido con el del rea que pretenden probar. La
aproximacin descriptiva sigue siendo importante en la validacin de los instrumen
tos para algunas aplicaciones, la veremos en otra seccin de este captulo.
Cuando la examinacin pas a su segunda etapa, el nfasis cambi a la prediccin,
cmo respondern diferentes personas a una situacin dada, ahora o en algn mornen
to futuro], cmo reaccionar este individuo en diferentes situaciones especficas? Se
design como criterio al desempeo en la situacin para la cual se pretende predecir la
conducta. En este caso, la validez del instrumento generalmente se informa como el
coeficiente de correlacin entre los resultados del test y una medida de criterio directa
e independiente. Este procedimiento es en especial apropiado para el uso de las prue
bas en la seleccin o colocacin de individuos en programas educativos, empleos o
programas particulares de tratamiento. De este modo, para una prueba de aptitud me
cnica el criterio puede ser el desempeo laboral como maquinista; para una de apti
tud acadmica, las calificaciones escolares, y para una prueba de neuroticismo, las
valoraciones de los compaeros o alguna otra informacin disponible sobre el com
portamiento del individuo en diversas situaciones.
La corriente actual en la historia de la evaluacin refleja dos tendencias principales:
(1) un fortalecimiento de la orientacin terica, y (2) una estrecha vinculacin entre la
teora y la verificacin psicolgicas mediante la comprobacin emprica y experimental
de Las hiptesis. Estas tendencias son tan evidentes en La elaboracin y la validacin de
los instrumentos como en el conjunto de las otras reas de la psicologa (Anascasi,
1992a, 1992b, 1995). Un resultado de estas corrientes es el reconocimiento creciente
del valor de los constructos para describir y comprender La conducta humana. Los cons
tructos son categoras amplias que se derivan de los rasgos comunes que comparten las
variables conductuales observables directamente; pero se trata de entidades tericas que
por su parte no pueden ser observadas de manera directa. El inters en los constructos
llev a la introduccin de lo que al principio se consider la tercera categora de validez,
a saber, la validez de constructo (AERA, APA, NCME, 1985; APA, AERA, NCME,
1974; Cronbach y Meehl, 1955). A la larga y en La medida en que especifica lo que La
prueba mide, la validez de constructo lleg a reconocerse corno La validez fundamental e
incluyente de concepto. Los procedimientos de validacin predictiva y de contenido se
encuentran entre las muchas fuentes de informacin que contribuyen a la definicin y
La comprensin de Los constructos evaluados por la prueba. Al mismo tiempo, propor
donan informacin que es valiosa por derecho propio y destacan en la evaluacin de las
pruebas para determinados usos. De ah que los conceptos ( y trminos) hayan sobreviv
do a pesar de su integracin en el concepto ms amplio de validez de constructo.

PROCEDIMIENTOS

DE LA DESCRIPCIN

DEL CONTENIDO

Naturaleza.
Los procedimientos de validacin por la descripcin del contenido
comprenden principalmente el examen sistemtico del contenido de la prueba para

Validez: Conceptos bsicos

115

determinar si cubre una muestra representativa del rea de conducta que debe medir
,e, Esca forma de validacin se utiliza sobre todo en los instrumentos diseados para
medir qu tan bien ha dominado el individuo una habilidad o un curso de estudio.
Puede parecer que basta con la simple inspeccin del contenido de la prueba para
establecer su validez para dicho propsito; por ejemplo, una prueba de multiplicacin,
onografa o contabilidad parecera vlida por definicin si est constituida por reacti
vos de multiplicacin, ortografao contabilidad. Pero la solucin no es tan sencilla. Un
problema es el muestreo adecuado del universo de reactivos. El rea de conducta por
examinar debe analizarse sistemticamente para garantizar que los reactivos cubran to
dos los aspectos importantes y en la proporcin correcta. Es fcil cargar en exceso las
pruebas con los aspectos del campo que ms se prestan para la preparacin de reactivos
objetivos. Por ello, resulta conveniente describir de antemano toda el rea considerada
en lugar de hacerlo despus de que la prueba est lista; por ejemplo, un examen educa
tivo bien formulado debe cubrir los objetivos de la instruccin y no slo su temario. En
consecuencia, hay que definir el contenido de manera ampliapara que, adems delco
nocimiento real, incluya objetivos importantes como la aplicacin de principios y la
interpretacin de datos. Ms an, la validez depende ms de la relevancia que las res
puestas del individuo tengan para el rea conducrual considerada que la importancia
aparente del contenidodel reactivo. La simple inspeccin de la prueba no siempre bas
ta para revelar los procesos empleados por los examinados al presentarla.
En relacin con el rea muestreada por la prueba, es importante prevenir cualquier
tendencia a la sobregeneralizacn: por ejemplo, una prueba de ortografa compuesta
por reactivos de opcin mltiple puede medir la habilidad para reconocer las palabras
escritas correcta e incorrectamente, pero no puede suponerse que tambin mida la ha
bilidad para tomar un dictado, la frecuencia de los errores ortogrficos en un trabajo
de redaccin y otros aspectos de la habilidad ortogrfica (Ahlstrorn, 1964; Knoell y
Harris, 1952). Otro problema procede de la posible inclusin de factores irrelevantes
en los resultados; as, la habilidad para comprender instrucciones verbales o la rapidez
para ejecutar tareas rutinarias sencillas pueden afectar indebidamente una prueba di
seada para medir el aprovechamiento en matemticas o mecnica.
Procedimientos especficos. La validez de contenido se introduce desde el inicio
en la prueba mediante la eleccin de reactivos apropiados. Para las pruebas educacio
nales, la preparacin de los reactivos es precedida por una revisin cuidadosa y siste
mtica de textos y resmenes importantespara el curso y por la consulta con expertos
en la materia. Sobre la base de la informacin recabada se establecen las especificacio
nes de la prueba que deben seguir los redactores de los reactivos y en las que tienen que
precisar las reas o temas del contenido, los objetivos o procesos educativos que han
de probarse y la importancia relativa de temas y procesos individuales. Las especifica
ciones finales deben indicar el nmero de reactivos de cada clase que hay que preparar
para cada tema; por ejemplo, la evaluacin de la habilidad de lectura puede incluir la
comprensin del vocabulario en el contexto, la comprensin literal del contenido y
la extraccin de inferencias correctas de la informacin proporcionada. Tambin puede
muestrear material de diversas fuentes, como ensayos, poemas, artculos periodsticos o
instructivos para manejar equipo. Una prueba de matemticas puede cubrir habilidades

116

Principios tcnicos y metodolgicos

de clculo, la resolucin de problemas presentados verbalmente y la aplicacin de los


procesos aprendidos a contextos nuevos.
La resea de la validacin del contenido en el manual de una prueba educativa de
aprovechamiento debe incluir la descripcin de los procedimientos seguidos para ase
gurar que el contenido del instrumento es apropiado y representativo. Si en la prepa
racin de ste participaron expertos en la materia, debe informarse de su nmero y
calificacin profesional. Si fungieron como jueces en la clasificacin de reactivos, es
necesario referir las instrucciones que recibieron as como el grado de acuerdo entre
ellos. Como los planes de estudio y los contenidos de los cursos cambian con el tiem
po, es particularmente deseable proporcionar las fechas en las que se consult a los ex
pertos. Tambin tiene que proporcionarse informacin relacionada con el nmero y la
naturaleza de resmenes y textos consultados, incluidas las fechas de publicacin.
Para complementar la validacin de contenido de una prueba de aprovechamiento
acadmico suele seguirse una serie de procedimientos empricos. Pueden supervisarse
los resultados totales y el desempeo en reactivos particulares para calificar el progreso.
En general, se retienen los reactivos que muestran las mayores ganancias en los porcen
tajes de nios que avanzan de los grados inferiores a los superiores. Cuando resulta
apropiado, se utilizan otros procedimientos complementarios, como el anlisis de las
categoras de errores ms comunes en la prueba y la observacin de los mtodos de tra
bajo empleados por los examinados. Para esto ltimo, es posible pedir a los estudiantes
que "piensen en voz alca" mientras resuelven cada problema. Para verificar la contribu
cin de la rapidez se anota el nmero de quienes no lograron terminar la prueba o se
aplica alguno de los mtodos ms refinados que vimos en el captulo 4. Para detectar la
posible influencia irrelevante de la habilidad para leer instrucciones en la ejecucin de
la prueba, las calificaciones obtenidas en el examen se correlacionan con una prueba
de comprensin de lectura. Por otro lado, si la prueba fue diseada para medir la com
prensin de lectura, entregar el cuestionario sin el pasaje de lectura en el que se bas
mostrar cuntas preguntas puede contestar el examinado a partir de la informacin
que ya posea o con la ayuda de otras seales irrelevantes (Scherich y Hanna, 1977).
Aplicaciones.
En especial, cuando es apoyada por supervisiones empricas como
las ilustradas, la validacin de contenido proporciona una tcnica apropiada de eva
luacin, pues nos permite responder a dos preguntas que son bsicas para la validez de
las pruebas de rendimiento acadmico y ocupacional: ( l) cubre la prueba una muestra
representativa de las habilidades y los conocimientos especificados', (2) el desempeo
en la prueba est razonablemente libre de la influencia de variables irrelevantes? La
validacin de contenido es apropiada sobre todo para las pruebas referidas al dominio
que estudiamos en el captulo 3. Como el desempeo en estos instrumentos se inter
preta en trminos del significado del contenido, es evidente que la validacin de con
tenido es un requisito primordial para su uso efectivo no obstante, otras formas de
evidencia de validez tambin son importantes para una evaluacin completa de su
efectividad (vase Hambleton, 1984b).
La validacin de contenido tambin se aplica a ciertas pruebas ocupacionales {que
se revisan en el captulo 17) diseadas para la seleccin y clasificacin de personal. Es
tas evidencias de validacin son adecuadas cuando la prueba es una muestra del em
pleo real o de otro que requiera las mismas habilidades y conocimiento que demanda

Validez: Conceptos bsicos

117

e. puesto. En esos casos, debe realizarse un anlisis exhaustivo del puesto para demos
zrar una similitud estrecha entre las actividades del puesto y la prueba. Schoenfeldt,
Schoenfeldt, Acker y Perlson (1976) ofrecen una clara y detallada explicacin de la
a;hcacin de esos procedimientos de validacin al desarrollo de una prueba de lectu
industrial. Trabajando junto a supervisores y empleados, los investigadores analiza
n el nivel de lectura requerido para ingresar a una compaa manufacturera en
crminos del tema y las habilidades de comprensin, y luego formularon reactivos que
... rrespondieran a dichos requisitos. Esca aproximacin suele emplearse al elaborar
ruebas para los empleados del gobierno estadounidense a nivel federal y estatal
Hardt, Eyde, Primoff y Tordy, 1981; Menne, McCarthy y Merme, 1976; Prirnoff y Ey
.le, 1988; Tordy, Eyde, Primoff y Hardt, 1976).
Por otro lado, en el caso de los tests de aptitud y de personalidad, la validacin de
contenido no slo suele ser inapropiada, sino incluso engaosa. Aunque es obvio que
en las etapas iniciales de la elaboracin de cualquier instrumento deben hacerse con
sideraciones sobre la relevancia y representatividad del contenido, la validacin final
de los tests de aptitud o personalidad debe verificarse empricamente mediante los
procedimientos que describiremos en las siguientes secciones. En comparacin con las
pruebas de aprovechamiento, estos tests tienen menor parecido intrnseco con el do
minio de conducta que pretenden muestrear. En consecuencia, su contenido hace ms
que revelar las hiptesis que llevaron a quien las realiz a elegir ciertos contenidos pa
ra medir un rasgo especfico. Las hiptesis tienen que ser confirmadas empricamente
para establecer la validez de los instrumentos.
A diferencia de las pruebas de aprovechamiento, los tests de aptitud y de persona
lidad no se basan en un curso especfico de educacin o en un conjunto uniforme de
experiencias de las cuales pueda extraerse el contenido del instrumento; por cense
cuencia, es probable que en estas pruebas se encuentren ms diferencias en los mto
dos de trabajo o en los procesos psicolgicos empleados por los individuos al responder
a los mismos reactivos. Ello supone que una misma prueba puede medir funciones di
ferentes en distintas personas, lo que hace prcticamente imposible determinar las
funciones psicolgicas medidas por la prueba a partir de la inspeccin de su conteni
do; por ejemplo, los estudiantes de posgrado pueden resolver un problema en trminos
verbales o matemticos, mientras que un mecnico llegar a la misma solucin en tr
minos de visualizacin espacial; o una prueba que en estudiantes de secundaria mide
el razonamiento aritmtico, cuando se aplica a universitarios puede medir apenas las
diferencias individuales en la velocidad de los clculos.
Validez de facie. La validez de contenido no debe confundirse con la validez de
facie (conocida tambin como validez aparente). Esta ltima no es validez en el senti
do tcnico, es decir, no se refiere a lo que la prueba verdaderamente mide, sino a lo
que parece medir. La validez de facie alude a si la prueba "parece vlida" a los exami
nados que la presentan, al personal administrativo que decide sobre su uso y a otros
observadores sin capacitacin tcnica. En esencia, la cuestin de la validez de facie
tiene que ver con el rapport y las relaciones pblicas. Aunque el uso comn del trmi
no "validez" a este respecto puede resultar confuso, la validez de facie es en s misma
un rasgo deseable de los instrumentos; as, cuando las pruebas originalmente disea
das para nios y formuladas dentro de las aulas empezaron a extender su uso a los adul

118

Principios tcnicos y metodolgicos

tos, fue comn que enfrentaran crticas y resistencia por carecer de validez de facie. Es
indudable que si el contenido de la prueba parece irrelevante, inapropiado, tonto o in
fantil, el resultado sea una pobre cooperacin, cualquiera que sea su verdadera validez.
En particular en la evaluacin de adultos, para que una prueba funcione no basta con
que sea objetivamente vlida, tambin debe parecerlo. La validez de facie tambin in
fluye en la aceptacin de la prueba en decisiones legislativas y judiciales, as corno en
el juicio que de ella haga el pblico en general.
En un innovador programa de investigacin sobre el punto de vista del examinado
(citado en el captulo 1}, Baruch Nevo y sus asociados incluyeron la investigacin de
la validez de facie (B. Nevo, 1985, 1992; B. Nevo y Sfez, 1985). Al principio les lla
m la atencin observar que, a pesar de su probable contribucin a las actitudes pre
valeciente hacia las pruebas, eran muy pocas las investigaciones sobre la validez de
facie. Propusieron luego una evaluacin cuantitativa de la validez aparente al hacer
que examinados y otros interesados sin conocimiento psicorntrico calificaran la con
veniencia de cierta prueba para determinado uso; los mismos procedimientospueden
emplearse para calificar reactivos de una sola prueba o una batera. A este respecto re
sultan ilustrativos los datos obtenidos al analizar las respuestas de 1 385 estudiantes is
raeles a un cuestionario de retroalimentacin de examinados aplicado despus de un
examen de admisin a la universidad compuesto por seis pruebas. Los resultados mos
traron un prometedor acuerdo entre calificadores, confiabilidad en el retest y diferen
ciacin entre pruebas y entre subgrupos de aspirantes que planeaban especializarse en
distintas reas. Se recomend que los manuales incluyeran regularmente datos cuali
tativos y cuantitativos sobre la validez de facie.
La validez de facie o aparente a menudo puede mejorarse mediante el simple recur
so de replantear los reactivos de modo que parezcan relevantes y plausibles en el me
dio particular en el que sern usados; por ejemplo, si se construye una prueba simple
de razonamiento aritmtico para aplicarla a maquinistas, los reactivos deben plantear
se en trminos de operaciones con las mquinas y no de "cuntas naranjas pueden
comprarse con X pesos" u otros problemas tradicionales de los textos escolares. De
igual modo, es posible elaborar una prueba de aritmtica para personal naval en la ter
minologa nutica sin alterar con ello las funciones medidas. Por supuesto, la validez
de facie no debe considerarse como sustituto de la validez determinada objetivamen
te. No puede suponerse que al mejorar la validez de facie de una prueba mejore su va
lidez objetiva, pero tampoco se puede presumir que cuando se modifica una prueba
para aurnentar su validez de facie su validez objetiva quede inalterada. La validez de la
prueba en su forma final siempre debe verificarse de manera directa.

PROCEDIMIENTOS

DE CRITERIO-PREDICCIN

Validacin concurrente y predictiva. Los procedimientosde validacin de cri


terioprediccin indican la efectividad de la prueba para predecir el desempeo del
individuo en actividades espedfi.cas. La medida de criterio contra la que se validan los
resultados del instrumento puede obtenerse aproximadamente al mismo tiempo que
los resultados de la prueba o despus de un intervalo establecido. Los estndares de
examinacin ("TestingStandards") de 1985 utilizan estas relaciones temporales entre el

Validez: Conceptos bsicos

119

criterio y la prueba como base para diferenciar entre la validacin concurrente y la


predictiva. El trmino "prediccin" se utiliza en sentido amplio para referirse a la su
posicin que puede hacer la prueba sobre cualquier situacin de criterio, o bien en el
entido ms restringido de anticipacin sobre un intervalo. La expresin "validez pre
dictiva" se emplea en este ltimo sentido, y la informacin que proporciona es muy
pertinente para las pruebas usadas en la seleccin y clasificacin de personal. La con
rratacin de personal, la seleccin de estudiantes para su ingreso a la universidad o a
escuelas profesionales y la asignacin de personal militar a programas de capacitacin
ocupacional son algunos ejemplos de las decisiones que requieren el conocimiento de
la validez predictiva de los instrumentos. Otros ejemplos incluyen el uso de las prue
bas para descartar a los individuos que probablemente desarrollen trastornos emocio
nales en ambientes de tensin o para identificar a los pacientes psiquitricos que es
ms probable que se beneficien de cierta terapia.
Cuando no es factible extender los procedimientos de validacin por el tiempo re
querido para obtener la validacin predictiva o una muestra adecuada de preseleccin
para los propsitos del examen, se emplea la validacin concurrente como sustituto.
En estos casos, la prueba se aplica a un grupo del que ya se tienen los datos de criterio;
por ejemplo, se comparan los resultados obtenidos en la prueba por universitarios con
su promedio acadmico en el momento del examen, o los resultados obtenidos por
empleados con su xito actual en el trabajo.
Por otro lado, para ciertos usos de los tests la validacin concurrente resulta ms
conveniente y puede justificarse por derecho propio. La distincin lgica entre la vali
dacin predictiva y concurrente no se basa en el tiempo, sino en los objetivos del exa
men. La validacin concurrente es adecuada para las pruebas que se emplean para
diagnosticar el estado actual ms que para predecir los resultados futuros. La diferencia
puede ilustrarse al preguntar "califica Ortega como un buen piloto?" o "posee Ortega
los requisitos para convertirse en un buen piloto?" La primera pregunta requiere de
validacin concurrente; la segunda, de validacin predictiva.
Como el criterio para la validacin concurrente siempre est disponible en el mo
mento de aplicar el examen, podra cuestionarse qu funcin cumple la prueba en esas
situaciones. Bsicamente, los instrumentos proporcionan un sustituto ms simple, rpi
do y menos costoso para los datos del criterio; por ejemplo, si el criterio consiste en la
observacin continua de un paciente durante dos semanas de hospitalizacin, una prue
ba que pueda distinguir a los casos normales de los casos perturbados o dudosos reduci
ra notablemente el nmero de personas que requieren can prolongada observacin.
Contaminacin del criterio.
Una precaucin esencial al encontrar la validez de
una prueba consiste en asegurar que sus propios resultados no influyan en la condicin
del criterio de cualquier individuo; por ejemplo, si un maestro o el supervisor de una
planta industrial saben que determinado individuo obtuvo un psimo resultado en un
test de aptitud, ese conocimiento puede influir en la calificacin que otorguen al estu
diante o en la clasificacin que asignen al trabajador; en contraste, quien obtuvo una
puntuacin elevada puede recibir el beneficio de la duda cuando se preparan sus cali
ficaciones acadmicas o clasificaciones laborales. Es evidente que estas influencias ele
varn la correlacin entre los resultados obtenidos en la prueba y el criterio de una
manera por completo espuria o artificial.

120

Ptincipios tcnicos y metodolgicos

Esta posible fuente de error en la validacin de La prueba se conoce como contami


nacin del criterio, ya que las calificaciones del criterio quedan "contaminadas" por el
conocimiento que el calificador tiene de los resultadosdel instrumento. Para evitar es
te error es absolutamente esencial que ninguna de las personas que participan en La
asignacin de las calificaciones del criterio tenga conocimiento alguno de los resulta
dos obtenidos por los examinados en la prueba. Es por ello que los resultado que se
emplean para evaluarla deben mantenerse estrictamente confidenciales. En ocasiones
resulta difcil convencer a los maestros, empleadores, oficiales del ejrcito, etc., de que
esa precaucines esencial. En su prisa por utilizar toda La informacin disponible para
tomar decisiones prcticas, pueden no percatarse de que los resultados deben dejarse a
un lado hasta que los datos del criterio maduren y pueda supervisarse la validez.
Medidas de criterio. Una prueba puede validarse si se la compara con tantos criterios
como usos especficosexistan para ella. Cualquier mtodo utilizado para evaluar la con
ducta en cualquier situacin puede brindar una medida de criterio para algn propsito
particular sin embargo, los criterios empleados para encontrar las distintas clases de va
lidez que se informan en los manuales caen en unas cuantas categoras comunes. Entre
los criterios ms empleados para validar los tests de inteligencia se encuentra cierto n
dice de aprovechamientoacadmico, razn por la cual a menudo se describen de manera
ms precisa como medidas de aptitud acadmica. Los ndices especficos utilizados como
medidas de criterio comprenden las calificaciones escolares, los resultados de pruebas de
aprovechamiento, los registros de promocin y de graduacin, los honores y reconoci
mientos especiales y las valoraciones de maestros o instructores sobre la "inteligencia"
de los individuos. En tanto que es muy probable que Las calificaciones obtenidas en un
medio escolar se distorsionen por la ejecucin acadmica del individuo, pueden clasifi
carse ms apropiadamente con el criterio de aprovechamiento acadmico.
Los diversos ndices de aprovechamiento acadmico han proporcionado datos
del criterio en codos los niveles educativos, desde la educacin bsica hasta la supe
rior. Aunque se emplean principalmente en la validacin de los tests de inteligen
cia, tambin se han usado como criterio para ciertos tests de habilidad mltiple y de
personalidad; por ejemplo, en La validacin de cualquiera de las pruebas de ingreso a
la universidad, un criterio comn es el promedio obtenido durante el primer ao de
estudios. Esca medida es La calificacin promedio obtenida en codos los cursos durante
el primer ao; cada calificacin es sopesada por el nmero de puntos del curso por
quienes fue recibida.
En el caso de los adultos que no asisten a la escuela, suelen emplearse los aos de
escolaridad completa como una variante del criterio de aprovechamiento acadmico.
En general, se espera que los individuos ms inteligentes prolonguen su educacin
por ms tiempo y que Los otros abandonen antes la escuela. Esca suposicin funda
menta el criterio de que la escala educativa funge como una influencia progresiva
mente selectiva, que elimina a los que no son capaces de continuar ms all de algn
peldao. Aunque indudablemente es cierto que los graduados universitarios, por
ejemplo, representan un grupo ms selecto que los graduados de la educacin bsica, la
relacin entre la escolaridad y la aptitud acadmica est lejos de ser perfecta. Especial
mente en los niveles educativos superiores, las variables econmicas, sociales, motiva
cionales y otros factores no educativos pueden influir en la continuacin de la
educacin del individuo. Ms an, con la validacin concurrente es difcil desentraar

Validez: Conceptos bsicos

121

las relaciones causales. En qu medida las diferencias en los resultados de los tests de

inteligencia se deben a las diferencias en la escolaridad? En qu medida predice la


prueba las diferencias individuales en el progreso educativo subsecuente? Estas pre
guntas se responden slo cuando el instrumento se aplica antes de que los datos del
criterio hayan madurado, como en la validacin predictiva.
En el desarrollo de las pruebas de aptitudes especiales, un criterio frecuente se basa
en el desempeo en la capacitacin especializada; por ejemplo, las pruebas de aptitud me
cnica pueden validarse si se compara sus resultados con el rendimiento final en un cur
so del oficio. Algunos cursos de escuelas comerciales, tales como mecanografa o
contabilidad, proporcionan criterios para los tests de aptitud en esas reas. De igual mo
do, se ha empleado el desempeo en las escuelas de arte o de msica para validar las
pruebas de aptitud musical o artstica. Varias pruebas de aptitud profesional han sido
validadas en trminos del aprovechamiento en las escuelas de leyes, medicina, odonto
loga, ingeniera y otras. En el caso de las pruebas elaboradas para usarse en un programa
especfico de examinacin, los registros de la capacitacin son una fuente frecuente de
datos del criterio. Un magnfico ejemplo es la validacin de las pruebas de seleccin
de pilotos para la fuerza area estadounidense, que compara sus resultados con el desern
peo en los vuelos bsicos de entrenamiento. La ejecucin en los programas de capaci
tacin tambin suele utilizarse como criterio para la validacin de las pruebas en otras
especialidades ocupacionales militares y en algunos estudios de validacin industrial.
Entre los ndices especficos del desempeo en la capacitacin que se utilizan como
criterio pueden mencionarse las pruebas de aprovechamiento administradas al terminar
el curso, las calificaciones formalmente asignadas, las valoraciones de los instructores y
la culminacin exitosa en contraste con la eliminacin del programa. Para determinar la
validez de las bateras de aptitudes mltiples como predictoresdiferenciales, es frecuente
que se comparen sus resultados con las calificaciones obtenidas en secundarias o cursos
universitarios especficos; por ejemplo, los resultados en una prueba de comprensin
verbal pueden compararse con las calificaciones obtenidas en los cursos de redaccin,
los resultados de visualizacin espacial con las calificaciones en geometra, etctera.
En lo que respecta al uso general de los registros de capacitacin como medidas del
criterio, resulta til distinguir entre los criterios intermedios y los finales. As, en el
desarrollo de una prueba de seleccin de pilotos de la fuerza area estadounidense o de
una prueba de aptitud mdica, los criterios ltimos seran el desempeo en combate y
el xito en la prctica mdica. Por supuesto, se requerira mucho tiempo para la madu
racin de esos datos, por lo que es dudoso que en la prctica pueda obtenerse un crite
rio ltimo verdadero, y, aunque fuera posible estara afectado por tantos factores no
controlados que su utilidad sera nula; por ejemplo, sera difcil evaluar el grado relati
vo de xito de mdicos de diferentes especialidades que ejercen en diversas partes del
pas. Es por eso que suelen emplearse criterios intermedios como medidas, como los
registros del desempeo en alguna etapa de la capacitacin.
Para muchos propsitos, la medida de criterio ms satisfactoria es la que se basa en re
gistros de seguimiento del desempeo laboral real, un criterio que hasta cierro punto se ha
empleado en la validacin de los tests de inteligencia general y de personalidad y en ma
yor medida en la validacin de pruebas de aptitudes especiales. Tambin es un criterio
comn en la validacin de instrumentos diseados para trabajos especficos. Los "traba
jos" en cuestin varan tanto en nivel como en categora, incluido el trabajo en los ne
gocios, la industria, las profesiones y las fuerzas armadas. Aunque es probable que casi

122

Principios tcnicosy metodolgicos

todas las medidas del desempeo en el trabajono representenlos criterios ltimos, s


proporcionan un buen criterio intermedio para muchos propsitos de examinacin, lo
que los hace preferiblesa los registrosde capacitacin. Por otro lado, la medicindel de
sempeoen el empleo no permite tanta uniformidaden las condicionescomo es posible
en la capacitacin. Ms an, como por lo general requiere un seguimiento ms prolon
gado, es probable que el criterio del desempeo en el trabajoocasione una disminucin
en el nmero de los participantes disponibles. Debidoa la variacin en la naturalezade
empleos nominalmente similares en distintas organizaciones,los manuales que infor
man los datosde validezcontra el criterio del puesto no slo deben describir las medidas
de criterio que emplearon,sino tambin las tareas realizadaspor los trabajadores.
La validacinpor el mtodo de grupos contrastadosgeneralmente incluye un criterio
compuesto que refleja las influencias selectivas acumuladas y no controladasde la vida
cotidiana. Este criterio se basa finalmente en la supervivenciadentrode un grupo part
cular en comparacincon la eliminacinde ste; por ejemplo, para comprobar la vali
dez de una prueba de aptitud musical o mecnica se comparanlos resultadosobtenidos
por los estudiantesinscritos en una escuelade msica o de ingeniera,respectivamente,
con los resultadosde estudiantesno admitidos en la secundariao la universidad. Porsu
puesto,para seleccionara los gruposcontrastadospuede usarse cualquiercriterio (como
calificacionesescolares,valoraciones,desempeo laboral), y se eligen los extremosde la
distribucinde las medidas elegidas; sin embargo, los grupos contrastadosque se inclu
yen en esta categora se han ido diferenciandogradualmente por la operacin de las
mltiples exigencias de la vida cotidiana. El criterio a consideracin es, por ende, ms
complejo y su definicin resulta menos clara que los que estudiamosarriba.
El uso del mtodo de grupos contrasrados es muy comn en la validacin de los
testsde personalidad; por ejemplo, al validar una prueba de rasgos sociales puede com
pararse el desempeode vendedoreso ejecutivos con el de oficinistaso ingenieros. La
suposicin que fundamenta al procedimientoes que, en relacin con muchos rasgos
sociales, los individuos que han ingresado y permanecido en ocupaciones como las
ventaso el trabajo ejecutivo superarn como grupo a los que se encuentran en campos
como el trabajo de oficina o la ingeniera. De modo similar, los estudiantesuniversita
rios que han participado en muchas actividades extracurricularespueden compararse
con los que no han participadoen ninguna duranteun periodocomparable de asisten
cia a la universidad. Los grupos ocupacionaleshan sido muy usados en el desarrollo y
la validacin de las pruebas de inters, como el Formulario de Intereses Vocacionales
de Strong (Strong VocacionalInterest Blank, SYlB), as como en la preparacin de es
calas de actitud. En la validacin de escalas de actitud se han empleado, entre otros,
grupos polticos, religiosos, geogrficos y otros que generalmente son conocidos por
ostentar puntos de vista distintossobre ciertos temas.
En la validacin emprica de las pruebas referidas a dominio, adems de los proce
dimientos comunes de validacin de contenido, se han utilizado varias adaptaciones
del mtodo de grupos contrastados (Hambleton, 1984b). Con este propsito se com
para el desempeo en la prueba de grupos que difieren en el nivel de educacin rele
vante. Si se emplea una calificacin de habilidad puede hacerse un anlisis 2 X 2, que
compara la proporcin de resultados de xito y fracaso antes y despus de la instruc
cin (Panell y Laabs, 1979). Pueden hacerse comparacionessimilares si la prueba se
aplica a escolares de un grado inferior y uno superior al grado en el que se ensea el
conceptoo la habilidadparticular que evala la prueba. Si se dispone de los resultados

Validez: Conceptos bsicos

123

despus de diferentes perodos de educacin, se encontrar la correlacin entre el de


empeo real y la cantidad de instruccin.
En el desarrollo de ciertos tests de personalidad, el diagnsrico psiquimco se utiliza
como base para la seleccin de reactivos y como evidencia de la validez del instru
mento. El diagnstico psiquitrico puede ser un criterio satisfactorio siempre que se
funde en la observacin prolongada y la historia de caso detallada ms que en una en
trevista o un examen psiquitrico superficial. En el ltimo de los casos, no hay razn
para esperar que el diagnstico psiquitrico sea superior al resultado de la prueba co
mo indicador de la condicin emocional del individuo. No debe considerarse al diag
nstico psiquitrico como medida de criterio, sino como un indicador o predictor
cuya propia validez tiene que ser determinada.
Ya hablamos, en relacin con otras categoras de criterios, de las valoracionesde los
maestros, instructores de cursos especializados y supervisores laborales. A stas pue
den agregarse las opiniones de oficiales en situaciones militares, las calificaciones que
los consejeros escolares dan a los estudiantes y las valoraciones de los compaeros de
trabajo, de la escuela, del club, etc. Las apreciaciones o calificaciones que hemos vis
co representan simplemente una tcnica complementaria para obtener informacin
respecto a criterios como el rendimiento acadmico, el desempeo en la capacitacin
especializada o el xito en el trabajo. Ahora, se est considerando su uso como el n
cleo de la medida de criterio; en cales circunstancias, son las propias valoraciones o
calificaciones las que definen el criterio. Ms an, dichas calificaciones no se limitan
a la evaluacin de un aprovechamiento especfico, sino que incluyen el juicio perso
nal de un observador en relacin con cualquier rasgo que las pruebas psicolgicas pre
tenden medir. As, los participantes en la muestra de val idacin pueden ser calificados
en caractersticas como dominancia, ingenio mecnico, originalidad, liderazgo u ho
nestidad.
Se han empleado las valoraciones en la validacin de casi cualquier clase de
prueba, pero su utilidad es mayor en la obtencin de criterios para los tests de perso
nalidad, ya que en esta rea es mucho ms dificil encontrar criterios objetivos. Esto es
cierto sobre todo en el caso de rasgos distintivamente sociales en los que las califica
ciones basadas en el contacto personal pueden formar el criterio ms lgico. Aunque
las valoraciones pueden estar sujetas a muchos errores de juicio, cuando se obtienen
en condiciones cuidadosamente controladas representan una fuente valiosa de datos
del criterio. En el captulo 16 se consideran las tcnicas para mejorar la precisin de
las valoraciones y para reducir las formas ms comunes de error.
Por ltimo, es comn que se citen las correlaciones entre la nueva prueba y pruebas
validadas prewimerue disponibles como evidencia de validez. Cuando el nuevo instru
mento es una forma abreviada o simplificada de una prueba ya existente, esca ltima
puede considerarse como la medida de criterio. De esca manera, una prueba de lpiz y
papel puede validarse contrastndola con una prueba de aprovechamiento ms elabo
rada y cuya validez ya haya sido establecida, o bien una prueba de grupo se valida
comparndola con una prueba individual; por ejemplo, en repetidas ocasiones se ha
empleado el StanfordBinet como criterio en la validacin de tests de grupo. En tales
condiciones, el nuevo instrumento puede considerarse, en el mejor de los casos, como
una aproximacin gruesa del anterior. Debe observarse que a menos que la nueva
prueba represente un sustituto ms sencillo o ms breve de la prueba anterior, es ina
propiado el uso de la ltima como criterio.

124

Principios tcnicos y metodolgicos

Un avance importante en la elaboracin de tests en las dcadas de los ochenta y los


noventa ha centrado su atencin en el anlisis del criterio, un aspecto tradicionalmen
te descuidado en la investigacin de las pruebas. Con los aos, se han elevado voces
dispersas para sealar la necesidad de realizar una investigacin sistemtica de los cri
terios, pero la puesta en prctica ha dado pocos frutos (L. R. James, 1973; Tenopyr,
1986). Incluso en los proyectos bien diseados que emplearon el anlisis cuidadoso
del puesto como gua para el desarrollo del instrumento, los resultados tuvieron poco
efecto sobre la medida de criterio empleada en la validacin subsecuente de la prueba.
Por lo general, se aceptaba que el criterio "estaba ah", y con demasiada frecuencia se
representaba con un ndice global del desempeo en el trabajo basado en calificacio
nes o registros de produccin total. Ahora se reconoce ampliamente que la validez de
una prueba se explora de mejor manera si primero se identifican los constructos ms
importantes en la realizacin del trabajo y luego se eligen o elaboran instrumentos cu
yos resultados los evalen (J. P. Carnpbell, 1990a; J. P. Campbell, McHenry y Wise,
1990; L. V. [ones y Appelbaurn, 1989; Messick, 1995). El Proyecto de Seleccin y
Clasificacin del Ejrcito Estadounidense, conocido como "Proyecto A" (J. P. Camp
bell, 1990b), es un buenejemplo de la investigacin minuciosa del criterio como pri
mer paso en el desarrollo de una batera de pruebas. Debido a su importancia general
para el uso industrial y organizacional de las pruebas, en el captulo 17, nos ocupare
mos ms a fondo de este proyecto a gran escala de siete aos,
Generalizacin de la validez. A menudo se utiliza la validez de criterioprediccin
en la validacin local de estudios que pretenden evaluar la efectividad de una prueba pa
ra un programa especfico. Es lo que se hace, por ejemplo, cuando determinada compa
a desea evaluar una prueba para la seleccin de personal para uno de sus puestos o
cuando a una universidad le interesa determinar qu tan bien puede predecir cierta
prueba de aptitud acadmica el desempeo de sus estudiantes. La validez predictiva se
caracteriza mejor como la validez prctica del instrumento para un propsito especfico.
Cuando en los estudios de validacin industrial se empez a correlacionar las
pruebas estandarizadas de aptitud con el desempeo en los puestos supuestamente si
milares, se encontr una gran variabilidad en los coeficientes de validez (Ghiselli,
1959, 1966). Al emplear como criterio las calificaciones obtenidas en diversos cursos
escolares se observ una variabilidad similar entre los coeficientes de validez (G. K.
Bennett, Seashore y Wesman, 1984 ). Esos descubrimientos generaron un enorme pe
simismo en tomo a la posibilidad de generalizar la validez de la prueba a situaciones
distintas. Hasta mediados de los setenta, la "especificidad siruacional" de los requisitos
psicolgicos era considerada como una seria limitacin de la utilidad de las pruebas
estandarizadas para la seleccin de personal; sin embargo, en un complejo anlisis es
tadstico del problema, Schmidt, Hunter y sus colegas demostraron que gran parte de
la varianza entre los coeficientes de validez puede ser un ardid o engao estadstico
que resulta del pequeo tamao de la muestra, la poca confiabilidad del criterio y la
restriccin del rango en las muestras de empleados. 1
I Este trabajo form parte de un programa continuo de investigacin informado en muchos artculos y monogra
(fas. Las publicacionesms importantespara el presente tema incluyen (sin limitarse) Pcarlman, Schmidt y Hun
cer (1980), Schmidt, GastRosenbergy Hunter (1980), Schmidt y Hunrer (1977), Schmidt, Hunter y Pearlman
(1981) y Schrnidt, Hunter, Pcarlman y Shanc (1979).

Validez: Conceptos bsicas

125

Las muestras industriales disponibles para la validacin de las pruebas suelen ser
demasiado pequeas para producir una estimacin estable de la correlacin entre pre
dicror y el criterio. Por la misma razn, los coeficientes obtenidos pueden ser demasia
do pequeos para alcanzar significacin estadstica en la muestra empleada, por lo que
no logran aportar evidencias sobre la validez del instrumento. Se ha estimado que al
rededor de la mitad de las muestras de validacin usadas en estudios industriales no
mcluye ms de 40 o 50 casos (Schmdt, Hunter y Urry, 1976). Con muestras tan pe
queas, tcnicamente no es posible aplicar la validacin de criterioprediccin.
Al aplicar sus tcnicas de reciente desarrollo a los datos de muchas muestras ex
tradas de un gran nmero de especialidades ocupacionales, Schmidt, Hunter y sus
colaboradores pudieron demostrar que la validez de las pruebas de aptitud verbal, nu
mrica y de razonamiento puede generalizarse entre ocupaciones mucho ms de lo
que se haba reconocido. La varianza de los coeficientes de validez que se encontra
ban en los primeros estudios industriales demostr no ser mayor a lo que se habra es
perado por azar, incluso cuando las funciones del puesto en particular parecan ser
muy distintas entre los puestos. Evidentemente, el desempeo exitoso de una amplia
variedad de tareas ocupacionales depende en un grado sustancial de un ncleo co
mn de habilidades cognoscitivas. Las pruebas incluidas en esos estudios cubran
principalmente la clase de contenido y habilidades muestreadas en las pruebas tradi
conales de inteligencia y de aptitud acadmica. Parecera que este grupo de conoci
mientos y habilidades cognoscitivas es un buen predictor del desempeo en las
actividades acadmicas y ocupacionales requeridas en las sociedades tecnolgica
mente avanzadas; no obstante, en general pueden tomarse decisiones de seleccin
ms precisas al considerar los resultados obtenidos en dos o tres grupos cognoscitivos
amplios, de preferencia complementados con las medidas de las habilidades tcnicas
especificas para trabajos particulares (Hartigan y Wigdor, 1989; L. L. Wise, McHenry
v Campbell, 1990; Zeidner y [ohnson, 1991).
Metaanaltsis.
Los procedimientos estadsticos empleados para investigar la gene
ralizacin de la validez permiten integrar los descubrimientos de diferentes estudios.
Estos procedimientos hacen posible combinar los datos de investigaciones realizadas
en momentos o en lugares diferentes, o de informaciones publicadas en distintos estu
dios. Tales procedimientos, inicialmente designados como metaanlisis, empezaron a
u arse en la investigacin psicolgica durante los setenta (Glass, 1976; Schmidt y
Hunter, 1977), aunque en otras ciencias han estado en uso durante varias dcadas
(Hartigan y Wigdor, 1989, captulo 6). En la psicologa, el metaanlisis ha recibido
cada vez mayor atencin como sustituto de la revisin tradicional de la bibliografa
(Lipsey y Wilson, 1993; Schrndt, 1992). Por lo comn, estas revisiones sealaban el
nmero de estudios que encontraron efectos estadsticamente significativos en, por
ejemplo, las diferencias entre las medias de los grupos experimental y de control o las
correlaciones entre los resultados de la prueba y otras variables. Con este procedi
miento, a menudo se perdan resultados prometedores porque las muestras empleadas
en los estudios eran demasiado pequeas para arrojar diferencias significativas.
Al combinar los descubrimientos publicados de varios estudios y sopesarlos hasta
donde fuera posible sobre la base de las caractersticas sustantivas y metodolgicas re
levantes de cada estudio, el metaanlisis puede revelar descubrimientos positivos sus

126

Prindpios tcnicosy metodolgicos

tanciales, Otra ventaja es que permite calcular los efecws del camaflo, la magnittl o la

medida.

Por razones tanto tericas como prcticas, la magnitud estimada de una dife
rencia o una correlacin es ms til que la simple demostracin de que es significati
vamente mayor que cero.
Las dcadas de los ochenta y los noventa han presenciado el rpido resurgimiento
de la investigacin metaanaltica casi en cualquier campo de la psicologa. Sus apli
caciones a la investigacin de la seleccin y clasificacin de personal son las que han
atrado la mayor atencin ( vase el captulo 17). El inters en el meraanlisis crece a
paso firme y de continuo se establecen procedimientos ms refinados. Aunque persiste
cierta controversia acerca de las tcnicas, los resultados principales no varan aprecia
blemente entre procedimientos. 2

PROCEDIMIENTOS

DE IDENTIFICACIN DEL CONSTRUCTO

El trmino "validez de constructo" fue oficialmente introducido en el lxico psicom


trico en 1954 en las Recomendacionestcnicas para las pruebas psicolgicas y las tcnicas de
diagnstico(APA, 1954), que constituyeron la primera edicin de los actuales Estnda
res de examinaci6n. Al ao siguiente apareci la primera exposicin detallada de la vali
dez de constructo en un artculo de Cronbach y Meehl ( 1955). Las controversias sobre
la validez de constructo que siguieron (y que continan hoy con el mismo vigor) han
servido para hacer ms expltctas las implicaciones de sus proccdimentos y para pro
porcionar una lgica sistemtica de su uso. La validacin de constructo ha centrado la
atencin en la funcin que cumple la teora psicolgica en la elaboracin de la prueba
y en la necesidad de formular hiptesis que puedan ser comprobadas o refutadas en el
proceso de validacin. Tambin ha estimulado la bsqueda de nuevas formas de obte
ner los datos sobre la validez. Aunque algunas de las tcnicas empleadas en la investi
gacin de la validez de constructo se conocen desde hace mucho tiempo, el campo de
aplicacin se ha ampliado para admitir una mayor variedad de procedimientos.
La validez de constructo de un instrumento es el grado en el que puede afirmarse
que mide un constructo o rasgo terico. La aptitud acadmica, la comprensin mec
nica, la fluidez verbal, La rapidez de La marcha, el neuroticismo y la ansiedad son algu
nos ejemplos de dichos constructos. La validacin de constructo requiere de la
acumulacin gradual de diversas fuentes de informacin cada constructo se deriva de
las interrelaciones establecidas entre medidas conductuales y se forma para organizar y
dar cuenta de las concordancias observadas en la respuesta. Cualquier dato que arroje
luz sobre la naturaleza del dato considerado y sobre las condiciones que afectan su de
sarrollo y manifestaciones constituye una evidencia apropiada para su validacin. En
las siguientes secciones veremos ejemplos concretos de tcnicas que contribuyen a la
identificacin del constructo.
1Aplicaciones recientes, explicaciones detalladas de los procedunientcs y evaluaciones crticas pueden encon

erarse en Hanigan y Wigdor ( 1989), Hedges ( 1988), Hunter y Schmidt ( 1990), L. R. James, Dcmaree, Mula,k
y Ladd (1992), L. V. Joncs y Appclbuum (1989), R. Rosenthal (1991), Schmidt (1992), Schmidt ti al. (1993))
Schrmdr, Ones y llunrcr (1992). Para una introduccin sencilla a los procedimientos esr.idsticos, vase F. M.
Wolf ( 1986). Para una visin ms amplia del uso del meta,anilisis en la investigacin conductual, vase Cook <t
al. (1992), Cooper y Hedges (1994), Hasselblad y Hedges (1995) y Wachter y Straf (1990).

Validez: Conceptos bsicos

127

Cambios en el desarrollo. La diferenciaci6n por edad es un importante criterio uti


li:ado en la validacin de una serie de tests tradicionales de inteligencia. Instrumentos
como el StanfordBnet y la mayor parte de las pruebas para preescolares se contrastan
con la edad cronolgica para determinar si las puntuaciones muestran un incremento
progresivo conforme aumenta la edad. Como se espera que, durante la niez, las habi
lidades aumenten con la edad, se argumenta que si la prueba es vlida sus resultados
deberan mostrar dicho incremento. El mismo concepto de una escala cronolgica de
inteligencia, como la iniciada por Bnet, se basa en la suposicin de que la "inteligen
cia" aumenta con la edad, al menos hasta la madurez.
Desde luego, el criterio de diferenciacin por edad no puede aplicarse a las funcio
nes que no muestren cambios claros y consistentes con el paso del tiempo; por ejem
plo, se ha descubierto que su uso es limitado en el rea de la medicin de la
personalidad. Ms an, debe notarse que, incluso cuando es aplicable, la diferencia
cin por edad es una condicin necesaria pero no suficiente para la validez. Luego
pues, si los resultados de la prueba no mejoran con la edad, ese descubrimiento quiz
indique que el instrumento no es una medida vlida de las habilidades que debera
muestrear. Por otro lado, demostrar que una prueba mide algo que se incrementa con
la edad no define con precisin el rea cubierta por la prueba. Una medida de estatura
,:, peso tambin debera mostrar incrementos regulares con la edad, aunque sobra decir
que no se le considerara en un test de inteligencia.
Subrayemos un ltimo punto relativo a la interpretacin del criterio de edad. Un
cese psicolgico validado contra dicho criterio mide caractersticas conductuales que
e incrementan con la edad en las condiciones existentes en el enromo en el que se
estandariz el instrumento. Como diferentes culturas pueden estimular y fomentar el
desarrollo de caractersticas conductuales dismiles, no puede suponerse que el crite
rio de diferenciacinpor edad sea universal. Como cualquier otro criterio, est circuns
crico por el contexto cultural particular del que fue derivado.
Los anlisis del desarrollo tambin son bsicos para la validacin de constructo de
las escalas ordinales piagerianas que tratamos en los captulos 3 y 9. Una suposicin
rundarnental de dichas escalas es el /)aLTn secuenciado de desarrollo, en el que la con
ecucin de las primeras etapas en el desarrollo del concepto es un requisito para la
adquisicin de las habilidades conceptuales posteriores. Existe as una jerarqua in
trnseca en el contenido de estas escalas, por lo que la validacin de constructo de las
escalas ordinales debe incluir datos empricos de la estabilidad de la secuencia de era
ras sucesivas, lo que supone supervisar la ejecucin de los nios en diferentes niveles
en el desarrollode cualquier concepto examinado, como la conservacin o la perma
nencia del objeto. Los nios que muestran dominio del concepto en cualquier nivel
tambin exhiben dominio en los niveles inferiores?
Correlaciones con otros tests. En ocasiones se citan las correlaciones entre una nue
va prueba y orros instrumentos similares como evidencia de que la nueva prueba mide
aproximadamente la misma rea general de conducta que otras que llevan el mismo
nombre, como "tests de inteligencia" o "pruebas de aptitud mecnica". A diferencia de
las correlaciones encontradas en la validez de criterioprediccin, estas correlaciones
deben ser moderadamente altas, pero no demasiado. Si la nueva prueba se correlaciona

128

Principios tcnicos y metodolgicos

muy bien con cualquier otra ya disponible, sin agregar ventajas como la brevedad o fa
cilidad de aplicacin, entonces el nuevo instrumento es una duplicacin innecesaria.
Otro uso de las correlaciones con otras pruebas consiste en demostrar que la nueva
est relativamente libre de la influencia de ciertos factores irrelevantes; por ejemplo,
un test de aptitud especial o uno de personalidad no deberan tener una correlacin
elevada con tests de inteligencia general o de aptitud acadmica. De modo similar, la
comprensin de lectura no debera afectar apreciablemente el desempeo en dichos
instrumentos. De acuerdo con ello, las correlaciones con los tests de inteligencia ge
neral, lectura o comprensin verbal en ocasiones se aportan como evidencia indirecta
o negativa de validez. En esos casos, las correlaciones elevadas pondran a la prueba
bajo sospecha, aunque, por otro lado, las correlaciones bajas no son garanta de vali
dez. Advierta que este uso de las correlaciones con otros instrumentos es similar al de
las tcnicas complementarias que vimos al estudiar los procedimientos de descripcin
de contenido.
Anlisis factorial. Desarrollado como un medio para identificar rasgos psicolgi
cos, el anlisis factorial es particularmenterelevante para los procedimientosde valida
cin de constructo. En esencia, se trata de una refinada tcnica estadstica para analizar
las interrelaciones de los datos conductuales; por ejemplo, si se aplican 20 pruebas a
300 personas, el primer paso consiste en calcular las correlaciones de cada instrumento
con el resto. Una inspeccin de la tabla de las 190 correlaciones resultantes puede re
velar ciertas agrupaciones entre las pruebas, lo que indica la localizacin de rasgos co
munes. As, si pruebas como las de vocabulario, analogas, opuestos y completamento
de oraciones muestran altas correlaciones entre s y correlaciones bajas con las otras
pruebas, podemos inferir tentativamente la presencia de un factor de comprensin
verbal. Como el anlisis mediante la inspeccin de una tabla de correlacin es difcil
e incierto, se han elaborado tcnicas estadsticas ms precisas para localizar los factores
comunes que se requieren para explicar las correlaciones obtenidas, y que estudiare
mos en el captulo 11 en relacin con su uso en la investigacin sobre la naturalezade
la inteligencia, de la que se originaron.
En el proceso del anlisis factorial, se reduce el nmero de variables o categoras en
cuyos trminos puede describirseel desempeo de cada individuo a un nmero relativa
mente pequeo de factores o rasgos comunes. En el ejemplo citado, cinco o seis factores
pueden ser suficientes para explicar las correlaciones entre las 20 pruebas. En lugar de
que cada individuo sea descrito en trminos de los 20 resultados originales, la descrip
cin se hace de acuerdo con los resultados que haya obtenido en cinco o seis factores.
Un propsito importante del anlisis factorial es simplificar la descripcin de la conduc
ta, reduciendo el nmero de categoras a unos cuantos factores o rasgoscomunes.
Una vez que los factores han sido identificados, sirven para describir la composicin
factorial de las pruebas. Cada instrumento puede entonces caracterizarse en funcin
de los factores principales que determinan sus calificaciones, junto con el peso o car
ga de cada uno y la correlacin de la prueba con cada factor, que suele expresarse como
la validez facrmial de la prueba. De esta manera, si el factor de comprensin verbal co
rrelaciona .66 con una prueba de vocabulario, la validez factorial de esca prueba de vo
cabulario como medida del rasgo de comprensin verbal es .66. Observe que la valide:
factorial es en esencia la correlacin de la prueba con lo que exista en comn en un

Validez: Conceptos bsicos

129

grupo de pruebas u otros ndices de conducta. Por supuesto, el conjunto de variables


analizado puede incluir datos de la prueba y ajenos a ella. Es posible aprovechar las va,
loraciones y otras medidas de criterio, junto con otras pruebas, para explorar la compo
sicin factorial de alguna prueba y para definir los rasgos comunes que mide.
Consistencia interna. En la descripcin de algunos tests, especialmente en el campo
de la personalidad, se afirma que han sido validados por el mtodo de consistencia in
terna. La caracterstica esencial de este mtodo es que el criterio no es otro que la ca
lificacin total del propio instrumento. En ocasiones se utiliza una adaptacin del
mtodo de grupos contrastados, seleccionando grupos extremos sobre la base de la cali
ficacin total en la prueba. En cada reactivo se compara la ejecucin del grupo de crite
rio superior con el desempeo del grupo inferior. Los reactivos que no logran mostrar
una proporcin significativamente mayor de "aciertos" (o respuestas esperadas) en el
grupo superior que en el inferior se consideran invlidos y se eliminan o revisan. Tam
bin se emplean con este propsito los procedimientos de correlacin; por ejemplo,
puede calcularse la correlacin biserial entre el resultado total de la prueba y el "xito o
fracaso" en cada reactivo y elegir nicamente los reactivos que producen correlaciones
significativas entre reactivo y prueba (temtest). Se dice que una prueba cuyos reacti
vos fueron seleccionados por este mtodo tiene consistencia interna, ya que al igual
que la prueba, cada reactivo distingue a los que responden en la misma direccin.
Otra aplicacin del criterio de consistencia interna incluye la correlacin de las
calificaciones de los subtests con el resultado total; por ejemplo, muchos tests de in
teligencia constan de subpruebas que se aplican por separado (como las de vocabulario,
aritmtica, completacin de figuras, etc.) y cuyos resultados se combinan para encontrar
el resultado total. En la elaboracin de esas pruebas, a menudo se correlacionan las cali
ficaciones de cada subtesr con la calificacin total y se elimina cualquier subtest cuya co
rrelacin con ste sea demasiado baja. Las correlaciones de los subtests restantes se
muestran luego como evidencia de la consistencia interna del instrumento.
Es evidente que las correlaciones de consistencia interna, se basen en reactivos o
en subtcsts, son esencialmente medidas de homogeneidad. El grado de homogeneidad
de la prueba tiene cierta relevancia para su validez de constructo porque contribuye a
caracterizar al rea de conducta o rasgo que muestrea; no obstante, la contribucin de
los datos de consistencia interna a la validacin de la prueba es limitada. Si se carece
de datos externos, es poco lo que puede saberse acerca de lo que mide.
Validez convergente y discriminante.
En un minucioso anlisis de la valida
cin de constructo, D. T. Campbell ( 1960) seal que para demostrar la validez de
constructo, no basta con demostrar que una prueba tiene una correlacin elevada con
otras variables con las que en teora debe hacerlo, sino tambin que no tiene una corre
lacin significativa con variables de las que se supone debe diferir. En un artculo ante
rior, D. T. Campbell y Flske (1959) llamaron al primer proceso validacin convergente
y al ltimo validacin discriminante. La correlacin de una prueba de razonamiento
cuantitativo con las calificaciones obtenidas luego en un curso de matemticas sera un
ejemplo de validacin convergente. Para la misma prueba, la validez discriminante se
hara evidente con una correlacin baja e insignificante con los resultados de una

130

Principios tcnicos y metodolgicos

prueba de comprensin de lectura, ya que La habilidad de lectura es una variable irre


levante en una prueba diseada para medir razonamiento cuantitativo.
Recuerde que estudiamos el requisito de una baja correlacin con variables irrele
vantes al tratar los procesos complementarios y preventivos seguidos en la validacin
de contenido. La validacin discriminante es especialmente pertinente en el caso de
las pruebas de personalidad en las que las variables irrelevantes pueden afectar de mu
chas maneras los resultados.
Campbell y Fiske (1959) propusieron un diseo experimental sistemtico para La
aproximacin dual de validacin convergente y discriminante que llamaron La matriz de
multimtodomultirrasgo.En esencia, el procedimiento requiere de la evaluacin de dos o
ms rasgos mediante dos o ms mtodos. Un ejemplo hipottico proporcionado por
Campbell y Fiske permitir ilustrar el procedimiento. La tabla 5.1 muestra todas lasco
rrelaciones posibles entre los resultados obtenidos cuando tres rasgos se miden con tres
mtodos. Los rasgos pueden representar tres caractersticas de personalidad como (A)
dominancia, (B) sociabilidad y (C) motivacin de logro. Los tres mtodos pueden ser
( 1) un inventario autodescriptivo, (2) una tcnica proyectiva y (3) las opiniones de los
compaeros o pares. As, A I indica las puntuaciones de dominancia obtenidas en el in
ventario de autorreporte, A2 los resultados de dominancia en la tcnica proyectiva y C3
representa las calificaciones dadas por los compaeros sobre la motivacin de logro.
Las correlaciones hipotticas mostradas en la tabla 5.1 incluyen coeficientes de con
fiabilidad ( entre parntesis sobre la diagonal principal) y coeficientes de validez (en ne
gritas sobre las tres diagonales cortas). En estos coeficientes de validez, se correlacionan
las calificaciones obtenidas para el mismo rasgo mediante diferentes mtodos; cada me
dida se compara as con otras medidas independientes del mismo rasgo, como en el
procedimiento de validacin ya conocido. La tabla comprende tambin Las correlacio
nes entre rasgos diferentes medidos por el mismo mtodo (en los tringulos continuos) y
las correlaciones entre rasgos diferentes medidos por mtodos distintos (en los tringulos
punteados). Para que la validez de constructo sea satisfactoria, los coeficientes de vali
dez deben ser obviamente mayores a las correlaciones entre rasgos diferentes medidos
por mtodos distintos, y tambin deberan ser mayores que las correlaciones encentra
das entre rasgos distintos medidos por el mismo mtodo; por ejemplo, la correlacin
entre Los resultados de dominancia obtenidos con un inventario autodescriptivo y los
obtenidos con una tcnica proyectiva deberan ser mayores que la correlacin entre las
calificaciones de dominancia y sociabilidad obtenidas en el inventario. Si esta ltima
correlacin, que representa un mtodo comn de varianza, fuera elevada, indicara, por
ejemplo, que algn factor comn irrelevante, como la habilidad para entender las pre
guntas o el deseo de presentarse bajo una luz favorable en codos los rasgos, influy inde
bidamente en los resultados que el sujeto obtuvo en el inventario.
Intervenciones
experimentales.
Los experimentos sobre el efecto de variables
seleccionadas en los resultados de la prueba constituyen otra fuente de datos para la
validacin de constructo; por ejemplo, una estrategia para comprobar la validez de
una prueba que se pretende emplear en un programa de educacin personalizada con
sistira en comparar las calificaciones obtenidas en el pretest y el postest. La lgica de
este mtodo supone que en el pretest (previo a la educacin pertinente) deben obte
nerse bajas puntuaciones y que en el postest los resultados deben ser elevados. Esta re

vsaaez: Cor.repros osicos

131

c-@dNMH+
Matriz hipottica multimtodo-multirrasgo
Mtodo 1

Mtodo 1

c.

Rasgos

A1

A1

(.89)

B1

.51

c.

.__.3
8

.3'7~< 76)

.s1

~~:izm:

A2

Bz
C2

:.it',. .

1
1

iu

',

Mtodo3

B,

,..,
1
......

C3

Ll t

C.93>

.51 ........... '(10:


,
t
'.J

......

.1i', .46
' ......

: .23 ',,, .58

83

A2

1
1

...

.56 ,,.22

A3

Mtodo 3

(.89)

r;

Mtodo 2

Mtodo 2

.......

......

.67,,.42

.lli
11
1

',.p:
'.J

.11',, . 45

,.,
1
......

.33

' .......
......

:.43 ',,, .66 , ..~4:


t

L:a

...

11
1

.....,

.ii~: .. ss

(.94)
~92)
~(.85)

Nora. Las letras A, B, C se refieren a los rasgos; los subndices 1, 2, 3 a los mtodos. Los coeficientes de validez
(un solo rasgo, mtodos diferentes) son los eresconjuntos de diagonales de nmeros en negritas; los coeficientes

de confiabilidad (mismo rasgo, mismo mtodo) son los nmerosentre parntesis sobre la diagonal principal. Los
tringuloscontinuos encierran las correlaciones entre rasgos mltiplesy un solo mtodo; los tringulos puntea
dos encierran las correlaciones entrerasgos y mtodos mltiples.
(Tomado de Campbell y Fske, 1959, pg. 82. Copyright 1959 por la American PsychologicalAssociation.Re
producidocon autorizacin).

lacin tambin puede revisarse para los reactivos individuales de la prueba. De mane
ra ideal, la mayora de los examinados debera fallar un reactivo en el pretest y apro
bario en el postest: los reactivos que se fallan en ambos son demasiado difCciles, y los
que se aciertan en los dos son demasiado sencillos para los propsitos del examen. Si
una proporcinconsiderablede examinadosacierta un reactivo en el pretest y lo falla
en el postest, obviamentehay algo mal en el reactivo, la educacin o en ambos.
Por ejemplo, podemos aplicar a un grupo de sujetos una prueba diseada para medir
la predisposicin a la ansiedad y someterlosluego a una situacin destinadaa ponerlos
ansiosos, como tener que presentar un examen en condiciones distractoras y estre
santes. Despus correlacionamos los resultados obtenidos en la prueba con ndices
fisiolgicos y con otras expresiones de ansiedad durante y despus del examen. O
bien, podemos evaluar una hiptesisdiferente sobre la prueba de ansiedad aplicndola
antes y despus de una experiencia que genere ansiedad para luego ver si las califica
ciones se elevan significativamenteen la segunda aplicacin de la prueba. En cal expe

132

Prindpios tcnicos y metodolgicos

rimento, un resultado positivo indicara que las calificaciones de la prueba reflejan el


nivel actual de ansiedad. De manera similar, pueden disearse experimentos para com
probar otras hiptesis concernientes al rasgo medido por una determinada prueba.
Modelamiento de ecuaciones estructurales. Adems de permitir la identificacin de
los conscructos en los resultados de las pruebas y en el criterio de ejecucin, un irnpor
tante avance en la validacin de las pruebas fue la consideracin de las relaciones entre
consrructos y la va por la que stos afectan la ejecucin (J. P. Campbell, l990a; Mes
sick, 1989; Schrnidt, Hunter y Outerbridge, 1986); por ejemplo, el inters de una per
sona en un rea en particular puede afectar su desempeo laboral al aumentar su
aprendizaje en el conocimiento real relevante, al facilitarle la adquisicin de las habili
dades de procedimiento requeridas o al desarrollar la motivacin necesaria para ejercer
y sostener un esfuerzo mximo al llevar a cabo las actividades requeridas. Investigar ce
mo es que un constructo o un rasgo personal identificado conduce a un buen o mal de
sempeo contribuye sustancialmente a la comprensin de por qu una prueba tiene
una elevada o baja validez en una situacin dada. Facilita dicho anlisis un proced
miento estadstico conocido como modelamiento de ecuaciones estructurales, cuyo
uso ha aumentado de manera impresionante en los ochenta y los noventa. Vase, por
ejemplo, el establecimiento de la revista Struetural Equation Modeling (1994). Este
procedimiento est muy relacionado con algunas versiones del anlisis de trayecto
rias, y ambos suelen conocerse informalmente como "modelarniento causal".3
Cmo se origin y con qu propsito se dise el modelamienro de ecuaciones es
rruccurales? En la estadstica elemental, pronto se aprende que correlacin no indica
causalidad. Un ejemplo familiar es la correlacin espuria con la edad; por ejemplo, en
tre los escolares de seis a 14 aos es probable que la correlacin entre la estatura y el
aprovechamiento en aritmtica sea elevada, pero eso no permite concluir que una va
riable afecta a la otra. La correlacin resulta principalmente de la edad, que a su vez
est asociada con el monto de escolaridad. En un esfuerzo por investigar las relaciones
causales, en las dcadas de los sesenta y los setenta los investigadores comenzaron a
usar diseos experimentales de series de tiempos (D. T. Campbell y Stanley, 1966;
Cook y Carnpbell, 1976, pp. 284293). As, para analizar la influencia recproca cau
sal entre las actitudes de una estudiante hacia las matemticas y su desempeo en la
materia, se recaban medidas de las actitudes y el desempeo en matemticas en dos
momentos. Luego, se obtiene la correlacin de las series de tiempos entre la actitud
hacia las matemticas en el momento 1 y el desempeo en la materia en el momento
2, y entre el desempeo en matemticas en el momento 1 y la actitud hacia la materia
en el momento 2. El tamao de ambas correlaciones indicara la fuerza relativa de la
influencia en cada direccin. Durante algunos aos, este mtodo pareca una forma
prometedora de evaluar el efecto recproco de dos variables.
Sin embargo, al poco tiempo los anlisis lgicos y estadsticos revelaron serias debili
dades en el uso de las correlaciones en las series de tiempos. Aunque el diseo bsico era
1 Para evitar bs 1mplicac1oncs filoelicas acerca de la causa ltima o completa de cualquier suceso, los pslclo,,os
han preferido cxptt:sK>nCS mjs neutrales como alinnar que A determina, Influye o afecta a B. No obstante, en
oc:as,ones 5C emplea el tEnnmo "causal" pera rcfenrsc a tocbs esas rclacK>nCS, con la supos1c1n de que 5C com
prenden sus resmccsones (vase, por ejemplo, L R. James, Mulaik y Bren, 1982, captulo l; P. A. Whitc, 1990).

Validez: Conceptos bsicos

133

excelente, es probable que el uso de correlaciones simples de rango cero distorsionara

los resultados y llevara a conclusiones incorrectasacercade relacionescausales (Rogosa,

1980). Entre las fuentes de error del procedimientoest el hecho de no tomar en consi
deracin, primero, las correlaciones entre las variablesiniciales y entre las variables sub
secuentes; segundo, la confiabilidad de las variables y su estabilidad en el tiempo, y
tercero, la posible contribucin de variables no medidas, coino la edad y la escolaridad
en el ejemplo citado. El modelamientode ecuaciones estructurales proporciona los me
dios para evitar estas dificultades, ya que utiliza ecuacionesde regresin para predecir las
variables dependientes a partir de las independientesen los diseos de series de tiempos
u otros modelos causales. El procedimiento utiliza correlaciones parciales para encon
trar los coeficientes de regresin, lo que le permite incorporar todas las correlaciones
entre las variables; asimismo, considera los errores de medicin y de muestreo e incluye
las previsiones para reconoceral menos la posibilidad de otras variablescausales no me
didas (Bentler, 1988; L. R. James et. al., 1982; Loehlin, 1992; Rogosa, 1979).
En el modelarniento de ecuaciones estructurales el primer paso consiste en disear
un modelo de las relacionescausales hipotticas que quieren probarse. Es importante
que el modelo se base en una profunda familiaridad con los conocimientosacerca de las
variables y la situacin investigadas, por lo que las relaciones hipoterzadasdeben resul
rar tericamenteracionales. La comprobacindel modelo se realiza al resolver un con
junto de ecuaciones"simultneas de regresin lineal. En el modelamiento causal suele
haber ms ecuaciones que incgnitas, lo que permite encontrar soluciones para varios
modelos alternativos. Cada modelo se compara con la matriz original de correlacin
emprica para supervisar la conveniencia del ajuste, y es posible encontrar un ajuste casi
igualmente bueno en varios modelos causales (MacCallum, Wegener,Uchino y Fabr
~. 1993 ). Esos modelos estadsticamenteequivalentes representan diferentes trayecto
nas causales y, por ende, brindan explicaciones alternativas de los efectos observadosde
manera emprica. El investigador,sobre la base del conocimiento que tenga de la situa
cin, evaluar la credibilidad y el significado sustantivo de los modelos alternativos.
Otra caractersticadel modelamientode ecuacionesestructuraleses que suele calcu
lar relacionescausales entre consrructos ms que entre variablesaisladas; por ejemplo,
para evaluar la actitud de un estudiante hacia las matemticas pueden usarse varios
indicadores, como las medidas de inters, de orientacin a la meta, el autoconcepto
sobre la aptitud para las matemticas y otras variables afectivas pertinentes. La varan
:a comn entre esos indicadores definira entoncesun constructode la actitud del indi
viduo hacia las matemticas, que luego se relacionara con el desempeo subsecuente
en la materia. El uso de constructos proporciona estimaciones ms estables y confiables
que cancelan los erroresy las varianzas especficas de los indicadores separados.
En la actualidad, son varias las aproximaciones metodolgicas al modelamiento de
ecuaciones estructurales, as como las modificaciones y los refinamientos del procedi
miento considerado ( vase por ejemplo, Anderson y Gerbing, 1988; Bentler, 1990; Bo
llen y Long, 1993; Breckler, 1990; Cole, Maxwell, Arvey y Salas, 1993; James, 1980;
~ Para una introduccindetallada al procedimiento,vase Bollen (1989) y Loehln (1992). Lo. clculos reales
pueden ser realizados con programas de cmputo disponibles como LISREL (Haydulc., 1988; [oreskog y SOrbom,
1986, 1989) y EQS (Bentler, 1985).

134

Principios tcnicos y metodolgicos

Mulaik et al., 1989). No obstante que an se encuentra en proceso de desarrollo, el rno


dclamento de ecuaciones estructurales es un procedimiento prometedor para la combi
nacin de las aproximaciones terica, experimental y estadstica. Ya ha sido aplicado a
problemas en reas como la psicologa del desarrollo, de la personalidad, social, indus
trial y educativa (por ejemplo, Graves y Powell, 1988; L. A. James y L. R. James, 1989;
MacCallum y Browne, 1993; McCardle, 1989; Parkcrson, Lomax, Schiller y Walberg,
1984; Shavelson y Bolus, 1982). Tambin estn en camino esfuerzos para la unificacin
y simplificacin del procedimiento (por ejemplo, [oreskog y Sorborn, 1993 ).
Contribuciones de la psicologa cognoscitiva. La dcada de los setenta presenci un
acercamiento entre la psicologa experimental y la psicometra que as empieza a hacer
aportaciones importantes a la comprensin de los constructos evaluados por los tests de
inteligencia y otras aptitudes muy definidas (Ronning, Glover, Conoley y Witt, 1987;
R. E. Snow y Lohman, 1989). Ya en los cincuenta los psiclogos cognoscitivos empeza
ron a aplicar los conceptos del procesamiento de informacin al estudio de la solucin
de problemas en el ser humano. Algunos investigadores elaboraron programas de cm
puto que realizaran esos procesos y simularan el pensamiento humano, programas que
repiten el desempeo de personas con diferentes niveles de habilidad, lo que hizo posi
ble predecir el nmero y la clase de errores cometidos y el tiempo requerido para dife
rentes respuestas. Al disear un programa, el investigador suele empezar con un anlisis
de la tarea, el cual puede consistir en la introspeccin sobre el mtodo empleado para
resolver el problema, hacer que los sujetos piensen en voz alca o utilizar procedimientos
de observacin ms sofisticados. Al comparar la ejecucin de la computadora con la de
nios y adultos o bien con la de expertos y novatos mientras resuelven el mismo proble
ma, los investigadores someten a prueba su hiptesis de lo que hace la gente cuando
realiza las careas. Entre las careas investigadas con esos mtodos se incluyen rompecabe
zas convencionales, problemas de lgica, juegos de ajedrez, problemas de lgebra, de
fsica y de diagnstico en la prctica mdica (Chi, Glaser y Farr, 1988; J. H. Larkin,
McDermott, Simn y Simn, 1980a, 1980b; Newell y Simon, 1972; Smon, 1976).
Las variables identificadas por estas investigaciones abarcan procesos (habilidades
de procedimiento) y conocimiento declarativo (hechos e informacin). Los modelos
cognoscitivos especifican los procesos intelectuales empleados para realizar la tarea, la
forma de organizacin de los procesos, el almacenamiento del conocimiento relevante
y la forma en que se representa en la memoria y se recupera cuando se necesita. Tam
bin se est concediendo gran atencin a lo que ha sido llamado proceso ejecutivo o
metacognicin, que se refiere al control que el individuo ejerce sobre su eleccin de
procesos, representaciones y estrategias para realizar la tarea. En los setenta, algunos
psiclogos cognoscitivos empezaron a aplicar ese anlisis de tareas y tcnicas de simula
cin por computadora a la exploracin de lo que miden las pruebas de inteligencia. Los
investigadores se aproximaron al problema desde distintos ngulos (vase Resnick,
1976; Sternberg, 1981, 1984, 1985b), y la investigacin ha ido contribuyendo al avan
ce en la elaboracin y el uso de las pruebas.
Las implicaciones de la investigacin cognoscitiva para la validacin de constructo
resultan especialmente claras en el erabajo de Embretson (1983, 1986, 1995a). Al
observar que la validacin tradicional de constructo ha tenido un alcance demasiado

Validez: Conceptos bsicos

135

restringido, Embretson propuso dos aspectos principales en la validacin de las prue


bas: ( 1) la representacindel constructo, y (2) el espacio nornottico. Por lo comn, la
validacin del constructo se ha concentrado con el espacio nomottico, que se refiere a
las relaciones del desempeo en la prueba dentro de una "red nomottica" de variables.
Por lo general, esas relaciones se investigan mediante las correlaciones de los resultados
Je la prueba con otras medidas, que pueden incluir el criterio de ejecucin y otros
Jacos de la vida real.
Por otro lado, la representacin del constructo tiene por objeto identificar los
componentes especficosdel procesamientode informacin y los almacenes de cono
cimiento requeridos para realizarlas tareas establecidas por los reactivos de la prueba.
Para conducir dicho anlisis puede realizarse experimentalmente una descomposicin
de la carea.5 Los ejemplos de posibles procedimientos comprenden la manipulacin de
la complejidadde la tarea, la presentacinde tareas parcialeso la presentacinde sea
les que alteren los requerimientosde la tarea. Se han formulado modelos matemticos
para medir la contribucin de diferentes componentesde respuesta a la ejecucin en el
reactivo. Otro procedimientode gran uso para el anlisis de las tareas cognoscitivases
el anlisis del prowcolc (Ericsson, 1987; Ericsson y Simon, 1993; van Someren, Barnard
, Sandberg, 1994), que pide a los individuos que "piensen en voz alta" mientras reali
:an una tarea o resuelven un problema. Las rareas pueden consistir en hacer una multi
plicacin mental, recordar detalles de un acontecimiento pasado o localizar la causa
Jel mal funcionamiento de un equipo al responder a reactivos sucesivos en un test de
habilidad. Un coproducto de este procedimiento es el posible descubrimientode que el
mismo reactivo puede evocar procesos cognoscitivosdiferentes en examinadoscon ex
periencia y antecedentesdistintos.
Qu podemos concluir de la contribucin que la psicologa cognoscitiva ha hecho
hasta ahora a la validacin de constructo?Aunque an se encuentra en una etapa ex
ploratoria, las aproximacionesdel procesamientode informacinhan aportado concep
tos heursticos para guiar la investigacin posterior y han llevado la atencin a los
procesos de respuesta en contraste con la tendenciatradicional de la investigacinpsico
mtrica a concentrarse en los productosfinales del pensamiento. El anlisis de la ejecu
cin en la prueba en trminos de procesos cognoscitivos especficossin duda deber
mejorar nuestra comprensin de lo que miden las pruebas. Ms an, analizarel desem
peo individual a nivel de los procesos elementalesa la largapermitir la identificacin
precisa de las fuentes de debilidad y fortalezade cada individuo y, por consecuencia,au
mentar el uso diagnstico de las pruebas (Embretson, 1987, 1994; stes, 1974; Pellegri
no y Glaser, 1979; Stemberg y Weil, 1980), lo que a su vez facilitar la confeccinde
programasde entrenamientopara las necesidades individuales. En resumen, la relacin
entre las aproximaciones psicomtrica y cognoscitiva puede caracterizarse, primero,
como comp/emencariadesde el punto de vista de la investigaciny prctica aplicada; en
este caso, cada una es la aproximacin adecuada para diferentes propsitos de evalua
cin. Segundo, desde el punto de vista de la teora y la investigacinbsica, la relacin
puede caracterizarsecomo rec(tmxa; cada una ayuda a aclarar y enriquecer a la otra, y,
en combinacin, ambas aumentan nuestra comprensin de la conducta inteligente.
' Para ms detalles, vase Butterfield, Nielsen, Tangen y Rchardson (1985), Embretson (1985b) y Stemberg
1977, 1980).

136

Principios tcnicosy metodolgicos

RECAPITULACIN

E INTEGRACIN

Comparacin de los procedimientos de validacin. Hemos considerado distintas for


mas de preguntar qu can vlida es una prueba. Para identificar con claridad los rasgos
distintivos de los diferentes procedimientos de validacin, hagamos el ejercicio de apli
carlos, uno a la vez, a una prueba que conste de 50 problemas aritmticos. En la tabla 5.2
se ilustran cuatro formas de aplicar esta prueba junto con el procedimiento de valida
cin adecuado para cada caso. Este ejemplo pone de relieve el hecho de que la eleccin
del procedimiento de validacin depende del uso que pretenda hacerse de los resulta
dos. As, si se quiere usar una prueba de aprovechamiento para predecir el desempeo
subsecuente en un nivel educativo superior, como es el caso de los procedimientos de
admisin a la universidad, debe ser evaluada comparando su resultado con el criterio
del rendimiento acadmico posterior ms que en trminos de su validez de contenido.
lnclusividad de la validacin de constructo. Los ejemplos de la tabla 5.2 se
concentran en las diferencias entre los distintos procedimientos de validacin; sin
embargo, una consideracin ms detenida de esos procedimientos muestra que La vali
dez de contenido, de criterio y de constructo no corresponden a categoras distintas o
lgicamente coordinadas. Por el contrario, la validez de constructo es un concepto in
clusivo que abarca a los otros. Todas las tcnicas especficas para el anlisis del conte
nido y para medir relaciones con el criterio, que estudiamos en las primeras secciones
del captulo, podran encontrarse tambin en la identificacin del constructo; por
ejemplo, las correlaciones de una prueba de aptitud mecnica con la ejecucin en cur
sos de oficios y en una amplia variedad de empleos contribuye a nuestra comprensin
del constructo medido por La prueba. La identificacin del constructo se ver adems
fortalecida al comparar Los resultados de grupos contrastados de trabajadores que han
alcanzado el xito y con grupos que no lo logrado.

Validacin de una prueba de aritmtica para diferentes


propsitos
Propsito de la prueba
Prueba de rendimiento en ant
mnca de la escuela elemental
Prueba de aptitud para predecir
el rendimiento en matemn
cas durante la secundaria
Tcnica para diagnosticar pro
blemas de aprendizaje
Medula de razonamiento cuan

ncauvo

Pregunta
ilustrativa

Evidencia
de valide:

Cunto ha aprendido Ricardo?

Validacin de conrerudo

Qu tanto puede esperarse que


aprenda Juliana?

Criterio de predsccin:
temporal

El rendimiento de Guillermo
indica problemas especficos?
;Cmo se relaciona el resultado
obtenido por Elena con otros
indicadores de su habilidad de
razonamiento?

Criterio de prediccin: con


currente
Identificacin de constructo

Validez: Conceptos bsicas

13 7

Es comn que en los manuales se manifieste la validez comparada con otros crite
rios prcticos para ayudar al usuario a comprender qu es lo que mide la prueba. Aun
que tal vez no est directamente interesado en la prediccin de cualquiera de los
criterios especficos empleados, al examinarlos puede hacerse una idea del rea de
conducta muestreada por la prueba. Si seguimosun poco ms esta lnea de pensamien
to, vemos que codos los usos de una prueba y las interpretaciones de sus resultados im
plican la validez de constructo, un hecho que cada vez es ms reconocido (J. P.
Campbell, 1990a; Guion, 1991; Messick, 1980b, 1988, 1989; Tenopyr, 1986). Como
es muy raro que las pruebas se usen en condiciones idnticas a aquellas en las que se
obtuvo la validez, resulta inevitable la inclusin de cierto grado de generalizacin de
los resultados. El significado interpretativo de los resultados de la prueba siempre se
basa en constructos, que pueden variar considerablemente en su amplitud o generali
:acin con respecto a las reas de conducta, las poblaciones y los contextos.
Messick (1980b, 1989) arga convincentemente que el trmino validez, en tanto
que designa la significacin interpretativa de una prueba, debera reservarse para la
validez de constructo. Sostena que otros procedimientos con los que se haba asocia
do tradicionalmente el trmino "validez"tendran que designarse con ttulos ms des
criptivos. As, la validez de contenido podra llamarse "relevancia del contenido" y
"cobertura de contenido" podra designar a las especificaciones y representatividad de
dominio, respectivamente.La validez relacionada con el criterio podra denominarse
"utilidad predictiva" y "utilidad de diagnstico" para corresponder a la validez predc
civa y concurrente. Estas denominaciones ms descriptivas sin duda contribuiran a
una mejor comprensin de lo que realmente hacen los distintos procedimientos;de
cualquier forma, en los manuales debe presentarse de manera clara la distincin entre
los diferentes procedimientosde validacin, ya que ello permite identificar las pruebas
que se requieren para propsitos particulares.
Desde OtrO ngulo, incluso cuando la aplicacin prctica inmediata se concentre en
la descripcin de contenido (como en la evaluacin educativa) o la prediccin del cri
terio (como en la seleccin de personal), el uso de constructosde amplitud adecuada es
ms efectivo que las medidas del desempeo en pruebas especficas. La investigacin
del criterio ha hecho cada vez ms claro que tanto las medidas del criterio como los re
sultados de La prueba pueden expresarse de modo ms efectivo como igualacin de
construcros. Adems, la investigacin de Las relacionescausales entre constructos(co
mo en el modelamientode ecuaciones estructurales) est siendo aceptada como una
contribucin importante a la comprensinde cmo y por qu funcionan las pruebas.6
Validacin en el proceso de elaboracin de los tests. Cada vez se acepta ms
que la formulacin de una prueba vlida requiere de mltiples procedimientosque se
emplean de manera secuenciada en diferentesetapas de la elaboracin del test (Anas
tasi, l986a; Guion, 1991; Jackson, 1970, 1973; N. G. Peterson et al., 1990). La validez
se incluye desde el inicio en la prueba en lugar de limitarse a las ltimas etapas de su
desarrollo, como tradicionalmente sucede en la validacin relacionada con un erice,
6

En L A. King y D. W. King ( 1990) se encuentra un ejemplo de aplicacinde estos proccdimicnt06ms sofuti


cados de validacinde pruebas.

138

Principios tcnicos y metodolgicos

ro. El proceso de validacin inicia con las definiciones detalladas del rasgo o del cons

tructo, que se derivan de la teora psicolgica antes de emprender la investigacin o la


observacin y el anlisis sistemticos del rea de conducta relevante. Luego se prepa
ran los reactivos que se ajusten a las definiciones del constructo, y sigue el anlisis ern
prico de los reactivos y la seleccin de los ms efectivos o vlidos del banco inicial de
reactivos. Ms tarde pueden llevarse a cabo otros anlisis internos apropiados, inclu
dos el anlisis estadstico de grupos de reactivos o subtests. La etapa final comprende
la validacin de varias calificaciones y combinaciones interpretativas de las mismas
mediante anlisis estadsticos comparados con criterios externos reales.
Casi toda la informacin obtenida en el proceso de elaboracin o uso de las prue
bas es relevante para su validez. Ciertamente, los datos sobre la consistencia interna y
la confiabilidad del retest ayudan a definir la homogeneidad del constructo y su estabi
lidad temporal. Las normas pueden proporcionar especificaciones adicionales al cons
tructo, en especial si incluyen datos normativos separados para subgrupos clasificados
por edad, sexo y otras variables demogrficas que influyan en las experiencias del indi
viduo y, por ende, en su desempeo en la prueba. Ms an, incluso despus de que una
prueba sale a la venta, el significado interpretativo de sus resultados puede continuar
siendo aclarado y enriquecido por la acumulacin gradual de observaciones clnicas y
mediante proyectos especiales de investigacin.7
Consecuencias individuales y sociales de la evaluacin. Algunos psicmetras reco
miendan la inclusin de un rasgo adicional en el concepto de validez de la prueba, asa
ber, las consecuencias que su aplicacin tiene sobre los individuos y la sociedad. Messick
(1980b, 1988, 1989, 1995) es un notable exponente de esta ampliacin del concepto de
validez, que pone de relieve las consecuencias no intencionales de ciertos usos de las
pruebas que pueden ser nocivos para los individuos o para los miembros de ciertos gru
pos tnicos u otras poblaciones con diversos antecedentes. Un excelente anlisis de los
problemas de equilibrar diferentes metas y valores en la evaluacin de solicitantes de
empleo se ilustra en el informe de un comit de expertos convocado por el Consejo Na
cional de Investigacin (Nacional Research Council), que estudi la situacin con inusual
minuciosidad (Hartigan y Wigdor, 1989, vanse especialmente los captulos 13 y 14).
Las implicaciones ticas y sociales del uso de las pruebas indudablemente exigen
una preocupacin general. En el captulo 18 revisaremos estos problemas, mientras
que en el captulo 6 analizaremos los aspectos ms tcnicos relacionados con la cues
tin del "sesgo de las pruebas"; sin embargo, como han hecho notar otros psicrnetras
(por ejemplo, Cole y Moss, 1989), la incorporacin de esas cuestiones al concepto de
validez no parece ser la forma ms efectiva de enfrentarlas. Son problemas a los que
no se puede dar respuesta nicamente con datos empricos y anlisis estadsticos, ade
ms de que los valores deseables no deberan quedar ocultos en manipulaciones esta
dsticas. Necesitan ser explcitamente planteados y analizados como una meta
independiente para ser considerados adems de la validez estrictamente emprica y es
tadsticamente demostrada del uso particular de la prueba. Es posible arribar a decsio
Vase Elliott (1990b, captulo 9), para una aplicacin exitosa de este comprensivo modelo de validacin de la
prueba.
7

Validez: Conceptos bsicos

139

nes juiciosas respecto al equilibrio de metas conflictivas mediante el uso de mtodos


apropiados para el manejo de los sistemas de valores (Mullen y Roth, 1991; Zeich
meister y Johnson, 1992).8 Dichos mtodos requieren del juicio humano, del debate
sistemtico, de compromisos y de la solucin de conflictos, por lo que los exponentes
de los distintos sistemas deben estar adecuadamente representados. Combinar los pro
cedimientos empricos con apoyo estadstico para la determinacin de la validez con
una evaluacin de las consecuencias ticas y sociales de ciertos usos particulares de las
pruebas slo confunde y oscurece la solucin.
La conclusin que extraemos de la consideracin de este difcil e importante pro
blema es la reafirmacin de la funcin crucial del usuario, que ya sefialamos en el
captulo 1, y cuya responsabilidad crece cuando se requiere de juicios de valor, espe
cialmente en los casos individuales, ya que en su eleccin de la prueba apropiada y
en la interpretacin de sus resultados puede controlar las consecuencias de la eva
luacin. Su orientacin a los valores y su sensibilidad social contribuirn al uso ade
cuado de las pruebas, no slo desde el punto de vista cientfico, sino tambin desde
el tico.9

8 Vase tambin Arkes (1993), para una revisin ms amplia con referencias adicionales.
9

Entre parntesis, digamos que una nueva aproximacin a la psicologa como un todo postula "la psicologa
discursiva", en la que los problemas se investigan mediante el discurso de las personas en la vida diaria y los
mtodos experimentales tradicionales (vase, por ejemplo, Harr y Stearns, 1995; J. Smith, Hart y Van Lan
gcnhove, 1995).