Escolar Documentos
Profissional Documentos
Cultura Documentos
,
P-s.,~mef;.,~~s
Tests Psicológicos ,
~,
ANNE ANASTASI
Department of Psychology, Fordham University .
..
:.: --;\..~•..... -.' .
" ", ~
.
.'.'
,-
"-
'.¡~
'.
\
I
1r TRADUCCIÓN:
María Elena Drtíz Salinas
~ Licenciada en Psicología
I
~ Universídad Nacional Autónoma de México
! REVISIÓNTÉCNICA:
María Enedina Villegas Hernández
Licenciada en Psicología
\ ., Universidad Nacional Autónoma de México
\
.1
j
¡ Pearson ~ .
,.," . Educación
.\ . ..-:' @
\{
~!EXICO • ARGESTt'A' BR.-ISn.. COLOMel-" COSTA RlCA' CIlD.E
1 ES?".'I'" GU.m.WJ.A' ?ERÚ' ?UEJ<[O RlCO' VENEZUELA i:
NomJa5.¥ ~i~nificadiJ de [as puntual..ione:; de la!>test!> 4~
ri:ación? ¿Está li~erameme por debjo del promedio o se encuentra cerca del e'x:tremo
superior de la dLmlbuciónl r -
Paca averi~31' la posición exact:l del ind¡vidu~ en relación con la muestra de: es-'
tandari:ación, la puntuación cruda se convierte en una medida relativa. Estas punrua-
ciones rransformadas cumplen un doble propósito; primero, indican la posición del
Normas y significado de las individuo en relaci6n con la muestra normativa, lo que permite la evaluación de su de-
sempeño en comparación con otras personas. Segundo, proporcionan medidas equiva-
lentes que permiten la comparación directa del desempeño del individuo en pruebas
diferente.:;;por ejemplo, si una chica obtiene una punruación cruda de 40 en una prueba
d~ vocabulario y una de 12 en una prueba de razonamiento aritmético, esto, nada nos
puntuaciones de los tests dice acerca de su desempeño relativo en las dos pruebas: ¿es mejor en vocabulario o en
aritmética, o bien igualmente buena en ambas materias? Como las puntuaciones crudas
de diferentes pruebas suelen expresarse en unidades distintas resulta imposible su com.
paraci6n directa: El nivel de dificultad de cada prueba también afecta esta compara-
ción. Por otro lado, las puntuaciones derivadas pueden expresarse en las mismas
unidades y referirlasa muescrasnormativas iguales o muy similares en distintas pruebas,
lo que permite comparar la ejecución relativa en funciones muy diferentes.
Aunque hay varias formas de convertir las puntuaciones crudas para satisfacer los
dos objetivo.:; planteados, las puntuaciones derivadas se expresan esencialmente en
" dos formas principales: (1) el niyel de desarrollo alcanzado, o (2) la posición relativa
0
,1'.$. denero de un grupo específico. Estudiaremos ambas puntuaciones "J algunas de sus
, ~. n la segunda parte, compuesta por los capículos 3 a 7, enconreará una introduc# variantes en otraS secciones del capítulo, pero antes es necesario examinar algunos
, ." ci6n a los conceptos básicos y la metodología que se requieren para entender conceptos elementales de estadística que fundamentan el desarrollo y la utilización de
o{ _ bs pruebas psicológicas y para la adecuada interpretación de sus resultados. Los las normas:' La siguiente sección aclara el significado de ciertas medidas e5tJdísticas
- siguientes capítulos abordan temas como las normas, la confiabilidad. la validez, comunes, y proporciona ejemplos simplificados de los cálcul9S ~in pretender con ello
el anjlisis dt: reactivos y el diseño de los tests. Este capítulo trata sobre el desarroHo y . brindar una capacitación en los métodos-estadísticos. Para loSdetalles de cálculo y los
uso d~ la.:;normas y OtrOSprocedimientos que facilitan la interpretación de las puncua. procedimientos a seguir en la aplicación práctica de esas técnicas, acuda el lector a
cion.e$.En ausencia de datos interpretativos adicionales •.la sola puntuación cruda de cualquier texco actuaH:ado de estadLstica (por ejemplo, D. C. HoweH, 1997¡ Runyon
cU3.lqui~r prueba psicológica carece de significado. Decir que un individuo ha resuelto y Haber, i991¡ West, 1991). En la actualidad, eScomún que se reconozca la necesidad
correctamente 15 problemas de una prueba de razonamiento aritm~cico, identificado de que no sólo los usuarios de los tests cuenten con conocimientos básicos de la
34 pabcras de una prueba de vocabulario o armado un objeco mecánico en 57 segun- mecodotog(a de la estadística, sino cambién cualquiera que desee comprender los in-
dos, tranSmite poca o ninguna informaci6n sobre su posici6n en cu'alquíera de estas formes de Investigación publicados en cualquier área de la psicologfa (L. S. Aiken,
funcione$. Tampoco los porcencajd brindan una solución SJ,tisfactoria al problema de Wesc, Sechwr y Reno, 1990; Anascasi, 1991; lambert, 1991; S. T. Meier, 1993).
interpretar [as punruacio~es de tos lnstnlmentOS¡ por ejemplo, una puntuaci6n de 65
por ciento de aciertos en una prueba de vocabulario puede ser equivalente al 30 en
oera y a180 por ciento en una.más. Obviamente. el grado de dificultad de los reactivos CONCEPTOS ESTADÍSTICOS
que componen cada prueba determinará el significado del resultado. Al igual que las
Un propósitO fundamental de la escadrstica es organizar y resumir los datos cu:mtita-
puntuaciones crudaJ, los porcentajes sólo pueden intetpretarse en un marco de refe-
tivos para facilicarsu comprensión. Una lista de 1 000 puntuaciones no sólo resulta
rencia claramente definido y uniforme. abrumadora, sino que trarumice poco significado. El primer paso para poner orden en
En tos in.mumentos pslcol6gicos, las puntuaciones suelen interpretarse haciendo semejante caos de dacos es tabular las puntuaciotle5 en una discribución de jw:ueTlciaJ,
referencia a norma.sque representan el desempeño de la muestra de estandarización en como se Huseraen la tabla 11,'que agrupa las puncuaciones en intervalos pe et~e, y
b prueba; es decir, las normas se establecen emprricamente al determinar lo que marca cada uro "en el incervalo adecuado. Cuando se han an;otado todas La.spunrua"
rucen en b prueba lo:smiembros de un grupo representativo. La puntuación rraNfor- ciones se cuentm las m3Icas para encontrar la frecuencia °
el número de casos en
mada de cualquier individuo se refiere entonces a la distribución de las puntuaciones' cada intervalo de clase. Lasuma de esas frecuencias será igual a N, el número total de
obtcni..:!aspor b muestra de estandari:3ción pan descubrir qUl~lugar ocupa en esa dis- casos ~n el gru~o. u tabb 3.1 rnutsrra las puntuaciones obtenidJS por 1 OC{) uníveTsi.
tribución. ¡Coincide el resultado con el desempeño promedIO del grupo de estanda.
48
.0
340
320
Distribución de frecuencias de las puntuaciones de 1 000 estu- -- Polígono de frecuencia
;;Ii.j!\~¡'I,;;:f0;¡~~;]:~lI~~~~~
.g
~ 140
.
z 120 •.
.:~:
100
80
'¡O.'
60
:'.'
_.:: '. .i';;fJ:J:;;;'U '{: F! ",,-:,:B-aHl :";'}f.\:b::bi r.~bi;.l-::2; si ~I~l:.qi"..oo ~jirn1)q ~op~'oI 40 ~.:'
.~,
:-.[J 1; ¡i:;'d'j !lol~~~~
;;.~ ~:-'':' .. ::!: ...~r;;~,-.: : ..;~. ':~'::" ..: ::,'¡:'i:Xi' ,?l':í1~::!,::t"i"JI-5iq;rt~/<.-~; 20
"
~~~ip2~:~~~:~
", ,~","~P~~,
(Da~ tom:idos de Aruswi, 1934, pj.g. )4)
. ,.
..
"'.'
,,:,.,.:,:" . ,
.2 " .. ,,'.50% d,
B :.•...
"{l" . '~.
.
0
.. ' Cii
:;~'~eái~ri~
4o;? _.',' ~-;.r.:_ , .....
7'
:: E ., ...• v .... ,.. " .\/:
"":;1
z. . '., .. :50% de ... r.\,.
.,..:;_-,:I),:t-::;;~~~':',:,p,
..LX~
, .',i. :; ~;". "';:~':-';~:
,,,:;"":,:,';~'~~11~~~~
'.:;
.~~~
F i 9 u "/a 3. 2. Distribucionesde frecuenciascon la misma media pero dife-
rente variabilidad. .
rango entre la mayor y la menor puntuación; sin embargo, se trata de una medida muy
cruda e inestable, toda vez.que la determinan apenas dcl puntuaciones, lo cual supone
que una sola puntuación inusualmente elevada o baja puede afectar mucho su Noco.. los s(mbolos r.
y C1 son 13 OU)'\ÍSCub y b minüscula de la muou lelr3 gricg3. pronunci3<b ~sigrn3•• En mu-
tama~o. Un método más preciso para medir la variabilidad se basa en la diferencia chos textos de C$rndísti6', \1 DE ~ refiere a b desviación cst:ind:lr de la mucstrJ. de la que ~ obtuvieron!o:s datos,
mientras que C1 se refiere al estimado de la desviación esónd:uen la poblaci6n de la que ~ exmjo la m\JC:Str:l.
'entre la puntuación de cada individuo y la media del grupo.
En este p'umo resulta útil estudiar el ejemplo de la tabla 3.2, en el que se calcularon
emplea la "desviación promedio" porque la eliminación arbitraria de los signos hace
las diversas' medidas consideradas para 10 casos. Aunque en la práctica real suelen
manejarse grupos más grandes, en este caso la elección de un grupo tan pequeño obe- inadecuado su uso en posteriores análisis matemáticos.
La desviación estándar (simbolitada por DE o a) es una medida de variabilidad
dece a la necesidad de simplificar la explicación. La tabla 3.2 también permite intro-
mucho más útil en la que los signos negativos se eliminan al elevar al cuadrado cada
ducir algunos símbolos estadfsticos que debe aprender, ya que los emplearemos más
desviación, procedimiento seguido en la última columna de I.ata~la 3.2. Se conoe,e
adelante. ~ manera convencional, designamos las puntuaciones crudas originales con
como varianza o media de los cuadrados de las desviaciones a la suma de esta columna
una X mayúscula, la x minúscula se emplea para referirse a las desviaciones de cada
puntuación,' respecto a la media del grupo y la letra griega L significa ula suma de", Se
observa que en la primera columna de la tabla 3.2 aparecen los datos para el cálculo de
dividida entre el número de casos' ( r.t ). La .varianza ha demostrado serd~ gran
la media (que en este caso es 40) y la mediana (que es igual a 40.5 y se en!=uentra entre utilidad para' separar la contribución de diferentes factores a las diferencias indivi-
40 y 41) por encima y por debajo de la cual se encuentran respectivamente cinco casos duales en el desempeñ.o de una prueba; sin embargo, para los propósitos presentes lo
(50 por ciento). En un grupo tOanpequeño no tiene sentido buscar la moda, porque los que más nos inreresa es la DE que, como se muestra en la tabla 3.2, es la rafz
casos no muestran un agrupamiento inequívoco en ninguna puntuaci6n; de cualquier cuadrada de la varianza. Esta medid3 suele emplearse al comparar la variabilidad de
modo, la puntuación d~ 41 representarfa técnicamente a la moda, porque la obcu- distintos grupoS; por ejemplo, b figura 3.2 present'a dos distribucioneli que coinciden
vkron dos individuos, en ranto que el resto de los resultados ocurrió una sola vei. en la media p~ro difieren en la variabilidad. La distribución con la mayor variabili.
La Stgunda columna muestra qué ramo se desvfa cada puntuación por encima o por
d~b3jo de la m~dia de 40. La suma de las desviaciones siempre será igual a cero, I ~ cllculos lllJ,\t~os en esle OplfU!O tíCn(n que ver con la (lted!lrica dtKTipd\.'ll, que ~ refiere a b mucstr3
porque bs desviaciones positivas y las negativas alrededor de la media necesariamente reJlmenlC mcJiJJ; en la tJw&stiu m/(T(l"•.id. u N e1 reempl1:3<,h por N.¡ p:1n ~ríour los valores COrTcspon.
dientcJ 3 b pobbci6n :1.pJnir de loi dHOS & lJ mccmJ. Enue menor su b mU(1{l'3, fT\3yOt'1Cd b difercnci:l.
se equilibran o cancelan (+20 -20 •• O). Si ignoramos los signos podemos promediar
cnHe los "'llores de l:a muC)ln y \o¡ de U pJ:txión, PlrJ l1Ú1e,lplic.3(iúnes, vo!:uc cu.11quier libro JctwliuJo de
IJ.Sd~svbciones absolutas y obtener una medida de la desviación promedio de cada cstaJ[Uic3S (por ejemplo. Comrey y lec. 199!). •
sujeco d~ la media del grupo. Aunque de cierro valor descriptivo, en 13práctica no se
~~~;.?,;t";.i :''''~>..\;:'~.,~_::.:~;".,~,,,;;,,-,,,::::-:;:~":'''':''':::''''...i.~~.~
io¡',:-:.',I,".-;:¡' !t--;.~:~:;':-V~::"~i~', •.'~'¿0¿-"':"~.i:..<.:'.'-"----"-'.~~:""""-":'-:J..o. • -
--- ___
~..:....._,~ . ~ __~_ ..... , ..~....'....' . :::'-:-";Y=:'S-X~~~8l~--
teligencia es tan buena como la de un niño de 10; la EM de 10 también se asignaría a
un adulto retardado que mostra~ el mismo nivcLde ejecución: En un contexto dife-
rente, puede decirse que un chico de cuarto grado ha alcaruado la nom,a de sexto en
í oC>:;' '" " ;" :~:, "f ,',::", ":~,o; V i una prueba de lectura y la de tercero en una de aritmética. Orros sisremas de desa-
rrollo utilizan descripciones cualitativas de la conducta en funciones específicas,
: + _ .. 68.26% 0'_ •.. -" - +. ':'- como las actividades sensoriomotoras o la formación de conceptos. Como quiera que
1\
se expresen, las puntuaciones basadas en normas de desarrollo tienden a ser burdas en
,'!"".~r2i.";,1
términos de la psicometda. Y no se prestan a un tratamiento estadístico preciso; no
obstante, resultan muy atractivas para propÓSitOSdescriptivos, en especial en el estu-
« ¡
dio clínico intensivo de individuos Ypara ciertos propósitos de investigación .
.'}:~~~]&i1It~tf&I{&11~f~jr.i~;íl;~~~~i~tit.i0~~~i las de Binet.y sus.revisiones (previas a 1986), los reactivos se agrupaban en niveles
cronológicos. Por ejemplo, los. reactivos pasados por la mayoría de los niños de siete
años de una muesIT3 de estandarización se colocaban en el nivel de siete años, los
F i 9 u fa .3. 3. Distribución de los porcentajes de casos de la curva normal. pasados por casi todos los de ocho años se asignaban al nivel de ocho años, etc. La
puntuación de un niño en-la prueba correspondería entonces al mayor ni\'el que
dad individual produce una DE m~ grande que la que tiene rl}enores diferencias in. hubiera completado con éxito. En la práctica real, la ejecución de los individuos
dividuales: Al evaluar la ejecuci~n relativa de dos grupos, deben compararst tantO mostraba cierto grado de dispersión, lo que significa que en algunas pruebas estaban
las DE como las medias. Si se encuentra que la variabilidad de los grupos difiere, por debajo de su edad mental y pasaban otras por encima. Por esta ra.::ón se
puede suponerse que son dis[miles en la proporción de punruaciones altas, bajas o en acostumbraba' calcular la edad basal, es decir, la mayor edad en la que todas las pruebas
ambas, independientemente de las diferencias entre las medias. En la actualidad se se pasaban. A esta edad basal se agregaban luego créditos parciales en meses por las
dispone de procedimientos que permiten combinar los efectos de las diferencias pruebas pasadas en niveles superiores. La edad mental del niño en la prueba era la
entre las medias y las diferencias en la DE (véase, por ejemplo, Feingold, 1995). suma de la edad basal y los meses adquiridos como créditos en los niveles superiores.
1.3 DE también proporciona la base para expresar en términos de normas las pun. Las normas de edad mental también han sido empleadas con pruebas que no se divi.
tuaciones del individuo en dife~emes pruebas, como se mostrará en la sección de caH. den en niveles de años. En ese caso, primero se determina la puntuación del niño, que
ficaciones 'estándares. La interpretación de la DE resulta especialmente clara al puede ser el número total de aciertos obtenido en toda la prueba o bien puede basarse en
aplicarse a una curva de distribución normal o aproximadamente normal, en la que el tiempo. número de errores Q en alguna combinación de esas medidas. El promedio de
hay una relación exacta entre la DE y la proporciÓn de casos, como se ve en la figura las puntuaciones crudas de los niños de la muestra de estandarización en cada grupo
3.3. En 'ta~Hnea horizontal de la curva se han marcado las distancias que representan . d, edad constituye la norma d, edad paro esa pru,ba; por ,jemp!o, la puntuadón ctuda
una, do.:iy tres desviaciones normales por encima y por debajo de la media; por ejem. promedio de los niños de ocho años representa la norma para esa edad. Si la calificación
plo, en el caso presentado e.n la tabla 3.2, la media corresponder(a a una puntuación de de un individuo es igual a la puntuación cruda promedio de los ocho años, entonces su
40, +10 correspond,rla a 44.9 (es decir, 40 + 4.9); +20 a 49.8 (es d,ci" 40 + 2 X 4.9), edad m,neal en la prueba es de ocho años. Todas las puntuadon" crudas d, dicha pru,ba
etc. En la. curva normal el porcentaje de casos que cae enrte la media y +lcr es 34.13 pueden tra1\Sforrn:ll"Sede manera similar haciendo referencia a las normas de edad.
por ciento. Como la curva es sim~trica, también se encuenrra 34.13 por ciento de los Advierta que la unidad de edad mental no permanece constante con la edad, sino
casos entre la media y -la, de modo que entre +10 y -la a ambos lados de la media se que tiende a disminuir con los ai\os; por ejemplo, un nii\o que a la edad de cuatro
encuentra el 68.26 por ciento de los casos. Casi todos los casos (99.72 por ciento) caen tiene un año de retardo a los 12 tendrá aproximadamente tres ai\os de retardo. Un
dentro de :t3a de la media. Estas relaciones son particularmente importantes en la in- año de desarTollo mental de los tres a los CU3trOaños equivale a tres años de d~S3rTollo
terpretación de las puntuaciones estándares y los percentiles que verelJlo.:iaddante. de los nueve a los 12. Como el des3rTollo intelectual avan:a más r~pid3mentea edJdes
tempranas y disminuye a medida que el individuo se aproxima a su limire d~ madu-
ración, la unidad de edad mental se reduce también con la edad. Est3 relación se apre.
NORMAS DE DESARROLLO cia con mis facilid3.d si se piens3 en la eStatuf3 del individuo expresadJ en cénninos
L:u puntuaciones de l~ pruebas adquieren significado si indican qu~ tanto progre- ro de "ed3d de escatura". La diferenci3, en centímetros, enue una ed3d de t-sratura d~ [[es
sado el individuo en el pau6n de desarrollo normal. Así, puede decirse que un niño de y cuatro años será mayor que entr~ una de 10 y 11. D~bido a la disminución progr~sivJ
ocho ai\os tiene una ed3d mental (EM) de 10 si su ejecución en un3 prueba de in-
,
t
56 Principios técnicos y m~todológicos Nonnas y'significado de las puntuadone.s de los tests 57
.1
de la unidad de EM, un año de aceleración o remrdo, dig3mos, la edad de cinco repre- tos. Un ejemplo precoz se encuentra en el trabajo de yeseU y sus coleg~~-;.l:"
::enta una desviación mayor de la norma que un año de aceleración o retardo a los 10. (Ames, 1937; Gesell y Amatruda, .1947; Halve..rson, 1933; Knobloch y Pa:;am;mick,
1974). Los Programas de Des::trrolIo de Gesell preseman, en meses, el nivel ~proxima-
Grados .equivalentes. En las pruebas de aprovechamiento académico, los re~ulm- do de desarrollo que ha alcanzado el nino en cuatro áreas principales de conducta, a
dos suelen interpretarse como equivalentes a grados, práctica comprensible porqu~ las saber, motora, adaptativa, lenguaje y personal-sociaL Estos niveles se encuentran
pruebas se emplean en medios escolares, Describir el aprovechamiento de un alumno comparando la conducta del niño con la que es distintiva de ocho edades claves que
como equivalente al desempeño de séptimo grado en ortografía, de OCtaVOen lecrura van de las cuatro semanas a los 36 meses.
y de quinto en aritmética tiene el mismo atractivo .popular que el uso de la edad men- Gesell y sus colaboradores subrayaban el pattón secuenciado del desarrollo conduc-
tal en los tests tradicionales de inteligencia. tt1al temprano. Citaban evidencias considerables de las uniformidades de las secuen-
Las normas de grado se encuentran calculando la punruación cruda promedio de los cias del desarrollo y la progresión ordenada de los..cambios en la c<?nducta; por
niños de cada grado. De esta manera, si en la muestra de e.standari:aci6n los chicos de ejemplo, en las reacciones del niño ante un objeto pequeño colocado frente a é1se en-
cuartO resuelven correctamente un promed,io de 23 problemas en una prueba de ariuné- cuentra una secuencia cronol6gica característica en la fijación visual y los movimien-
tica, entonces la puntuación cruda de 23 corresponde a un grado equivalente de cuatro. toS de mano y dedos. El uso de la mano en intentos burdos de prensión palmar OCurren
Los equivalentes de grados intermedios, que representan fracciones de grado, en general a una edad anterior al uso del pulgar en oposici6n a la palma; esta prensión es a su vez
se encuentran por interpolación, aunque también pueden obtenerse examinando direc- seguida por el uso más eficiente de los dedos pulgar e índice a manera de tenazas al asir
tamente a los niños en momentos diferentes del año escolar, Como éste cubre 10 meses, el objeto. Este patr6n secuenciado se observa también al caminar, subir escaleras y en
pueden expresarse como decimales; por ejempto, 4,0 se refiere al desempeño, promed,io al la mayor parte del desarrollo serisoriomotor de los primeros años. Las escalas desarro •..
inicio del ~uano grado (aplicando la prueba al empez.ar el curso), 4.5 al desempeño pro- . lIadas dentro de este marco son ordinales en el sentido de' que las etapas del desarrollo
medio a la mitad del grado (aplicando la prueba a mediados del año escotar), etcétera. siguen un orden constante, en el que cada etapa presupone el dominio de la conducta
A pesar de su popularidad, las normas de grado tienen varios defectos. Primero, el que es característica de las etapas previas.2
contenido de la instrucci6n varía de un grado a otro, de ahí, que las nonnas de grado En los sesenta se observó el resurgimiento del interés en las teorCasdel desarrollo del
sólo sean apropiadas para las materias enseñadas a lo largo de todos los niveles escola- psicólogo infantil suizoJean Piaget (véase Flavell, 1963; Ginsburg y Opper, 1969; D. R.
res cubiertos por la prueba. Por lo general no son aplicables en el nivel de secundaria, Green, Ford y Flamer, 1971). La investigaci6n de Piaget se centr6 en el desarrollo de los
pues muchas materias se cursan sólo uno o dos años; sin embargo, incluso en las mate- procesos co~osdtivos de la infancia a la adolescencia. Se interesaba en conceptos espe-
rias enseñadas en cada grado el énfasis puesto en diferentes temas puede variar, por lo cfficos más que en habilidades generales. La permanencia del objeto es un ejemplo de
que el p,rogreso puede ser inás rápido en una materia que en otra. En otras palabras, las dichos conceptos o esquemas. En este caso, el niño es consdeme de la identidad y la
unidades de grado son desiguales, y tales desigualdades ocurren de manera irregular en exisrencia continua de objetos cuando los ve.desde ángulos c!iferentes o cuando salen
diferentes áreas temáticas. . del alcance de su vista. Otro concepto muy estudiado es el de la conservaci6n, el reco-
Las normas de grado también pueden ser objeto de malas interpretaciones a menos nocimierúo de que un atributo permanece constante a pesar de los cambios en su apa-
que el usuario tenga siempre presente la manera en la que se derivaron; por ejemplo, si riencia, como cuando la misma cantidad de Irquido se vierte en recipiemes de forma
una niña de cuarto obtiene un grado equivalente de 6.9 en aritmética, eso no signifi- distinta o cuando se colocan varillas de la misma longitud en órdenes diferente.s.
ca que 40mine los procesos aritméticos enseñados en sexto. Aunque es indudable Las tareas piagetianas han sido exhaustivamente emple~das por los psicólogos del
que su calificaci6n obedece a una ejecución superior en la aritmética de cuarto grado, desarrollo en su labor de investigación, y algunas han sido organizadas en escalas es-
no debe s.vponerse que cumple los requisitos para la aritmética de séptimo. Por último, tandarizadas, como veremos en el capítulo 9 (Goldschmid y Bemler, 1968b¡ Pinard
las normas de grado tienden a ser consideradas en forma err6nea como criterios de . y Laurendeau, 1964; Ulgiris y Hunt, 1975). De acuerdo con la aproximación de Pia.
desempeño; por ejemplo, una mJestra de sexto puede suponer que todos sus alum- get, esos instrumentos son escalas ordinales en las que alcanzar una etapa depende de
nos deben encontrarse alrededor de las normos del sexto grado en las pruebas de apro- haber_completado las etapas anteriores en el desarrollo del concepto. Las tareas se di~
vechamiento. Esm concepci6n errónea no es sorprendente cUJndo se utilizan normas • señan para revelar los aspectos dominantes de cada etapa d¿ desarrollo; sólo después
de gr.ldo. Con todo, las diferencias individuales observadas en cualquier grado son tan se obtienen datos empíricos concernientes a las edades en las que suele alcanzarse
grandes, que el mngo de las puncuJciones de una pruebJ de aprovechamiento inevita-
~Iemente se extiende a lo I3rgo de varios grados.
I E.1fe U$<)del término "d(;:1b orJI(\.;:¡I~ dl~ere del que se le dJ eo CH.1<.I¡~li(:1.en b que UIU C1C:1I.;:¡
orJlnJl Cj limo
Escalas ordinall::s. Otra aproximaci6n a las normas de de:i3rrotlo proviene de la plemeole allue1b que permite el ONeoamiento Je los InJividU01 sin conocimIento SoJbrc lJ c:ltuiJ3J Je d¡(cren.
cl:l eoue 0:1105; en s.cotldo dt:w:!fslico, W esc;¡l:u ordil\J1cs 'le contt:ll{an coo ~31.U de lnre('Y:I!oJe unllbd'Ii"U1.
investigaci6n en el c~mpo de la psicología ¡nfami\. L'l.S observaciones emprricas del u.s C'1oC:lWordm.;:¡les del dC$:lrrolloJ in(:Iolil se dlJCl\.:lo sobre el moJc1o de lJ eolJ de Gurrrruo. o slmptex. eo b
desarrotlo conduccu:l! de infantes y niños pequeñ~ lleva a b descripción de b con- que II e¡ccud6n Cl1fOU en un nivellmpliC3 el oominlodc todos los niveles m{enoJres (L Gumn:ln. 19H1, B.ln
ducca caracterGtica de esas ed3des sucesivas en funciones como b locomoción, b dis- y Au':ui.;:¡n (1914) Jc.scntxo ufU eXlel\.l16n del arúluu Je Guwn.lO pJr:¡ indu;( J(l'3tqu1JJ fU) IlOn1a, coo rc(c'
criminaci6n sen.soriomotora, b comunicaci6n lingi.Hstica y la formación de concep- fl:oci.l Cjpecbl.1 Lu C'Ol.lJ pi.;:¡¡:eurus,
~~~
.. '._'-
Normasj!significado de las puntuaciones de los tests 59
" . \
58 Principiostécnicos y metodológicos
• Los pe,centiles no deben confundirse con los porcentajes, que son puntuaci~~es '~
~
~~b
etapa. A este respecto, el procedimiento difiere del seguido en la elaboración crudas qu~ se expresan en términos del porcentaje de los. reactivos correctos y el totai;"~
de escalas de edad en las que los reactivos se eligen en primer lugar sobre la base de los percentiles son puntuaciones rransformadas qtte se expresan en ténnin~ del por-
su diferenciación entre edades sucesivas. Aunque prosigue el interés en las contri- centaje de individuos. Una puntuación cruda inferior a cualquiera de las calificaciones
buciones de los planteamientos de Piaget¡ los análisis críticos y las evaluaciones em. obtenidas en la muestra de estandarización tiene un rango percentil de cero (Po)¡ una
píricas han resaltado tanto sus aportaciones como sus limitaciones (Sugarman, superior a cualquier puntuación de la muestra de estandarización tiene una rango per-
1987)J ' centil de 100 (P1OO); sin embargo. los percentiles no implican una puntuación cruda
En suma, las escalas ordinales se diseñan para identificar la etapa alcanzada por el de cero ni una puntuación cruda perfecta.
niño en el desarrollo de funciones conductuales específicas. Aunque los resultados Us rangos percentilares tienen varias ventajas: son sencillas de calcular y de com-
~ pueden informarse en términos de niveles aproximados de edad, estas puntuaciones prender, incluso por personas sin capacitación técnica. Más aún, son de aplicación
.: son secundarias á la descripción cualitativa de la conducta caracterfstica del niño. La universal, pueden usarse lo mismo con adultos que con niños y son adecuados para
'c., ordinalidad d~ dichas escalas se refiere a la progresión uniforme del desarrollo pór las cualquier prueba, sea que mida variables de aptitud o de personalidad.
~:.etapas sucesivas. En la medida en que las escalas suelen proporcionar información Su principal desventaja ~stá en la marcada disparidad de sus unidades, en especial
, .:'_acerca de lo 'que el niño verdaderamente es capaz de hacer (por ejemplo. trepar esca- en los extremos de la distribución. Si la distribución de las puntuaciones crudas se
._. leras sin ayuda. reconocer la identidad de la cantidad de Hquido cuando se vierte en aproxima a la curva normal (como sucede con los resultados de la mayor pane de las
.< recipientes de distintas formas). comparten rasgos importanteS con las pruebas de dt;>-
._: pruebas), las diferencias en las puntuaciones crudas cercanas al centro de la distribu-
. ~ minio que anali:amos en otra sección. ción (o mediana) aparecen exageradas al rransfonnarse a.percet:\tiles¡ por el contrario,
. las diferencias en las punruacionescrudas próximas a los extremos quedan considera.
O.,;.
. blemente acortadas. En la figura 3.4 puede verse esta distorsión. Como recordará. en
NORMAS INTRAGRUPO una curva normal los casos se agrupan cerca del centro y su dispersión aumenta al
.., Casi todos los tests estandarirados proporcionan alguna forma de nonnas intragrupo, aproximarse a los extremos¡ en consecuencia, cualquier porcentaje de casos cercanos
con las que b ejecución del individuo se evalúa en términos del desempeño del grupo al centro cubre una distancia más corta en la línea horizontal que el mismo porcenta.
de estandari:ación más próximo. como sucede al comparar la calificación cruda de un je cerca de los--exrremos de la distribución. En la figura 3.4 puede verse fácilmentees-
niño con la de Otros de la misma edad o del mismo grado escolar. Las puntuaciones in- ta discrepancia en los intervalos entre los rangos percentiles (RP) si se compara la
o tragrupo tienen U!! significado cuantitativo uniforme y definido y pueden emplearse distancia entre un RP de 40 y uno de 50 con la distancia entre un RP de 10 y uno de
.' adecuadí.'lmeme en casi todos los análisis estadrsticos. 20. Todavra más so~rendente es la discrepancia entre esas distancias y la que hay en-
tre un RP de 10 y un RP de 1 (en una curva normal derivada matemáticamente, el quier c~, la diferencia real entre puntuaciones aparecerá representada co~--;a~H:n'te ..
percentil cero se alcama en el infinito, por lo que no puede mostrarse en la gráfica). Muchas.'baterías de aptitudes y de aprovechamiento utilizan esta técnica en sus perfiles
La misma relación puede verse desde la dirección opuesta si se examinan los rangos de .calificaciones, que mueStran el desempeño del individuo en cada prueba.
percentilares correspondientes a iguales distancias a de la 'media de una curva normal.
Esos rangos se presentan bajo la gráfica de la figura 3.4, según la cual la diferencia per~ Calificaciones estándares. Los instrumentos actuales hacen un uso creciente de las
centilar entre la media y +la es 34 (84 - 50). Yentre + la y +2aes de sólo 14 (98 - 84). calificaciones estándares, que desde cualquier punto de, vista constiruye~ el tipo más
Resulta evidente que los percentiles muestran la posición rela~iva de cada individuo satisfactorio de puntuación derivada. Estas calificaciones expresan la distancia del in~
en la muestra normativa pero no la magnitud de la diferencia entre puntuaciones; sin dividuo de la media en términos de la desviación normal de la distribución normal.
embargo, si se grafican en una carta de probabilidad aritmética, las puntuaciones per~ -Las calificaciones estándares pueden obtenerse por medio de transformaciones linea.
centilares también brindan una imagen corr'ecta de las diferencias entre las puntuacio~ les o no lineales de las puntuaciones crudas originales. Las calificaciones estándares obte~
nes. La carta de probabilidad aritmética es una gráfica con secciones transversales en la nidas por medio de una rrans[orrnaci6n lineal conservan las reladones numéricas exactas
que las líneas verticales muestran el mismo espaciamiento que los puntos percentilares de las puntuaciones originales gracias a que para calcularlas se resta una constante de
de una distribuci6n normal (como en la figura 3.4), mientras que el espaciamiento entre cada puntuación cruda y se divide el resultado entre otra constante. La magnitud rela~
las líneas horizontales es unifonne, o a la inversa (como en la fi&ura3.5). las gráficas de tiva de las difereI}cias entre las calificaciones estándares así derivadas corresponde exac~
p¿;cenriles ~s pueden usarse para mostrar las puntuaciones de diferentes individuos tamente a la que existe, entre las- puntuaciones crudas. Todas las propiedades de la
en la ~isrn.J prueba o los resultados de la misma persona en diferentes pruebas. ,En cual~ . distribución original de las puntuaciones crudas se duplican en la qistribución de cal¡fi~
caciones-estándares,lo cual implica que en las dos clases de puntuaciones es posible rea~
',.
• 99
.,:' : .... :... ::.:~..::_.~::¡:.:}'::';:.~.~' .. '~:-~¡¡I~:~~~tr~~~~l,~~~~
:;":.;:~~':",~~:~::~d.~\;:,.~:;,,;,:tt!:~\ lizar el mismo cálculo sin distorsionar de los resultados.
Las puntuaciones estándares derivadas linealmente suelen conocerse simplemente
..
~'.~.r_
.
'~'.
95'.
'.:.. ....: ~ . '_".1
.
. :
'..,
.. .
, ;
;,
, '.' :';. como l<calificaciones estándares" o como Itcalificaciones t". Para calcular una ca{¡fica~
ción t, se encuentra la diferencia entre la calificación individual cruda y la media del
grupo norrnáÜvo, y luego se divide la diferencia entre la DE del grupo normativo. L"
".W 'J '" . tabla 3.3 muestra el cálculo de las puntuaciones z para dos individuosl de los que uno
.'~.71 ::'1" ' .. ;'; ':., ,,:,:::'';:::1'.1. cae a una DE por encima de la media del grupo y el otro a .40 DE por debajo. Cual.
80 " .'" :.¡ ,il quier puntuación no procesada que sea exactamente igual a la media es equivalente a
75 '"
.-1',70 :;r una puntuación t de cero. Es evidente que dicho procedimiento producirá puntuacio~
~ nes derivadas con signo negativo para todos los que caigan por debajo de la media.
.$'60
='
e SO Además, como el rango total de la mayor parte de los grupos no se extiende más allá
,.
~, '
4() de tres DE por encima y por debajo de la medial las puntuaciones estándares deben
0.,
' •... SO expresarse con al menos un ~ecimal para permitirla sufici~nte diferenciación.
".; 2S' Las dos condiciones mencionadas (la ocurrencia de valores negativos y de decima~
" '::20
" les) tienden a producir números desproporcionados que resultan confusos y difíciles
,!
'10 ,
.:.' .
~tuadones 'estándares
f:tena Edgar
'. ,
:,. "
.'
'X'-M
t;:a~,
1".,:': ~ ". ;,l! ,.<
q
'jl'
.. DE.", 5 ,
! . _'. ,,:.- .', ,.. .t ,'.
,~
; o:", 'p!"'~dtEkna' ~~~'wuWn~ ilol=q ,
F f 9 U r a 3. 5. Di3grarn3 d~ pcrcemil norm31. Los percemiles se esp:1ciJn de:modo que X =65 ." Xz=58 , .
: .1,'. I ,'1.' , , . ":,1
corr~pond3n a distJnci:u igual~ en unJ distribuci6n normJl, Compare la distanci3 entre 65 -'60 ., 58~i;o
tl?~.::""" .¡ :l:z=-5-: '.'
b.s puntuaciones obtenidas por Juan y María con la que existe entre 105 resuh3dos de
Elena y Edg:lCj d~mro de ambos pares, 1.1diferencia percentil es de 5 puntos. Juana y
,. '~+l.OO' :1 = ..:0.40
Ri.:ardo difieren en lO puntos percentiles, igual que Roberto y Debom,
~~0'~:"'1¥~0~~S~"j'Srr;,*",::;(m~~'0\," •..ó.P':':'._"'
..~*~~.:::"'i~~~~,'L.>.-='~:c'";. -,.,-,.='-'.--"--""~~
__ __
. -~._-
..
de usar en cálculos _oinfonne.sl por lo que suele aplicarse alguna otra transformación
lineal para poner las puntuaciones en una forma más conveniente; por ejemplo, las
puntuaciones de las Pruebas de Evaluación Académica (S-cholastic Ñsessmenc Tests, Porcentajes de la curva normal para su uso en la conversión
SAT) de la Junta Universitaria son calificaciones estándar~ ajustadas a una media de eda~na .. .. .
500 y una DE de 100. Asf, en esta prueba una calificación estándar de -1 se expresa
como 400 (500 -100 = 400), mientras que una de +1.5 corresponde a 650 (500 + 1.5
X 100 = 650). Lo único que se requiere para convertir una calificación estándar origi#
nal en la nue,va escala es multiplicarla por la DE deseada (100) Ysumar o restar el re#
. ,.., sultado de ~~a media deseada (500). Es posible elegir arbitrariamente cyalquier otra SO por ciento del grupo. Una calificación de -Lsignifica que sobrepasa aproximada~
mente a 16 por dento del grupo y una calificación de +1 que aventaja al 84 pOr ciento.
constante conveniente para las nuevas media y DE; por ejemplo, las puntuaciones ob#
.0 ~ tenidas en lOssubtests separados de las Escalas de Inteligencia de Wechsler se convier~ Corno puede verse en la lrnea inferior de la figura 3.4, esos porcentajes corres~nden
" ten en una-é:listribución con una media de la y una DE de 3. Todas esas medidas son respectivamente a una distancia de una DE por debajo y una DE por.encima de la me#
--,{' ejemplos de-calificaciones estándares transformadas en forma lineal. dia de una curva normaL
: .~,:~ Recordarl. que una de las razones para tran.sformar las puntuaciones crudas en cual# Igual que las calificaciones esrándares derivadas linealmenre, las calificaciones ~s# :
-- - quier escal~,gerivada es la necesidad de hacer comparables los resultados de diferentes tándares normalizadas pueden adoptar cualquier forma éonveniente. Si la calific"adórt': --o
...... pruebas. L.aS'punruaciones estándares derivadas linealmente sólo son comparables cuan# estándar normaliz:ada se multiplica por.lO y se suma o resta de SOse convierte en una.'
do provien~h de distribuciones de más o menos la misma fórma; por ejemplo, en tales calificación T, una puntuaci6n que propuso primero W. A. McCaIl (1922) yen la que,
condicion~~.una calificación que corresponda a lUlaDE por encima de la media signifi~ una puntuación de 50 corresponde a la media, una de 60 a una DE por encima de la
ca que el intli\'iduo ocupa la misma fOSici6n en los dos grupos. En ambas distribuciones, media, etc. Otra transformación conocida es la de la escala estanina, elaborada por
la calificación supera aproximadamente al mismo porcentaje de sujetos, y este porcenta- la aviación estadounidense durante la Segunda Guerra Mundial, que proporciona un
je pu~de ser determinado si se conoce la forma de la distribución¡ sin embargo, si una sistema de calificaciones de un solo dígito con una media de 5 y una DE aproximada-
distribuci6n es muy asimérrica y la otra es normal, lUlacalificación z de +1.00 podría ex# mente igual a 2.4 El nombre, que en inglés (scanine) es una contracción de uscandard
ceder Sólo al 50 por ciento de los casos en un grupo y a más del 84 por ciento en el otro. nine" O Uestándar nueve ¡ se basa en el hecho de que las calificaciones van de 1a 9. La
ll
Cuando Ja forma de las distribuciones es distinta, las calificaciones pueden hacerse restricción de las calificaciones a números de un solo dígito tiene ciertas ventajas para
comparableS. empleando tranSformaciones no lineales que las ajuste a cualquier curva el cálculo, ,ya que cada calificación requiere una sola columna en la computadora. .
. de distribuc1.ón. La edad mental y las puntuaciones percentilares representan transfor# Las puntuaciones crudas pueden convertirse fácilmente en esraninas si se disponen
maciones nO. lineales, pero tienen otras limitaciones que ya vimos. Aunque en ciertas los resultados originales en orden de tamaño y se les asignan luego estaninas de acuer#
circunstancias puede ser más apropiada otra distribución, la curva normal suele em# do con los porcentajes de la curva normal reproducidos en la tabla 3.4¡ por ejemplo,'si
.. "".. plearse con.este propósito. Una de las razones para esta elecci6n es que la mayor parte el grupo consta exactamente de 100 personas, las cuatro ám la calificación más baja
reciben una calificación estaninade 1, las siguienl:"és-sie.te-una 'Calificación"de"2, lis "si~-'
, -'. de las distribuciones de puntuaciones crudas se aproxima a la curva normal más que a
cualquier ofra. Además, las medidas físicas, como la estatura y el peso, que utilizan es# guientes 12 una calificaci6~ de 3,etc. Cuando el grupo contiene más O menos 100 ca-
.calas de unraades iguales derivadas por operaciones f(sicas, en genéral producen distri~ sos, primero se calcula el número correspondiente a cada porcentaje designado y luego
budones normales. Otra ventaja de la curva normal es que tiene muchas propiedades recibe las esraninas apropiadas. Así, si son 200 casos, a ocho les sería asignada una es#
ranina de 1 (4 por ciento de 200 = 8), con 150 casos seis recibirran una esranina de 1
matemáticas útiles que facilitan los cálculos posreriores. ",.
Las calificacione, estándare.snonnali,ada.s son calificaciones estándares expreSadas en (4 por cientode 150 = 6), Para cualquier grupo que conrenga de 10 a 100 casos, Bar-
términos de una distribución que ha sido transformada para ajustarse a una curva dett y Edgerton (1966) prepararon una tabla que pennite convertir direcramente los
normal. Dichas calificaciones pueden calcularse recurriendo a tablas que muestran el rangos en estaninas. Debido a sus venrajas prácricas y te6ricas, las esraninas han sido
porcenraje de casos que cae a diferentes disran¿as DE de la media de una c~rva nor~ empleadas ampliamenre, en especial con las pruebas de aprirud y de aprovechamienro.
Aunque las calificaciones estándares normalizadas son el ripo de puntuaci6n más
mal. Para ello, primero se encuentra el porcenraje de individuos de la muestra de es-
adecuado para la mayor parte de los propósiros, hay ciertas objeciones récnicas a la
tandari:ación que cae en o por encima de cada punMlci6n cruda, esre porcentaje se
locali:a luego en la tabla de frecuencia de la curva normal y se obtiene la correspon~
dienre calificaci6n estándar normali:3da. Las calincaciones esrándares normalizadas • K3~r (1958) propwo utu moJifie:tci6n dl: la e1oC3U ~uniru qUl: lucl: lil,ocrO\omb¡~ l:n b porCl:nujC1 '1 pro.
!leexpr~an de la misma forma que las calificaciones estándares derivadaS linealmente, dua uru DE CUCUffil:nte ifilUl a 2.loqu.o:bciliu su nunejocwnciutivo. Ou:u vwntes son b escau e (Guil.
(oro '1 FJ\ldHer, 1978. pp, -48+-187). que CON? de 11 unld:u1d '1 pmbi~ngenen U.n3 DE dl: 2. y b e1oC3U lun dl:
es decir, con una medi:J igual a cero y una DE igual a 1. Asr, una calificación normali. 10 unid.lJ(;j con cinco unubdo p:l' encirru.'1cinco por ~ebajo de b medi.1(Dnfidd. 1951).
zada de cero indica que el individuo cae en la media de la curva norm;l, que supera al
Normas y signijicudo d~ lu:;puntuaciones de los tests 6S
64 Pn"ndpiostécnicos y metodológicos
Debe agregarse que el uso del término "el" para designar a esas califi.ca6Qnes-~s!
normalización rutinaria de todas las distribuciones. Dicha transformación sólo debería
llevarse a cabo cuando la muestra es grande y representativa y cuando existen razones tándares puede resultar engañosa. Estos Cl no se ,?btienen a partir de los mismos m'é.
[Odos que se emplean para encontrar las razones el tf3d\.donales; no :::un razones de
para creer que [a desviación de la normalidad resulta de defectos en b prueba más que
de las características de la muestra y otros factores que afecte~ la conducta co~iderada. edades mentales y edades cronológicas. La justificación para su uso estriba en la fami~
Haridad general del término "el" y en el hecho de que estas cali&caciones pueden ¡n~
También debe observarse que cuando la distribución original de puntuaciones crudas
terpretarse como el en tanto que su DE sea aproximadamente igual a la de los Cl ya
se aproxima a la normalidad, las calificaciones estándares derivadas linealmente y las
conocidos. Entre las primeras pruebas en expresar las calificaciones en términos de Cl
calificaciones estándares normalizadas resultan muy similares a p'esar de las diferen~
de desviación están las Escalas de Inteligencia de Wechsler, cuya media es de 100 y la
cias entre los métodos empleados para derivarlas. Como es obvio. -el proceso de nor~
DEes igual a 15. El CI de desviación también se emplea en varias pruebas colectivas
malizar una distribución que de hecho es prácticamente normal prod~cirá poco o
de inteligencia y en la tercera revisión del Stanford~B¡net (1960).
ningún cambio. Siempre que sea factible suele ser más deseable obtener uha distribu~
ción normal de puntuaciones crudas por el ajuste adecuado del nivel de dificultad c;le Con el uso creciente del Cl de desviación se hace importante recordar que los CI de
desviación de diferentes pruebas sólo son comparables si emplean valores iguales o muy
los reactivos de la prueba más que por la normalización subsecuente de una distribu~
similares para la DE, que además tienen que aparecer siempre en el manual y el usuario
dón marcadamente no normal. Con una distribución más o menos normal de pun~
de la prueba debe considerarlas con atención. Si el autor elige valores difetentes para la
tuadones crudas, las calificaciones estándares linealmente derivadas cumplirán el
DE al elaborar la escala del CI de desviación, el significado de cualquier CI en tal prue.
mismo propósito que las calificaciones estándares normalizadas.
ba será muy diferente del que tenga en otras; Esas discrepancias se ilustran en la tabla "
El Cl de desviación. El el
(cociente de inteligencia) se introdujo en los primeros
3.5, que muestra el porcentaje de casos que obtendrían diferentes niveles de el en dis..
tribuciones normales con DE que varían enrre 12 y 18, valores que por cierto han sido
tests de intelig~ncia en un esfuerzo por convenir las calificaciones de EM en un indica~
realmente utilizados en las escalas el de pruebas_ publicadas; por ejemplo, la tabla 3.5
dor uniforme de la posición relativa del individuo. El Cl era simplemente la razón de la
muestra que un Cl de 70 corta e13.1 por ciento inferior cuando la DE es igual a 16 (co~
edad mental y la edad cronológica multiplicada por 100 para eliminar los decimales
mo el Stanford.Binet), pero que puede separar apenas el 0.7 por ciento (DE = 12) o has.
(CI = 100 X EMjEC). Por supuesto, si la EM de una niña es igual a su EC su CI sería
ta el 5.1 (DE = lB). Por lo común, se ha empleado el CI de 70 como punto de eort<;.para
exactament~ igual a 100. Un Cl de 100 representa entonces la ejecución normal o pro~
identificar el retardo mental clrnicamente significativo, Por supuesto, las mismas discre~
medio, en tanto que uno por debajo indica llretardo" y otro por encima "aceleración".
pancias se aplican a los Cl de 130 y superiores, que pueden usarse al seleccionar a niños
Sin embargo, la aparente simplicidad l6gica del el tradicional pronto decepcionó.
para progrnmas especiales para sobredotados. Dependiendo de la prueba elegida, el CI
Un problema técnico imponante es que, a menos que la DE de la distribución de CI per~
entre 90 y 110, descrito como el normal, puede incluir tan poco como el 42 o tamo
rnanezca aproximadamente constante con la edad, los el correspondientes a diferentes
niveles de edad no resultan comparables; por ejemplo, un CI de 115 a los 10 años puede
indicar el mi,mo grndo de superioridad que uno de IZS a los IZ, porque ambos pueden
caer a una DE de la media de su re:~jpectivadistribución de edad. En la práctica, ha resul~
rado muy difícil establecer pruebas que satisfagan los requisitos psicométricos para hacer Porcentaje de casos de cada intervalo de CIen las distribuciones
eomparabl~ a los CI en todo el rango de edad. Es principalmente por eso que la razón de nonuales con media'del00 y diferentes desviaciones
CI ha sido reemplazado por el llamado CI de desviación, que es otra variante de las cali.
ficaciones estándares. El el de desviación es una calificación estándar con una media de
> estándares
100 y una DE similar a la utilizada en la distribución de CI del Stanford.Binet. Aunque Porcent:J.je de frecuenci:u
la DE de lirazón de CI del Stanford.Binet (utilizada por última ve, en la edición de Intc:rvalo el
1937) no permanece exactamente constante en [Odas las edades, fluctúa alrededor DE= 12 DE= 14 DE=16 DE= 18
de una media ligeramente ma}'or a 16, de ahr que si se elige una DE de 16 al informar .,.3.1 ,..
130 V por' c:ncilTlJ l. .. 0.7 ,,', . " 1.6 . .•. 5.1.. . ' ,
las calificaciones estándares de una prueba de desarrollo reciente, las puntuaciones pue. 63 7,5 8.5 .
120-129 . 43
den ser interpretadas de la mi,ma manera que la ra=ón de CI derStaNord.Binet. Como 110-ll9 15.2 16,0 i5,8 15.4
el CI dd Stanford.Binet ha estado en uso durante mucho [iempo, examinadores y c1íni. 100-109
i~:~¡596 it!l522 ¡i~¡4i.2 n,g¡42,0
cos s~ ron acosrumbr.Jdo a interpretar y clasificar las ejecuciones en dicha prueba en tér~ 90- 99 .- . ,
minos de los niveles de el. H:ln aprendido lo que pueden esperar de individuos con 80- 89 . . 15.2: .' 16,0, 15,8., .. 15.4
Cl de 40, 70, 90, UO, etc., por lo que hay ciertas ventajas prácticas en el uso de una 70- 19 43 .' 63 7.5 8.5
D.:b,lo de 70 0.7 1.6 3,1 5,1
escala que corresponda a las conocidas dIstribuciones de el dd Stanford.Binet, Dicha 100,0 100.0 100,0 100.0
Tocal .. . .
correspondencia de unidades de calificación se consigue en la selección de las cifras
de la media ¥ lJ DE que concuerden con los dt: la distribución de St3nford.Biner. (Corte1u de Th, PI)'chok'¡:IUI Clrporxion.)
-:-~'-
"
c:---. como el 59.6 por ciento de la población. Para estar seguros, los editores de las pruebas se.
esfuerzan por adoptar de manera uniforme una DE de 16 tanto en las nuevas pruebas ca-
rno en las nuevas ediciones de las anteriores; sin embargo, las variaciones aún son sufi# M
dentes como para hacer que la supervisión de la DE resulte imperativa. :< g .-;
..5
" ~
Interrelaciones de las calificaciones int~agrupo. En esta etapa de la revisión de ":'.~' '..!•.• : •• ~:.~ •.
las calificaciones derivadas, el lector puede haber advertido la similitud entre las distin# ... . el
,'.' E
ras calificaciones. Los percemiles han ido adquiriendo gradu~lmente al menos un pareci# • :~-. '.,~
2.14%
do gráfico con las calificaciones estándares normalizadas. Si la distribución original de las ••• .0
pun'tuaciones no procesadas se aproxima a la curva normal resulta difícil distinguir a 13.59% 134.13% 134.13% 113.59%
f- : ';
las calificaciones estándares lineales de las calificaciones estándares normalizadas. Por :!:.~-.4<r. ",::.,:r30": -2(] . ..: > ,:,"1(] Media.de i~s.+1(] . :.. ~+20' .; +30" .: +4cr:
últi~o, las calificaciones estándares se han convertido en CI y viceversa ..En relación de !a'prueb'a;
~~~:'h.:iwd~!:.i'.....'; .'',;:;'Sf
::'; ;.,: .:: ~ ••.•:~ ' .•. ~.< J ;l,~!'"!•. ' ..•.•, ..• ~-;;:
.•• /i::aJifi~ciones ...-:-
con ese último punto, un nuevo examen del significado original del CI en tests como el
-: .. Stanford#~inet demostrará que es posible interpretarlo como calificaciones estándares.
Si sabemos que la distribución de los CI del Stanford.Binet tiene una media de 100 y
una"DE aproximadamente igual a 16, podernos concluir que un el de 116 cae a unadis#
tari~í? de una DE por encima de la media y representa una calificación estándar de
+1.00. De modo similar, un Cl de 132 corresponde a una calificación estándar de +2.00,
un el de 76 a una calificación estándar de -150, etc. Más aún, una razón de Cl del
1'0' 't<:':'20'::: :-.30:'. " 40 ; .'. 50. '. t'0" 70
.!.," .;" :.....;',.'/l".\ ..tJ\._; .• :: ;"
Stan(ord.Binet igual a 116 corresponde a un percentil de aproximadamente 84 porque
en una curva norrnal84 por ciento de los casos cae por debajo de + 1.00 DE (figura 3.4). 1" .f 1"'" 1, 1' I' 1 1 '1 "1
La figura 3.6 resume las relaciones en una distribución normal entre las calificacio#
nes que hemos estudiado hasta ahora. Entre ellas se incluyen las calificaciones z, las
i.~
. ,:'., ,;:; .~.. - .. ... ) : :;;~::
calificaciones del Examen de Admisión a la Universidad (College Enrrance Examina. . ', ','.(.'.CI tlera, t "'/' ..' l' ,o", '1", '.' 1 .: 1 I . ,. ':'1 1 .;. :'i '1 "
,. tion Board, CEEB), el Cl de desviación de Wechsler (DE = 15), calificaciones T, esta. '.J!.1d~~r.~:;.<
.. j:'~f~:;'.:'-:70.. "-' 85 ;'100 .._:}~5::':.130" .~.~~:;.,:~.::
.. r.~:
ninaS y percemiles. Los el de cualquier prueba han de coincidir con la escala dada del
el de desviación siempre que se distribuyan normalmente y tengan una DE igual a 15. ,.:. ',: .. '- 1 ... : :'4% : 171111211¡17'kI201\ 117%112"17" 1 4%
Cualquier OtrOel normalmente distribuido puede agregarse a la tabla si conocernos su
DE; por ejemplo, si la DE es de 20, entonces un Cl de 120 corresponde a + 1 DE, un
Cl de 80 a -1 DE, etcéte",.
En conclusión, la forma exacta en que se informan los resultados se determina sobre
..~~'<:i,b;~~:i:';ii,'1.~:!,\\:/:.~
••• -•..•~ld:"
';~'~:"~I:;4::~I.:'
~:1.61.:,', :17",I. B I .:"','
••.,.,.J.~_.I:~."\lJ•.....•. .,.:.1:5 '1020'30 405060 70 80.90 95 '991..
9 '•.... :.:~.:~:.
,.~ •.
[Odo por la conveniencia, familiaridad o facilidad para establecer las normas. Las eal¡fi# :-~ ••. :,.';¡.::.: ..•.. .,.-: :..~,',:r,,'i.;~:
...'.::..... >. :.~ ;'.': .' ' •••• ;,¡
caciones estándares de cualquier forma (incluyendo el Cl de desviación) han llegado a .' .' ': :: ••• :. p'~ ' •• :.-.(:: , •• :# .~:,<•..
reempta:ar a otras calificaciones por las ventajas que ofrecen en relación con la elabo#
F t 9 u r a 3. 6. Relaciones entre diferentes calificaciones en una distribución normal.
ración d~ la prueba y el tratamiento estad£Stico de [os datos¡ no obstante, la mayor par#
te de las calificaciones derivadas inrragrupo son en esencia similares si se transforman
mayor información. Las posiciones de esos dos estudiantes pedrCa invertirse al car
con cuidado y se interpretan adecuadamente. Cuando se satisfacen ciertas condiciones
bi::u las pruebas que cada uno presentó en su respectiva escuela.
estadísticas, todas pueden ser traducidas con facilidad a cualquiera de las otras.
Del mismo modo, la posición relativa de un individuo en diferentes funciones pI.;
de ser muy mal representada. por la falta de comparabilidad de las normas de una pn:
RELATIVIDAD DE LAS NORMAS bao SupongJffiOS que a una estudiante se le aplica una prueba de comprensión verba
un test de aptitud espacial para determinar su ubicación relativa en ambos campos.
CompJ.r3cion~s entre prueba':L El el, o cualquier otra calificación, debe acom# la prueba de habilidad verbal se estandarizó con una muestra aleatoria de estudian l
pañ.1r1asiempre el nombre dd cest dd que se obtuvo. Los resultados de las pruebas no . de secundaria mientras que la prueba espacial se estandarizó ~n un grupo selecto
pueden incerpremrse en absrrac[Q, tienen que ser referidos a pruebas particulares. Si asistentes a curSOs para elección de carrera, el examinador ~rfa llegar a b conc:
los registros ~o1ares muestran que P~dro Gómez obtuvo un CI de 94 y Teresa Olivo sión errónea de que la capacidad verbal de la chica es mucho mayor qu~ la espacl
un CI de 110, est:::lScalific:::lcionesno pued~n aceptarse porque aparecen sin conrar con cuando podrCaser el caso contrario. .
68 Pn"ndpios técnicos y metodológicos Normos y Slgniftcado de los puntuociones de los tests ,'\
Otro ejemplo tiene que ver con las comparaciones longirudinales de la ejecución de quiere decir que no se deben obtener normas muy diferentes al aplicar la~~~.~
un único individuo en una prueba a lo largo del tiempo. Si el registro acumulativo cualquier otra muestra cuidadosamente elegida de la misma población. Las normas
de un niño muestl3 un el de 118, 115 y 101 en cuarto, quinto y sexto grados, la prime- con un error de muestreo grande tendrán desde luego poco valor en la interpreraéión
ra pregunta que debe hacerse antes de interpretar los datos es: ¡¡¿Qué test se aplicó al de los resultados de la prueba.
niño en cada ocasión?" La aparente disminuci6n puede ser un simple reflejo de las di~ De igual importancia es el requisito de que la muestra sea representativa de la po~
ferencias entre los instrumentos, en cuyo caso el niño habría obtenido las mismas ca~ blación considerada, por lo que es necesario investigar con cuidado factores selectivos
lificaciones aunque se le hubieran aplicado con una semana de diferencia. sutiles que pudieran haber disminuido la representatividad de la muestra. Algunos de
Hay tres razones principales para explicar las variaciones sistemáticas entre las cali- estGS factores se encuentran en las muestras institucionales que, debido a su tamaño
ficaciones obtenidas por los mismos individu9S en pruebas distintas. Primero, a pesar relativamente grande y a su fácil acceso para propósitos de examinación, resultan un
de la.similitud en el nombre, el contenido de las pruebas puede diferir, como sucede con campo tentador para la acumulación de datos normativos. De cualquier forma, es ne~
muchos de los llamados tests de inteligencia. Aunque lleven el mismo nombre, una de cesado analizar con cuidado las limitaciones especiales de las muestras; por ejemplo,'
las pruebas puede abarcar únicamente contenido verbal, otra ante todo aptitudes espa~ al examinar a estudiantes se observará que conforme se avanza en los grados escolares
_ciales y la tercera puede cubrir contenido verbal, numérico y espacial en proporciones hay una selección superior de casos debido a la deserción progresiva de los esrudiantes
iguales. SegUndo, las unidades de la escala pueden no ser comparables. Como ya expli~ menos aptos, eliminación que no afecta de, igual manera a los diferentes subgrupos.
camos, si en una prueba el CI tiene una DE de 12 y en otra de 18, entonces es más pro~ Asr, la tasa de, eliminación selectiva en la escuela es mayor para los hombres que para
bable que un individuo que en la primera prueba obruvo un C[ de 112 en la segunda las mujeres, y es mayor en los niveles socioecon6micos bajos que en los altos.
reciba uno £le 118. Terceto, puede haber diferencias en la composición de [as muestras Factores selectivos similares operan en' otras muestras institucionales, como es el
de e5tandari~"a.ci6n empleadas para establecer las normas de las diferentes pruebas. Es caso de los prisioneros, los pacientes de hospitales mentales o las personas con retardo
obvio que p'arecerá que los mismos individuos tuvieron un mejor rendimiento al com~ mental que viven en internados. Debido a los muchos factores especiales que determi~
par.lr1os con un grupo menos capaz, que cuando se hace con uno de mayor capacidad. na [a propia internación, esos grupos no son representativos de la población entera de
La falta de eomparabilidad del contenido de la prueba o de las unidades de la esca- los infractores, los trastornados o los que padecen retardo; por ejemplo, es más proba~
la puede ser detectado al remitirse a la propia prueba o a su manual. Sin embargo, es ble que se interne a los individuos retardados que sufren discapacidades físicas que a
más probable que se pasen por alto las diferencias en las respectivas muestras normati~ quienes son aptos. De modo similar, la proporción relativa de personas con retardo
. vas, diferencias que pueden ser la explicación de muchas otras discrepancias en los re~ profundo será mayor en las muestras tomadas en instituciones de asistencia que en, el
sultados que no pueden eptenderse de otra manera. conjunto de la población.
Relacionada con la cuestión de la representatividad de la muestra, está la necesidad
La muestra normativa. Independientemente de como se exprese, cualquier nor- de definir la poblaci6n específica a la que pueden generalizarse las normas. Como es evi~
ma se restringe a la poblaci6n normativa particular de la que se tomó la muestra. El deme, una forma de asegurar que una muestra es representativa consiste en restringir la
usuario no debe perder de vista la forma en que se establecen las normas, pues no son, población para que se ajuste a las especificaciones de la muestra disponiblej por ejemplo,
de manera alguna, absolutas, universales o permanentes, sino que simplemente repre~ si la población se define para incluir únicamente. a escolares de 14 años en lugar de a
sentan la ejecuci6n en la prueba de las personas que formaron parte de.la muestra de todos los niños"¿e 14 años; entonces una muestra escolar seda representativa. Por su~
estandarizaci6n. Al elegir dicha muestra, suelen hacerse esfuerzos por obtener una que puesto, lo ideal es que la población deseada se defina de antemano en función de los
sea represen.tativa de la población a la que va dirigida la prueba. objetivos de la prueba, para formar luego una muestra adecuada. No obstante; los o~~
En la terminologra estadística se distingue .entre muestra y poblaci6n:La primera se re~ táculos prácticos para obtener participantes puede hacer que esta meta resulte inalcan~
fiere al grupo de individuos realmente examinado, mientras que la población designa ¡Il zable, En dicho caso, es mucho mejor redefinir la población de manera más reducida que
grupo mayor, pero de similar constituci6n, de donde se extrajo la muestra; por ejemplo, señalar nonnas sobre una población ideal que no está adecuadamente representada en la
si desea establecer las normas de ejecución en una prueba para la población. de niños va- muestra de estandarización. En la práctica real, son muy pocas las pruebas que se estan-
rones de 10 años que asisten a escuelas públicas urbanas, puede aplicar el instrumento a darizan sobre poblaciones tan amplias como suele suponerse, y ¡ninguna prueba ofrece
uro muestra cuidadosamente elegida de 500 muchachos de 10 años que asisten a escue- nonnas pa~ la especie humana! Además, es dudoso que muchas pruebas brinden nor-
las públicas en varias ciudades del pars. Hay que verificar la muestra en lo que atañe a la mas verdaderamente adecuadas para poblaciones tan amplias como "los europeos adul-
dl.mibución geográfica, el nivel socioecon6mico, la composici6n étnica y otras caracte- tos", "los niños mexicanos de 10 años", etc. En consecuencia, las muestras obtenidas por
rísticas r<=rtinentes para asegurar que representa de verdad a Lapoblaci6n definida. diferentes autores de prut;bas pueden no ser representarivas de las poblaciones alegadas y
En el desarrollo y la aplicación de las normas debe dedical3e mucha arención a la presentar diversos sesgos, de ahr que las normas resultantes no sean compambles.
muestr3 de est"mdarizaci6n. Es evidente que la muestra en la que se basan las normas Al interpretar los resultados de la prueba, el usuario debe tomar en considemci6n
las influencias específicas que pueden haber actuado sobre la muestra norm3tíva utili.
debe ser lo suficientemente grandt: como para proporcionar valores e.stable.s, lo que
'::,?~'':;-';'':-;~t'~,£g~;:'/i:;~~,,:~;¡,::',2::¿.~0:~,\::::'~~;:~'''''-~",:,.,"'.;;._s~~~'~"';;.S'I'>"":""'r.:::~
..:.-:."--~-,-~-.-
~
",""O', ~
..
se gr.lduaron de secundaria en 1990 y presentaron el test en su penúltimo o último año los principales exponentes de estos modelos lo han sustituido por el término más des.
escolar. Los tes"hados para los estudiantes que ptesentaron el SAT después del ptimetO c,iprivo y preciso de "Teotra de Respuesta al Ítem" O TRI (Lord, 1980, D. J. Weiss y
de abril de 199~ se informaron de acuerdo con la eScala "reciente" derivada del grupo de Davison, 1981). Esta designación ha alcaruado un uso general dentto de la psícologb.
referencia de 199:'. Se han elaborado materiales auxiliares e interpretativos para ayudar En esencia, los modelos TRI se han usado para establecer una escala de: medición
a (os usuarios a convertir las calificaciones individuales y agregadas de la escala anterior uniforme y ulibre de muestra" que pueda aplicarse a individuos y grupos de muy diver#"
y viceversa (véase el capfrulo 17), lo que permite una interpretación completa y diversi- sos niveles de habilidad y que permira probar contenidos de distintos niveles de difi.
6 cultad. Como en el caso del grupo fijo de referencia que explicamos en la secci6n
ficad3 d~ la ej~cución individual para propósitos espedt1cos de examinación.
. Las escalas formad3s a pílrrir de un grupo fiÜ)de referencia son análogas en un as. anterior, los modelos TRI requieren de reactivos ancla o una prueba común como
~ctO a las escalas empleadas en la medici6~ física. A este re'pecto, Angoff ( 1962, pp. puence entre las muestras examinad3s y las pruebas o conjuntos de reactivos; sin em-
32-33) comentaba: bingo, en lugar de USJrla media y DE de un grupo especrfico de referencia para definir
el origen y tamaño de las unidades de la escala, los moddos TRI los establecen eo tér#
minos de los d3tos qu~ representan una amplia gama de h3bilidad~s y dificulmdes de
, Su ~Mb rCClblóI~~o ti nombre de Tae de EV31uJción EJ.cobt (&Mlillric AJ-UJlm.:nt Tw. SATl pJr.1 los reactivos, que puedw provenir d~ varias muestras. Por lo general, el origen se esra-
r:.ut{:Jf el c3mb,;) de 11Of~entJc;¿n tuCl3 U rucul'Jle::l de lu ohfiQciones de lu prud::3j que sutji6 ¡ firules cltl
11~!!J:O:( ••.~.uc ~pec.~lmente el oplrulo 12 pJn uru revblón ¿ti e{oXto de tu direrencw de wexpcriencw blece cerca del cenuo de este [dogo. La unidad común de la escala se deriva matem:1-
f'::"ICrub ~Cre b. cJecuciJn en b prueb:a). ticamente de los d3ros de los reacrivos, lo que tiene varbs ventajas teóricas y práccic3s
t Re,,;on.xem.::s u 1~ de Wlync DtnJ.t1 de l1 Junu Univenil,lnJ P-,l~ lt oblenc:lón de b 1~0fTn3dón.
"-:;;\'P:~~'::;':~":"~h:';t\~\O
~'.;~~-;c?'c'~_ ~o:<'"",<.O.";',,-o_-:.,"_, •.," ••=:,";":.,\~,.~~",,.
:;':o"".~l:i~~-;"!\-~<:::"",. ~ __ , 0'-'-<0" =-- .. -, -O-. ~'?f pO 0'0_
o:.'
....
Normas y significada de los puntuaciones de los tests 75
74 Principios técnicos y metodológjcos
"'~, del examinado. Los usuarios que tienen acceso a sus propias computadoras pueden ad.
sobre los anteriores procedimientos de análisis de reactivos. Revisaremos después la quirir programas que además de las calificacioné"s numéricas también proporcionan
metodología específica, en el capítulo 7, cuando tratemos las técnicas de análisis de informes interpretativos para ciertos tests, como las Escalas de Imeliget:tcia para niños
reactivos. La TRI se ha ido incorporando en los programas qe exa"minación a gran es~ de Wechsler, Revisadas (WI5C-R) y para adulros (WAIS-R).
cala; por ejemplo, desde 1982 el procedimiento se emplea para igualar las calificacio. Los siseema.sinteractivos de cómpuw ilustran un nivel más complejo de in.rerpreta.
nes cotales de las nuevas formas del SAT y expresarlas en una escala continua ciónindividualiz.ada de las punruaciones de los tests. oEn éstos. el individuo está en
uniforme (Camara, Freeman y Everson, 1996; Donlon, 1984). contacto directo con la computadora por medio de estaciones de respuesta y emabla
Aunque ha crecido la atención dirigida al problema general de igualaci6n de la prue~ de hecho un diálogo con la computadora (j, A. Harris, 1973; Holrzman, 1970; M. R.
ba, que permite expresar los resultados de diferentes formas de la misma prueba en Katz, 1974; 'Super ee al., 1970). Esta técnica ha sido investigada en relación con la
:~una escala de' calificación uniforme, las dificultades técnicas de los diversos plantea~ planeaci6n educativa y profesional y en la toma de decisiones. En estas situaciones,
~:mientos explorados con este propósito escapaon al 'alcance de este libro, por lo que re~ los resultados suele~ incorporarse a la base de datos de la computadora junto con la
.Uerimo; alleF~or a P. W. Holland y Rubin (l98?) y a Perersen, Kolen y Hoover (1989) información proporcionada por el esrudiante o el cliente. En esencia, la computadora
~~-para una re.v~ión completa y una evaluación crítica de dicha metodología. combina toda la informaci6n disponible sobre el individuo con los datos almacenados
acerca de los programas educativos y ocupacionales, y utiliza todos los hechos y rela~
ciones pertinentes para responder a las preguntas del individuo yoayudarlo a tomar
.LAS COMPUTADORAS Y LA INTERPRETACIÓN una decisión. Un ejemplo de esos programas es el Sistema Interactivo de Guta" e In_::"oo
DE" LAS CALIFICACIONES DE LAS PRUEBAS formaci6n (Sysrem far Interactive Gu¡dance Infonnation, "5101", 1974-1975). El s~te- .
., .:;'0'.
o~Desarrollos)écnicos. Las computadoras han tenido un impacto importante en cada ma, en uso por más de una d~cada en universidades, se ha actualizado y revisado para
._:..fase de b ex~"minación, d~sde la elaboración de la prueba hasta la aplicación, califi~ ayudar no s610 a los estudiantes y a los adultos a prepararse para ingresar o regresar ai"
..'caci6n, inrerpreraci6n y elaboraci6n de! reporre (F. B. Baker, 1989; Butcher, 1987; mercado de trabajo, o para sopesar ascensos o cambios de carrera (M. R. Karz, 1993.
Gutkin y Wise, 1991; Roid', 1986). Los usos evidentes de las computadoras -y los Norris, 5chott; 5hatkin y Bennett, 1986). '
. ; encontrados antes- representaron un incremento sin precedenOtesen la rapidez con
Riesgos y directrices. Aunque es indudable que las computadoras han abie~~~el
" oque pueden realizarse los procesos de calificación y análisis de datos. El uso de las
camino a mejoras sin precedentes en todos los aspectos de las pruebas psicológicas al~
o computadoras en la aplicación automatizada de las pruebas convencionales tambiéno
l
otras propiedades técnicas del sistema interpretativo empleado al preparar el progra~ ejemplo para obtener una licencia de conducción o de piloto. Una aplicación relacio-
ma de cómputo. ¿Cómo se obtuvieron los informes interpretativos de los resultados? nada es el examen de la pericia para el trabajo, que evalúa la maesrría de un pequeño
¿Cuál es la base teórica y de investigación del sistema? ¿Los análisis proceden de número de habilidades bien definidas, como en las ocupaciones milieares especializa-
análisis cuantitativos o del juicio clínico de expertos? Si se trata del último caso, debe das (Maier y Hi"hfeld, 1978; Swezey y Pear!srein, 1975).
proporcionarse la información relativa a las calificaciones de estos expertos. Por último, la familiaridad con los conceptos de los tests referidos a dominio puede
El segundo principio indica que siempre que se empleen informes interpretativos de contribuir a la mejora de los exámenes tradicionales informales preparados por los
los resultados (sea con propósitos clínicos o de orientación o bien cuando se utilicen al maestros para su uso en el aula. Lino y Gronlund (1995) ofrecen una guía detallada
[Ornar decisiones importantes sobre los individuos), ~s indispensable considerar otraS par.a este propósito, as.í como un tratamiento sencillo y equilibrado de tales pruebas.
fuentes de datos disponibles sobre los examinados. Es por ello que s610 los profesiona~ Una reseña breve y excelente de las principales limitaciones de esa forma de examina-
les calificados deben usar reportes de los resultados. Los reportes deben considerarse ción se encuentra en Ebel (1972); y Berk (1984a) proporciona una amplia revisión de
como un instrUmento auxiliar y no como un sustituto del especialista profesional. muchos de los problemas técnicos de su elaboración y evaluación.
observaciones, una tras otra, y decidir después ~e cada una si (1) se acepta la hipÓtesis,
rias menos estructuradas. A estos niveles, es probable que tanto el contenido como la
(2) se rechaza, o (3) hay que hacer otras observaciones. Así, el número de observaciones
secuencia de aprendizaje sean mucho más flexibles. (en este caso, el número de reactivos) necesario para llegar a una conclusión confiable
Por orro lado. al subrayar el significado del contenido',t:;'n la interpretación de los re~
se determina durante el proceso de evaluación. En lugar de presentar un número fijo y
sultados, la examinación referida a dominio puede ejercer un efecto saludable sobre la
predeterminado de reactivos, el examinado continúa resolviendo la prueba hasta que
aplicación general de pruebas, por ~jemplo para la interpretación de los resultados de
se alcance una decisión de destreza o no destreza, En este momento se interrumpe el
un test de inteligencia. Describir la ejecución de un niño en un test de inteligencia en
examen y el estudiante es dirigido al siguiente nivel de instrucción o se le regresa a estu~
ténnmos de las habilidades intelectuales específicas y del conocimiento que representa
diar el nivel no dominado. Con las fadlidades de las computadoras, los procedimientos
puede ayudar a contrarrestar las confusiones y los errores que han quedado vinculados
de decisión secuencial son factibles y pueden reducir el tiempo total de exammación a
al CI tra~lcionali de todas formas, cuand9 se plantea en esos términos generales, la
la vez que producen estimaciones confiables de la destreza.
aproximadón referida a dominio equivale a interp~etar las calificaciones de las prue~
Algunos investigadores han explo[9.do los métodos bayesianos de estimación que
bas a la l~:.de la 'validez demostrada de la prueba particular, más que en términos de
incorporan datos colaterales y son adecuados para las decisiones que requieren las
vagas enti~dades subyacentes. Por supuesto, dicha interpretaciór puede combinarse
,pruebas de destreza. Debido al gran número de objetivos educativos que hay que pro~
con calificaciones referidas a normas. bar, en general los tests referidos a dominio incluyen un pequeño número de reactivos
':, por cada objetivó. Para completar e'sta limitada información se han establecido proce9i, '...
Pruebas,:de. destreza. Otro rasgo que suele asociarse con la evaluación referida a
- :~~dominio. es'el procedimiento para examinar la destreza. En esencia, el procedimiento miemos que comprenden datos colaterales de la historia del desempeño del estudiante
aSí como los resultados de otros alumnos (R. L. FerguSon y Novick, 1973; Hán;bleton, '
da una calmcación de todo o nada que indica si el individuo ha alcanzado o no el ni~
vel establ~ido de habilidad. Cuando se examinan habilidades básicas, en gene",l se 1984a; Hambleton y Novick, 1973),
espera u~a destreza casi completa (por ejemplo, 80-85 por ciento de respuestas co~ Cuando los procedimientos confeccionados individualmente no r~ultan prácti-
rrectas). También puede emplearse una distinción de tres niveles que incluye deSq-eza, cos, es posible establecer de manera empfrica puntuaciones de corte al analizar los re~
sultados de grupos apropiados antes y después de la instrucción. Lu~go se selecciona
no destrc:a y un intervalo intermedio dudoso o de "revisión",
En relación con la instrucción individualizada, algunos educadores han afirmado la puntuación de corce que haga una mejor discriminación entre los que han recibido la
que si s~ cuenta con tiempo suficieI1:tey métodos educativos apropiados, casi cualquie- educación adecuada y los que no lo han hecho (Panel! y Laabs, 1979; L. A. Shepard,
ra puede lograr la completa destreza de los objetivos elegidos. Las diferencias indivi~ 1984). En ciertas siqtaciones se requiere de juicio para evaluar la relativa gravedad de
duales se manifestarían en el tiempo requerido para el aprendizaje más que en el uaprobar" a una persona no calificada contra ureprobar" a alguien que s( lo está. En~
rendimiento fmal, como sucede en los exámenes tradicionales (Carroll, 1963, 1970¡ tonces, se elevarfa o disminuiría el puntO de corte para responder a las consecuencias
Cooley'¡ Glaset, 1969; Gagné, 1965). De todo esto se dice que en las pruebas de des- de la mala clasificación.
treza las 4iferencias individuales son de poco o ningún interés. En consecuencia, se
acostumbra elaborar los tests referidos a dominio de modo que,'luego de la capacita- Tests refetidos a normas. Más allá de las habilidades básicas, las pruebaS de destreza
ción apro'píada, minimicen las diferencias individuales en'la ejecución. La evaluación son inaplicables o insuficientes, ya que en las materiaS más avanzadas y me\los estructu-
d~ la desrre:a se emplea regularmente en los programas de instrucción personalizada; y radas el rendimiento es abierto. El individuo puede progresar' casi ilimitadamente en
también és caracterrstica de los tests referidos a dominio para habilidades básicas, adc~ funciones como la comprensión, el pensamiento crítico, la apreciación y la originali.
dad. 'Más aún, la cobertura del contenido puede seguir muchas direcciones diferentes
cuadas para la instrucción elemental.
... En la elabotación de esas pruebas hay dos preguntas importantes: (l) ¿cuántos dependiendo de las habilidades, los intereses y las metas del individuo, asf como de las
. reactivos deben usarse para la evaluación confiable de cada objetivo educativo cubier- facilidades locales de educación. En esas condiciones, la destreza toral es poco realista e
to por la prueba!, y (2) ¡qué ptoporción de reactivos hay que responder correctamen. innecesaria, por lo que en tales casos suele utilizarse la evaluación referida a nonnas pa-
te para determinar en forma confiable la destreza? En buena parte de los primeros tests ra determinar el grado de re~~im¡ento, Se han elaborado algunos instrumentos para
rderidos a dominio, decisiones de criterio daban las respuestas¡ no obstante, el progre- ¡xrmitir tanto las aplicaciones referidas a normas como las referidas a dominio, Un
so sustancial alcanzado en el desarrollo de técnicas estadfsticas puede proporcionar ejemplo se encuentra en las pruebaS Stanford de diagnóstico para lectura y matemáti,
respuestas objetivas empíricas (&:tk, 1984a; R. L Fetguson y Novick, 1973: Hamble. cas, que ademis de proporcionar nomlas apropiadas para cada nivet permiten un aná,
ron, 1984a, 1989: Hambleton y Novick, 1973). Bas",rá con algunos ejemplos para lisis cuantitativo del aprovechamiento del niño en objetivos educativos detallados:
ilu)trár la naturaleza y el alcance de esos esfuenos. Observe que la evaluación rt::feridaa dominio no es tan nueva ni tan distinta de 10$
8tas dos preguntas pueden plantearse en una sola hipótesis que se prueba en el mar- exámenes referidos a norm3S como implican algunos de sus exponentes. Evalu3r b
co de la teoría de la toma de decisiones y el de un análisis secuencial (Hambleton, ejecución del individuo en una prueba en términos absolutos, como una letra o el
1984a: WaIJ, 1947). En concretO, deseamos ptobar la hipótesis de que el exami""do ha porcentaje de acienos, desde luego es mis antiguo que las interpretaciones normati.
alcanudo el nivel requerido de destreza en el contenido del dominio u objetivo educa. vas. Tentativas mis precisas por d~cribir el desempeño en u~a prueba en términos
ti.•.o muestreado por los reactivos de la prueba, El análisis secuencial cor:siste en hacer
;
.:c,' ...•.
del signincado del comenido [ambién son anteriores a la introducción del término
aprendices de marinero, lo que suponía la pérdida ..de sus servicios especializados. Un
análisis posterior de la situación llevó a la sustitución de un procedimiento de Corte
"test referido a crirerio" (Ebel, 1962; J. C. Flanagan, 1962; Nitko, 1984, pp. 14--16). para este propósito de selección; sin embargo, para la mayor parte de las variables rela-
Otros ejemplos se hallan en las primeras escalas formadas para e....aluar la calidad de la cionadas con el trabajo, la relación con la ejecución del trabajo tiende a ser lineal, de
escritura, la redacción o el dibujo al igualar la muestra de trabajo del individuo contra modo que entre mayor sea el resultado obtenido en la prueba mejor suele ser el desem#
un espécimen estándar. Ebel (1972) observó además que el concepto de destreza o ha- peño (Coward y Sackett, 1990). En tales casos, la calificación real del sujeto predice
bilidad en educación -en el sentido del aprendizaje de todo o nada de unidades espe# mejor.,su rendimiento que su posición relativa en un punto de cOtte.
cUlcas-- fue muy popular en los veinte y los treinta, antes de ser abandonado. En la medida en que no es posible evitar el uso de los puntos de corte en muchas
En todas las formas de evaluación está implícito un marCOnormativo, independien- . decisiones prácticas, es esencial estar al (anto de los riesgos de dichas e ....aluaciones y
temente d<cómo se expresen los resultados (Angoff, 1974; Nitko, 1984). La mera elec- utilizar procedimientos para reducir los errores de juicio; por ejemplo, deben hacerse
ción del contenido o bien las habilidades por medir está influida por el conocimiento esfuerzos para mitigar las limitaciones del, resultado de una sola prueba. Cuando sea
del examinador de lo que puede esperarse de seres humanos en determinada etapa factible. eIcorte debe ser una banda de puntuaciones más que una sola puntuación
educativa o de desarrollo. Dicha elección presupone que se cuenta con información obtenida en una aplicación de la prueba. Más aún. las decisiones sobre los individuos
acerca de 10 que otraS personas han hecho en situaciones similares. Más aún, al impo- deben depender de múltiples fuentes de información. de modo que los resultados de la
ner puntuaCiones de corte uniformes sobre un continuo de habilidad, las pruebas de prueba los completen otros datos relevantes a su desempeño, pasado y actual. Si un
destreza na 'eliminan las diferencias individuales. Describir el nivel de lecÑra de com-= grupo de jueces establece los puntos de corte,'éste debe incluir la representación ade# .-
prensión de:un individuo como "la habilidad de comprender el contenido del diario cuada de expertos tanto en el área relativa al desempeño de la tarea como en los prin#
The New York l1mes" deja espacio para una amplia gama de diferencias individuales cipios de construcción y uso de las pruebas. Por encima de todo, siempre que sea
en grado y comprensión. Aplicar un punto de corte para establecer una ¿icotom(a en posible, los puntos de corte deben establecerse o verificarse sobre la base de datos effi#
la ejecución simplemente ignora las diferencias individuales que permanecen dentro píricos. En concreto, esto implica que deben obtenerse los resultados conseguidos en
de las dos ca~egorías y descarta información potencialmente útil. la prueba por ~pos que dineren claramente en la conducta de criterio importante,
como el desempeño real en cierto trabajo. Por supuesto, esta es la ejecución qúe la
CALIFICACIONES MÍNIMAS Y PUNTUACIONES DE CORTE prueba pretende predecir y en que se establece un puntO de corte para asegurar un mí~
. nimo seguro. aceptable o deseable. Un ejemplo claro de la aplicación del método em#
Necesidades prácticas y peligros latentes. El concepto de destreza en la exa#
pírico para establecer puntuaciones de cOtte en una prueba de selección de personal se '
, minación referida a dominio es sólo un ejemplo del uso práctico de los puntos de cor- encuentra en las tablas de expectabilidad que veremoS en la siguiente sección.
te en la toma de decisiones. En la vida cotidiana deben especincarse Yadoptarse cali-
ncaciones mínimas para una gran variedad de propósitos. En muchas situacion.es, las
Tablas de expectabilidad. Una de las formas de inrerpretar el significado del re-
condiciones de seguridad requieren el establecimiento de puntOS de corte en el de- sultado de una prueba es la ejecución criterio esperada del sujeto, como en el progra-
sempeño, c'omo p<lraconceder licencias de conductor, la selección de pilotos para una ma de capacitación o en el empleo. Este uso del término ucriterio" sigue la práctica
aeroHnea o' de trabajadores para una planta nuclear. En la escuela, aprobar un cursa o
psicométrica habitual. como cuando se dice que una prueba es validada contra un crÍ#
graduarse (epresentan otras situaciones que exigen una clasificación de todo o nada terio particular (véase el cap(tulo 1). Hablando estrictamente, el termino "test referi#
(Jaeg , 1989). En la práctica clínica y de consejetía, las decisiones concernientes al
er do al criterio" debe aludir a esta interpretación del desempeño, mientras que los otros
tratamiento o las recomendaciones pueden requerir de juicios similares. planteamientos que revisamos en la sección anterior se describen mejor corno referi.
Un argumento particularmente sólido para el uso de los puntos d~ corte atañe a la
presencia d~ variables críticas requeridas para el desempeño de ciertas funciones, se dos a contenido o a dominio.
La tabla de expectabilidad muestra la probabilidad de diferentes (esultados de cri-
trata de vari::tbles en las que una deli.ciencia no puede compensarla una habilidad so#
terio para quienes obtien~n cnda re~ultado de la prueba; por ejemplo, si un estudian#
bres::lliente en Otras variables. En tales casos, un::l calincación alta en una batería de te obtuvo un~ cali~cación de 530 en la Prueba de Evaluación Académica (Schola.stic
selección podría ocultar una deficiencia en una habilidad crucial. Con todo, los indi.
Assessmdlt Test, SAT) de la Junta Universitaria, ¿cuáles son las posibilidades de que
viduos que caen debajo del m£nimo (equerido en la habilidad esencial fallarán, inM-
su calincación promedio en determinada universidad caiga en la categoría A. B, C, Do
pendientemente de sus Otras habilidades; por cjempio, los operadores dd equipO de Fr Esta inform:lCión se puede obte.ner si se examina la distribución bivarbda de las cali-
sonar deben tener una buena discriminación auditiva. Durante la Segunda GuerrJ. ncaciones predietoras (del SAT) contr.! el criterio establecido (el promedio de califica#
Mundial, los reclutas de b. marina estadounidense fueron seleccionados para el entre- clones). Si el númerO de casos en cada celda de dicha distribución bivariada se cambia
namiento como operadores de sonar sobre la base de la combinación de sUScalinea-
por un porcentaje, el resultado es una tabla de expectabilidad, como la que ilustra la ra.
ciones en prueb:lS de discriminación audiúva y de comprensión mecánica. Como
bla 3.6. Los datos par.! esta tabla fueron obt~nidos de 211 esrudiantes de séptimo grado
resultado, algunos hombres con formación universitaria que obruvieron excelentes re. lnscrit05 en cursos de matemáticas. El predictor fue la prueba de Razonamiento Numé.
sultados en comprensión mecánica pero que resultaron deficientes en l:ti habilidades
(i¡oode los TestSde Aptitud Diferencial (Diffcrenáal Aprinuú TeStS,DAT) administrados
auditivas esenciales fueron asignados a dicho entrenamiento con el fracaso subse.
cuente. El proc~dlmiento estándar de la marina requería que quienes fracasaran en su
¡- _=:2:ít' •• "'''y--O,~~S'
..'ü.: ~,-"""'~,~_".""_.r~."
_,''',_''"__
'.,~_,,-O"' > '- '.' ''-':''~''''';''''': '=--''~~''''''"~'''''~.~'''''"''--='''''''''==-''''''-
__
82 Prindpios técnicos y metodológicos Normasy stg~ifitado de' las p~ntuácianes de los. tests 83
4 23699,
,~-., '. .
3. :. ,11209,
;"c',
2 . 2139'
-
904
, .,
F f 9 u r a 3. 7. Gráfica de Expectabilidad que muestra la relación entre la ejecución en
una batería para la selección de pilotos y la eliminación de un vuelo de entrenamiemo
primario.
(Tomado de J. C. Aanag::m, 1947,'p. '58.)
vuelo. Puede verse que el 77 por ciento de los cadetes que recibieron una estanina de 1
fue eliminado del curso de entrenamiento, mientras que sólo cuatro por ciento de los
que obtuvieron una estanina 9 n~ logró completar el entrenamiento satis(actoriamen#
te. Entre esos extremos, el porcentaje de fracasos disminuyó en (arma constante a lo
largo de las esraninas sucesivas. Sobre la base de esta gráfica de expectabilidades pue.
de predecirse, por ejemplo, que alteded9t del 40 por ciemo de los cadetes que obtie.
nen una calificación esta ni na de 4 fracasará y que cerca del 60 por ciento completará
satisfactoriamente el entrenamiento de vuelo, Pueden hacerse afirmaciones similares
acerca de la probabilidad de éxito o fracaso' de los individuos que reciben cada estani.
na. Asr, la probabilidad de que complete el emtenamiemo un individuo con una eali.
ficación estanina de 4 es de 60:40 o 3:2. Además de brindar una imerpreración
referida al criterio de los resultados de la prueba, puede observarse que tanto las tablas
como las gráficas de expectabilidad dan üna idea generol de la validez de una prueba
para predecir un criterio determinado. Es por ello que al final del capítulo 6, en una
sección sobre los modelos de decisión para el u,sojusto de las pruebas, haremos una re-
visión más detalbda de los procedimientos emprricos empleados para establecer pun-
tuaciones de corte. En dicha sección también nos referimos a los procedimientos
matemáticos para d establecimiento de calificaciones de corte óptimas en diversas
condiciones. Las aplicaciones espedficas de las puntuaciones de corte en las principa.
les áreas de.la práctica p_sicol6gica también pueden encontrarse en el cap (rulo 17.
VJ C'tl ¡ce:
,=I!P.\'" C';l .8
V¡;."""" ...••••.~_••.. , bO c::
o ,o' '••• '\
t!!1;l. •••••~.,v:~.'Í'oi
•..
,; " ~",J'F'S~¡'
..V'. .. ;,-'
o -""','" ~~~~,~~"".
iJ~\.J~<t,}..\.j:::t\~:1fl
¡~,?rc""
, ••
o -".
~';¡,,~'?):,~'f',;'.-;'
.;~~. l,'¡,)'(.~'
;'."
oC/)
y'
¡f,:J¡;;~~...
~,a;-.'I."\"/.:,,,,T)J;:,. •• , ,•••. -." ;' ~-
" ..••~"""-::l'I~~:.:t!.Jt::~~~i'.~ll:''':'
~ ~¡¡~ ::~:;.~ : .
~ c:
...c ";
Q,) c:
::) :::J
t-
o...
,.-~
'"¡¡:O
O
O
..g
l5
O
O
z
:5
O
uJ
a:
uJ
:>
"a:
O
m
:J
-'
uJ