Você está na página 1de 44

UNIVERSIDAD LOS ANDES DE

HUANCAYO

ESCUELA DE CIENCIAS DE LA
SALUD

BAREMACIN, ADAPTACIN Y

ESTANDARIZACIN DE

PRUEBAS PSICOLGICAS

ASIGNATURA:

INTEGRANTES DEL GRUPO:

1
INDICE
1. INTRODUCCIN

1. BAREMACIN DE UNA PRUEBA PSICOLGICA


1.1.- BAREMOS CRONOLGICOS
1.2.- CENTILES O PERCENTILES
1.3.- PUNTUACIONES TPICAS

3.1.- PUNTUACIONES TPICAS ESTNDARES


3.2.- PUNTUACIONES TPICAS NORMALIZADAS
3.3.- PUNTUACIONES TPICAS DERIVADAS

2. ADAPTACIN DE UNA PRUEBA PSICOLGICA

2.1. MTODOS DE ADAPTACIN DE TESTS

2.2. TCNICAS DE TRADUCCIN

2.3. MTODOS PARA ESTABLECER LA EQUIVALENCIA ENTRE TESTS

2.4. FUENTES DE SESGO

i. SESGO DE CONSTRUCTO

ii. SESGO METODOLGICO: EN LAS


MUESTRAS, EN EL INSTRUMENTO Y EN LA
ADMINISTRACIN.
iii. SESGO DE ITEM

ADAPTACIN DE TESTS DE UNA CULTURA A OTRA

1. PAUTAS DE LA COMISIN INTERNACIONAL DE TESTS

1. CONTEXTO

2. ADAPTACIN DE LOS TESTS

3. APLICACIN

4. INTERPRETACIN DE LAS PUNTUACIONES

ESTANDARIZACIN DE UNA PRUEBA PSICOLGICA

1.1 Estandarizacin de la aplicacin


1.2 Estandarizacin de calificacin

CONCLUSIN

REFERENCIA BIBLIOGRAFICA

2
1. INTRODUCCION

El avance en la difcil tarea de comprender la conducta de las personas de manera


integrada se nutre del esfuerzo que realiza la psicologa por articular los diferentes
fundamentos tericos con la diversidad de mbitos de aplicacin, a travs de la
evaluacin psicolgica. Para que el progreso cientfico de la Psicologa sea cada vez
ms una realidad, hemos de esforzarnos por armonizar la explicacin terica y los
procesos de observacin emprica, hasta lograr en muchos casos compatibilizarlos. El
proceso cientfico depende conjuntamente del modelo explicativo y del metodolgico, y
por ende del perfeccionamiento de los instrumentos que permiten la objetivizacin de
los fenmenos, y del perfeccionamiento de la interpretacin terica de dichos
fenmenos, a travs del contraste entre teora y observacin.
La Psicologa reconoce en la Psicometra esa rama que se ocupa de las cuestiones
relacionadas con la medicin, y si bien es cierto que las ciencias atraviesan una poca
de crisis de paradigmas y en especial las ciencias sociales y conductuales, an as
podemos encontrar contenidos tradicionales en la Psicometra que son punto de
acuerdo entre la mayora de los autores e investigadores de la Psicologa. Se podran
sintetizar en tres ejes:
a) Los procesos operacionales de medicin en Psicologa asociados a las escalas
de medida: el objetivo de la Psicometra ser hallar la mejor manera de
observar, clasificar y transformar categoras manifiestas en escalas
cuantitativas partiendo de la aceptacin del isomorfismo entre propiedades
atribuidas a las categoras psicolgicas y las propiedades atribuidas a los
nmeros que las representan
b) Confiabilidad o precisin de los instrumentos de medida en Psicologa: es uno
de los tres problemas de medida asociados a las escalas de medida que
merecen atencin ya que si una prueba psicomtrica no es confiable en su
medicin, su inconsistencia repercutir negativamente no solo en la validez del
instrumento sino en todos los procesos relacionales que se incluyan.
c) Validez de una prueba: es la propiedad fundamental en tanto permite decir de
una prueba que mide lo que pretende medir y es un valor social sobresaliente
que asume una funcin tanto cientfica como poltica
Nos detendremos a considerar qu motiva la elaboracin de pruebas nuevas? No
hay un listado exhaustivo de motivaciones que lleven a la construccin de nuevos
tests, sin embargo, si analizamos las tcnicas existentes encontraremos tres fuentes
principales de trabajo de desarrollo de pruebas. La primera seala que muchas de
las pruebas de uso ms generalizado se originaron en respuesta a cierta
necesidad prctica. La prueba de inteligencia Binet se cre para identificar a los nios

3
de las escuelas de Pars que podan necesitar lo que hoy se conoce como educacin
especial. La Stanford Binet Intelligence Scale (Escala de Inteligencia Stanford Binet) se
origin en la idea de proporcionar una escala tipo Binet que pudiera utilizarse con los
estadounidenses, aunque las revisiones llegaron ms all de la simple traduccin del
francs al ingls. La Wechsler-Bellevue Intelligence Scale (Escala Wechsler-Bellevue
de Inteligencia) que dio origen a la coleccin de escalas Wechsler, apareci con la
intencin de ofrecer una prueba de inteligencia ms adecuada que la Stanford-Binet.
Las pruebas Otis construidas para evaluar la enorme cantidad de reclutas durante la
Primera Guerra Mundial al igual que la Woodworth Personal Data Sheet (Hoja de
Datos Personales Woodworth), prototipo de muchas pruebas de personalidad
posteriores. El Inventario Multifactico de Personalidad de Minnesota (MMPI) se
elabor para ayudar en la clasificacin de los pacientes mentales en la prctica
clnica de los hospitales de la Universidad de Minnesota. Tambin la enorme cantidad
de pruebas de aprovechamiento para su uso en las escuelas y la industria tiene
una orientacin altamente prctica. Estos son solo algunos ejemplos del hecho de
que muchos tests se originan en respuesta a una necesidad muy prctica.

Algunos tests se construyen a partir de un fundamento terico importante como las


Matrices Progresivas (Test de Raven) que se elaboraron basadas en la teora de
Spearman sobre inteligencia. Por ejemplo, la Primary Mental Habilities Test (prueba de
Capacidades Mentales Primarias) de Thurstone, prototipo de muchas evaluaciones de
inteligencia multifactoriales posteriores, se dise con la intencin de sustentar la
teora de Thurstone sobre las inteligencias mltiples. Estos son slo algunos ejemplos
de cmo las teoras pueden generar nuevas pruebas, que primero se utilizarn tan
solo para fines de investigacin, pero que despus se emplean en contextos
aplicados.
Finalmente, y este el caso que nos convoca, una gran de trabajo de elaboracin de
tests se dedica a adaptar o revisar los instrumentos ya existentes. Por ejemplo, poco
despus de que Alfred Binet introdujera las pruebas de inteligencia en Francia, el
Servicio de Salud Pblica de Estados Unidos comenz a usar dichas pruebas para
medir la inteligencia de personas que buscaban inmigrar a Estados Unidos. Henry
Goddard (1913) el investigador en jefe asignado al proyecta y un especialista en
retraso mental pronto plante lo significativas que son dichas pruebas cuando se usan
con personas de diversos antecedentes culturales y lingsticos. Goddard us
intrpretes en la administracin de las pruebas, emple a un psiclogo bilinge y
administr pruebas mentales a inmigrantes seleccionados que les parecan retardados
mentales a los observadores entrenados (Goddard, 1917). Por tanto, el impacto del
lenguaje y la cultura en los resultados de las calificaciones de las pruebas de
capacidad mental fue reconocido por los psiclogos ya desde principios del Siglo XX.
4
Una forma para que los primeros elaboradores de pruebas abordaran este hecho
psicomtrico de la vida fue elaborar pruebas especficas para una cultura. Es decir, la
prueba sera diseada para ser usada con personas de una cultura pero no de otra.
Las primeras versiones de algunas de las pruebas de inteligencia ms conocidas son
representativas de este enfoque de la elaboracin de pruebas. Por ejemplo, la versin
de 1937 de la Escala de Inteligencia Stanford-Binet, que disfrut de un uso extendido
hasta que fue revisada en 1960, no inclua nios de minoras en su muestra de
estandarizacin. Del mismo modo, la Escala de Inteligencia Wechsler-Bellevue no
contena a miembros de minoras en sus muestras de estandarizacin. Ya David
Wechsler en 1944 sealaba que una gran cantidad de negros haban sido
examinados durante los ensayos de estandarizacin pero esos datos los omitimos
debido a que no sentamos que las normas derivadas de mezclar las poblaciones
podran interpretarse sin salvedades especiales. De esta manera Wechsler sostuvo
que los baremos de sus pruebas cuando no incluan adultos o nios de minoras en las

muestras de estandarizacin, no podan usarse para las poblaciones de color de


Estados Unidos. Aun cuando muchas pruebas publicadas eran especficas para una
cultura, pronto se hizo evidente que se administraban de manera inapropiada, a
personas de culturas diferentes. No era sorprendente encontrar que quienes,
perteneciendo a culturas diferentes, respondan a esas pruebas; obtenan puntajes
inferiores como grupo que las personas del grupo para el cual se elabor y estandariz
el test.
Histricamente estos esfuerzos por revisar las pruebas existentes y adaptarlas;
conservando la estructura fundamental del instrumento, han logrado extender su uso a
poblaciones especiales. Ya sea por la diferencia de idioma o por la existencia de una
discapacidad auditiva, visual o motriz, la elaboracin o adaptacin de las nuevas
versiones de las ediciones existentes constituye una tercera fuente importante de
esfuerzos en la construccin de tests.

5
BAREMACIN DE UNA PRUEBA PSICOLGICA

La puntuacin directa de una persona en un test no es directamente interpretable si no la


referimos a los contenidos incluidos en el test o al rendimiento de las restantes personas que
comparten el grupo normativo. Nosotros centramos en este segundo sentido el tema de la
interpretacin de una puntuacin directa en un cuestionario, para lo cual es necesario tratar el
tema de la obtencin de baremos para comparar esta puntuacin con las que obtienen las
personas que han formado el grupo normativo. De una u otra forma, los baremos consisten en
asignar a cada posible puntuacin directa un valor numrico (en una determinada escala) que
informa sobre la posicin que ocupa la puntuacin directa (y por tanto la persona que la
obtiene) en relacin con los que obtienen las personas que integran el grupo normativo
donde se bareman las pruebas.
Entre las mltiples formas de baremar un test, destacamos las siguientes:

- Baremos cronolgicos: Edad Mental y Cociente Intelectual.


- Centiles o percentiles.
- Puntuaciones tpicas: estndares, normalizadas, escalas T y D, estaninos
o eneatipos.

Lo ms usual en las pruebas comercializadas es encontrarse baremos realizados en escala de


centiles estaninos.

1.1.- BAREMOS CRONOLGICOS

Para rasgos psicolgicos que evolucionan con la edad (sobre todo de tipo intelectual) tiene
sentido comparar la puntuacin de un sujeto con las que obtienen los de su misma edad y los
de edades diferentes. Esto se puede realizar mediante dos tipos diferentes de baremos: las
Edades Mentales (EM) y los Cocientes Intelectuales (CI).

Supongamos que aplicamos un test de Inteligencia de dificultad progresiva a diferentes grupos


de edad (nios entre 5 y 14 aos), y que obtenemos las puntuaciones medias de cada grupo
de edad en la prueba, siendo las que siguen:

Edad: 5 6 7 8 9 10 11 12 13 14

Media: 6 8 9 11 14 15 18 22 24 27

10
4
Hemos realizado una correspondencia entre las edades y puntuaciones medias que nos va
permitir obtener la EM de cualquier nio al que apliquemos el test. Por ejemplo, si un nio
obtiene el test una puntuacin directa de 14 puntos, le asignamos una EM de 9 aos,
independientemente de su edad cronolgica real, ya que esa puntuacin es la media que
obtienen los nios de 9 aos.

El Cociente Intelectual (CI) se denomina as (y no coeficiente, como es usual escuchar en


determinados mbitos) porque es el resultado de dividir la edad mental (EM) entre la edad
cronolgica (EC) del sujeto; para evitar decimales el resultado se multiplica por 100, de tal
manera que se puede obtener a partir de la frmula:

EM
CU = 100
EC

Por ejemplo, en el ejemplo anterior, si un nio de 10 aos obtiene una puntuacin directa de
18 puntos, diremos que su EM es de 11 aos, y que su CI es:

11
CU = 100 = 110
10

Podemos observar que si la EM de un sujeto coincide exactamente con su EC, el CI es igual


a 100, e indicar que este sujeto obtiene exactamente la puntuacin media de su grupo de
edad. Si el CI supera el valor de 100 significar que el sujeto tiene una Inteligencia superior
al promedio de su edad, mientras que si su CI es inferior a 100, significa que el sujeto tiene
una inteligencia inferior a la media de su grupo de edad. Usualmente, Cocientes
Intelectuales inferiores a 70 indican problemas importantes (deficiencias) de tipo cognitivo,
mientras que Cocientes Intelectuales superiores a 140 indican excepcionalidad intelectual.

1.2.- CENTILES O PERCENTILES


Los centiles, como recordaremos, representan medidas de posicin en un distribucin de
frecuencias. Los baremos centiles consisten en asignar a cada posible puntuacin directa
un valor (en una escala de 1 a 100) que se denomina centil (o percentil) y que indican el
porcentaje de sujetos del grupo normativo que obtienen puntuaciones iguales o inferiores a las
correspondientes directas. As, si un sujeto obtiene en un cuestionario de autoritarismo una
puntuacin de 20 puntos, poco sabemos sobre su nivel de autoritarismo, pero si sabemos que
a esa puntuacin le corresponde el centil 95 , ya conocemos que este sujeto supera en ese
rasgo al 10
5
95% de los sujetos utilizados para baremar el test; si el grupo normativo fuese una muestra
representativa de la poblacin general, podramos inferir que esta persona supera en
autoritarismo al 95% de las personas, y que slo un 5% de personas son ms autoritarias que
l.

El modo de clculo del centil asociado a una puntuacin se resume en los siguientes pasos:
1) Disponer en una columna, ordenadas de mayor a menor o de menor a mayor,
las posibles puntuaciones directas (Xi) que se puedan obtener en el test.
2) Asignar a cada puntuacin su frecuencia (fi), es decir, el n de sujetos del grupo
normativo que la han obtenido.
3) Disponer una tercera columna de frecuencias acumuladas
(Fi).
4) Para cada valor de Fi, obtener el valor Ci= (100) Fi/N, siendo Ci el centil asignado a
la puntuacin directa Xi, Fi la frecuencia acumulada correspondiente a Xi y N el
nmero total de sujetos que forman el grupo normativo.
Ejemplo:
Supongamos que aplicamos un cuestionario de conocimientos en el manejo de ordenadores a
un grupo de 200 universitarios y que las puntuaciones directas obtenidas (X) y los sujetos que
obtuvieron cada una de ellas (f) son las siguientes:

X: 28 27 26 25 24 23 22 21 20 19
18 f: 2 4 21 32 45 37 22 18 12 6
1
A partir de estos datos, los centiles correspondientes a cada puntuacin directa, se
obtienen de la siguiente forma:

Centiles
X f F C = (100)F/200

28 2 200 100
27 4 198 99
26 21 194 97
25 32 173 865
24 45 141 705
23 37 96 48
22 22 59 295
21 18 37 185
20 12 19 95 10
19 6 7 35 6

18 1 1 05
As, si un sujeto obtiene una puntuacin directa de 20 puntos en el cuestionario, diremos
que supera en conocimientos informticos al 9,5% de los sujetos universitarios, mientras que
ms del 90% de los alumnos universitarios tienen mayor conocimiento en el manejo de
ordenadores que la persona evaluada.

1.3.- PUNTUACIONES TPICAS

En Anlisis de Datos se vio el significado y proceso de clculo de las puntuaciones


tpicas (Zx) asociadas a unas puntuaciones directas determinadas. En este apartado vamos a
encontrar una clara aplicacin de estas puntuaciones, y de otras que se derivan de stas, para
baremar un cuestionario; vamos a diferenciar adems entre baremos tpicos estndares
y baremos normalizados.

3.1.- PUNTUACIONES TPICAS ESTNDARES


Como sabemos, una puntuacin tpica Zi se obtiene haciendo:

Xi - X
Zi =
SX
puede ser positiva o negativa, e indica el n de desviaciones tpicas que se aleja de la media
una determinada puntuacin directa.

As, conociendo la puntuacin tpica de un sujeto en un test y la variabilidad del grupo


normativo, podemos interpretar el nivel de rasgo del sujeto (atendiendo a la cuanta y signo
de su puntuacin Zi) en comparacin con los niveles de los restantes sujetos. Por ejemplo,
una puntuacin tpica de -2,33 indica que es un sujeto cuya puntuacin se encuentra 2,33
desviaciones tpicas por debajo de la media.

3.2.- PUNTUACIONES TPICAS NORMALIZADAS


Cuando se puede asumir (o se comprueba) que las puntuaciones de un grupo normativo en
un test siguen una distribucin normal, un centil concreto Ci dividido entre 100 indica el rea
de la curva normal que queda por debajo de la puntuacin correspondiente.

Por ejemplo, observando la curva normal de la figura, podemos constatar que el C1 es


aproximadamente el centil 10, y deja por debajo un rea de 0,10 de la curva normal; el C2 es
el centil 42, y deja por debajo una proporcin de 0,42 del rea de la curva normal; el C3
10
es aproximadamente el centil 95, y deja por debajo de s un rea de 0,95 de la curva normal
7
,5

C
2

,4

,3

,2
C
1
Pues bien, conociendo la proporcin que queda por debajo de un punto dado de
la distribucin, podemos utilizar la tabla de la curva normal para obtener sin clculos la
puntuacin tpica asociada (Zn), que se denominar puntuacin tpica normalizada.
Indicar el nmero de desviaciones tpicas que una puntuacin se encuentra por encima
(si es positiva) o por debajo (si es negativa) de la media en una distribucin normal.
Por ejemplo, las puntuaciones tpicas normalizadas asociadas a los centiles 1, 26, 57 y
97 son: Centil Centil/100 Zn

1
26 0,01
0,26 -2,33
-0,64
57 0,57 0,18
97 0,97 1,88

Si no se puede asumir racionalmente o no se puede comprobar que las


puntuaciones siguen una distribucin normal, no se puede hacer uso de las tablas de la
curva normal para obtener las Zn. S podran calcularse las puntuaciones tpicas
estndares Zx, ya que no asumimos ningn supuesto sobre la distribucin de los datos.
Si los datos de una muestra se ajustan a la normal, entonces cada Zx de una persona es
similar a su Zn.

10
8
3.3.- PUNTUACIONES TPICAS DERIVADAS

Las puntuaciones tpicas (estndares y normalizadas) tienen dos dificultades formales


para su interpretacin: la posibilidad de asumir valores no enteros y negativos. Con
objeto de superar estas pequeas dificultades, se han propuesto otros baremos, que no
son ms que una transformacin lineal de las puntuaciones tpicas, con lo que no se
alteran las propiedades de la escala tpica. Estas puntuaciones se denominan escalas
tpicas derivadas (si el objeto de la transformacin lineal es una puntuacin tpica
estndar) o escalas tpicas derivadas normalizadas (si suponen la transformacin
lineal de una puntuacin tpica normalizada), siendo las principales las denominadas
como escala T, escala D y estaninos (o eneatipos):

Escala Derivada Derivada y normalizada

Escala T Ti= 50+(10)Zi Tni= 50+(10)Zni


Escala D Di= 50+(20)Zi Dni=
Estaninos 50+(20)Zni Eni=
En definitiva, las puntuaciones T representan una escala
5 + 2 Zcon media 50 y desviacin
ni
tpica 10. As, una puntuacin T = 78 significa que la persona obtiene una puntuacin Zi
= 2.8, es decir, 2.8 desviaciones tpicas por encima de la media del grupo normativo.

Las puntuaciones D suponen una escala con media 50 y desviacin tpica 20. Por
ejemplo, una puntuacin D = 35 indica que la persona obtuvo una puntuacin Zi = -.75, o
lo que es lo mismo, una puntuacin que se encuentra .75 desviaciones tpicas por debajo
de la media del grupo normativo donde se barema el test.

Los estaninos representan otra escala con media 5 y desviacin tpica 2. Una persona
que obtenga el estanino 8 en un test de aptitud espacial indicar que se encuentra 1.5
desviaciones tpicas por encima de la media del grupo normativo.

Consideremos un caso de baremacin de una misma puntuacin en diferentes


escalas. Por ejemplo, a un sujeto que obtiene una puntuacin directa de 30 puntos
en un test de aptitud mecnica con media de 38 puntos y desviacin tpica 4, le
podemos asignar puntuaciones en los siguientes baremos:

Puntuacin tpica: -2
Escala T: 30
10
9
Escala D: 10
Estanino: 1

Todas estas puntuaciones en escalas o baremos diferentes indican lo mismo: que es un


sujeto que se encuentra dos desviaciones tpicas por debajo de la media de grupo
normativo en aptitud mecnica.
La interpretacin de cada una de las escalas tpicas derivadas normalizadas sigue la
misma lgica que su correspondiente escala tpica derivada sin normalizar, haciendo
siempre la salvedad de que la interpretacin hay que referirla a una distribucin normal.

EJERCICIOS

1. Cul es el objetivo de la construccin de


baremos?

2. Un grupo de 200 personas obtuvo en un test de inteligencia una media


de 14.78 puntos y una desviacin tpica de 3.34. La siguiente tabla recoge la
distribucin de frecuencias de las puntuaciones obtenidas por los sujetos en el test:

X 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23
f 2 3 4 11 17 15 23 20 19 23 22 15 8 8 4 5 1

a) Calcule los centiles correspondientes a cada una de las


puntuaciones directas.
b) Calcule las puntuaciones tpicas, puntuaciones T y D que corresponden a sujetos
con puntuaciones directas de 10 y 21 puntos.
c) Suponiendo que la distribucin se adapta a la distribucin de la curva normal, que
puntuaciones tpicas normalizadas y en las escalas derivadas (T, D y E)
corresponderan a esos mismos sujetos.

3. La media de un test es 45 y la desviacin tpica 10. Sabemos que a la


puntuacin directa de 40 le corresponde el centil 21, y que en las tablas de la curva
normal la puntuacin tpica -0,8 deja por debajo de s la probabilidad de 0,21.
Calcule el valor asociado a la puntuacin directa de 40 en las siguientes escalas:

a) Centil.
b) Tpica normalizada (Zn). c) Escala D no normalizada. d) Estanino.

11
0
4. En un test distribudo normalmente, el sujeto A ocupa el centil 20, el B el
centil 40 y el C el centil 60. Por lo tanto, la diferencia entre las puntuaciones directas
de A y B ser la misma que para los sujetos B y C. V ( ) F() Depende ( ).
Razone su respuesta:

5. Las puntuaciones de una persona en tres escalas diferentes han sido: 60, 70
y 80. Diga razonadamente qu puntuacin corresponde a cada escala:

a) La puntuacin en la escala centil es

b) La puntuacin en la escala T es

c) La puntuacin en la escala D es

6. En un grupo normativo se han obtenido los estaninos (normalizados) y


las puntuaciones tpicas normalizadas de cada persona. Entre ambos se obtiene una
correlacin de 1. Diga cul de las siguientes alternativas es correcta y porqu.

a) No es posible esa correlacin. b) Se ha obtenido por casualidad. c) Es


necesariamente 1.
d) Slo es 1 si la distribucin es simtrica.

7. La puntuacin de una persona en un test de inteligencia se encuentra 0,5


desviaciones tpicas por encima de la media del grupo normativo. Obtenga sus
puntuaciones en los baremos Z, T y D.

8. Algunas de las puntuaciones de Juan y Antonio en un examen han sido las


siguientes: Centil Zn En Dn Tn

Juan 95 1,5

Antonio 65

Complete las puntuaciones omitidas.

11
1
9. En un test cuyas puntuaciones se distribuyen normalmente, 5 personas
(numeradas del 1 al 5) obtienen las siguientes puntuaciones en los correspondientes
baremos:

1) Dn = 50 2) Tn = 20 3) En = 5 4) Zn = -3 5) Centil = 90

Site el nmero correspondiente a cada persona en la curva normal

10. Aplicamos un test a un grupo normativo de 350 personas. La


distr ibucin de frecuencias resultante fue:

X 45 44 43 42 41 40 39 38
f 5 15 45 85 90 56 44 10

a) Qu centil, puntuacin tpica y tpica normalizada corresponden a la persona que


obtenga una puntuacin directa de 42?
b) Sabemos que la persona A en la escala T tiene una puntuacin que coincide con
la de la persona B en la escala D. Han podido tener las dos personas la misma
puntuacin en el test?

11. Dos personas tienen exactamente los mismos conocimientos en un examen


de Introduccin a la Psicometra, que consta de 50 preguntas con 4 alternativas de
respuesta y slo una correcta. La primera, una persona poco amante del riesgo,
slo responde a lo que sabe, y obtiene 30 aciertos. La segunda, mucho ms
arriesgada, responde a todas las preguntas.

a) Cantos fallos es previsible que tenga la segunda persona si responde


completamente al azar las preguntas que no sabe? Cul ser su puntuacin
despus de descontarle los aciertos aleatorios?.
b) Obtenga e interprete el estanino en el que se encontrar la primera
persona si su puntuacin tpica normalizada en el examen fue de 1.5.

12. Una persona obtiene una puntuacin Tn = 80 en el baremo de una escala de


autoritarismo realizado en una muestra A. La misma persona obtiene una Tn = 70
en la misma escala baremada en una muestra B. Cul de las dos muestras
manifiesta mayor nivel de autoritarismo? Razone su respuesta.

11
2
ADAPTACIN DE LAS PRUEBAS PSICOLOGICAS

1. Diseo y Elaboracin de los Tests


La elaboracin de las pruebas es un tema complejo que implica la aplicacin de
principios establecidos; la obtencin de una buena prueba no es una cuestin fortuita
sino la respuesta a diversos interrogantes como los que se describen a continuacin:
Qu es lo que la prueba medir segn su diseo?
Cul es el objetivo de la prueba?
Existe necesidad de esta prueba?
Quin usar esta prueba?
Qu contenido abarcar esta prueba?
Cmo se aplicar la prueba?
Cul es el formato ideal de la prueba?
Debera elaborarse ms de una forma de la prueba?
Qu capacitacin especial se requerir de los administradores de la prueba para
aplicarla o interpretarla?
Qu clases de respuestas se requerirn de quienes respondan la prueba?
Cmo se interpretarn los resultados de la prueba?

1.1.Teoras de los Tests

Existen diversos paradigmas o modelos que permiten explicar el significado de las


puntuaciones obtenidas con los Tests. El anlisis o modelado de las matrices de datos
obtenidas da como resultado:

la estimacin del nivel en que poseen los sujetos la(s) caracterstica(s) que
mide el test (valores escalares de los sujetos)

la estimacin de los parmetros de los items (valores escalares de los items).

El problema central de la teora de los tests es la relacin que existe entre:

el nivel del sujeto en la variable inobservable que se desea estudiar y

su puntuacin observada en el test.

11
3
Es decir que el objetivo de cualquier teora de tests es realizar inferencias sobre el
nivel en que los sujetos poseen la caracterstica o rasgo inobservable que mide el test,
a partir de las respuestas que stos han dado a los elementos que forman el mismo.
As para medir o estimar las caractersticas latentes de los sujetos es necesario
relacionar stas con la actuacin observable en una prueba y esta relacin debe de
ser adecuadamente descrita por una funcin matemtica. Las distintas teoras de tests
difieren justamente en la funcin que utilizan para relacionar la actuacin observable
en el test con el nivel del sujeto en la variable inobservable. Y sirven para dar cuenta
del error de medida inherente a toda medicin psicolgica o estimacin del error; y
proporcionar una estimacin del rasgo o caracterstica evaluada (estimacin del rasgo)

a)Teora Clsica de los Tests


La Teora Clsica de los Tests, iniciada por Spearman, sostiene que la puntuacin
observable de una persona en un test es una funcin de dos componentes: su puntaje
verdadero (inobservable) y el error de medicin implcito en la prueba. El TCT (modelo
lineal de la teora clsica) es un modelo de puntuacin verdadera como valor
esperado, esperado como concepto matemtico, probabilstico. Es decir, el puntaje
verdadero de un sujeto en un test sera el promedio aritmtico de las puntuaciones
empricas obtenidas en infinitas aplicaciones (Muiz, 2001).
La Teora Clsica de los Tests (TCT) es, en sntesis, el conjunto de principios tericos
y mtodos cuantitativos derivados de ellos, que fundamentan la construccin,
aplicacin, validacin e interpretacin de distintos tipos de tests y que permiten derivar
escalas estandarizadas aplicables a una poblacin (Hambleton, 1994). Los principios
en que se basa son relativamente simples y se aplican tanto a las pruebas de
desempeo, como a las de aptitud. Durante sus diferentes fases de desarrollo, se han
elaborado procedimientos de anlisis cuantitativo que han sido de gran utilidad,
destacndose en lo general, tres grandes etapas que se identifican por su objeto de
inters primordial, as como por los mtodos cuantitativos y tipos de anlisis tericos
que utilizan.
La primera etapa que Cattell (1986) denomina itemetra, se caracteriza principalmente
por la construccin de pruebas conformadas por reactivos cuyas propiedades
estadsticas eran el centro de atencin principal. Los tests se consideraban como el
producto de la integracin de un conjunto de reactivos cuyas propiedades estadsticas
tenan que ser determinadas antes de que se les incluyera en esa prueba particular.
Esto propici que el concepto de confiabilidad adquiriera prominencia como la principal
virtud de la escala y se meda a partir de la correlacin entre los reactivos individuales
y el instrumento en su conjunto. Si la correlacin era alta, se deca que los reactivos

11
4
eran los adecuados. Sin embargo, con frecuencia resultaba que la correlacin no era
tan buena, y el resultando era que se obtenan reactivos deficientes y la prueba en su
conjunto era de escaso valor. El concepto mismo de confiabilidad implicaba al de error
de la medida y tuvieron que desarrollarse procedimientos distintos para determinar la
confiabilidad del test de una manera ms precisa. Tal fue el caso de los
procedimientos de pruebas paralelas y de divisin por mitades.
La itemetra hizo contribuciones valiosas a la psicologa debido al nfasis que puso en
el anlisis del error. Entre sus contribuciones se encuentran varios conceptos sobre
precisin de la medida, las tcnicas para el tratamiento del error y el uso generalizado
del error estndar de la medida como la medida bsica del error. Adems, dio lugar a
contribuciones tales como las frmulas de Spearman-Brown (Spearman, 1904), Kuder-
Richardson (Kuder & Richardson, 1937), Alfa de Cronbach (Cronbach, 1951) y a varios
principios bsicos de escalamiento, as como al uso generalizado de la curva normal,
el uso de las correlaciones mltiples y la frmula de atenuacin, etc.
La siguiente etapa es la que Cattell (1986) denomina psicometra estructural y se
caracteriza por el uso de las nuevas herramientas estadsticas tales como el anlisis
factorial con sus diversas variantes tcnicas, como un medio para encontrar la
"estructura natural" de las habilidades en el contexto de los factores culturales, la
dotacin gentica, la personalidad, los rasgos, los motivos dinmicos y las
dimensiones que dan lugar a la accin y al comportamiento. Su objetivo primordial no
era como tal, aplicar pruebas, sino determinar la relacin que hay entre los conceptos
clnicos sobre personalidad, y los fundamentos de la investigacin experimental
multivariada (cuantitativa por naturaleza), as como analizar las interacciones
dinmicas entre los rasgos y los estados de la personalidad. Los tests se
consideraban significativos en la medida que armonizaban con los constructos tericos
formulados conceptualmente.
La etapa funcional en el desarrollo de los tests es aquella que "trasciende a las
aplicaciones inmediatas y simplistas que identificaban a las estadsticas con factores
conductuales, y profundiza en las leyes y formulaciones conceptuales del
comportamiento: que relaciona rasgos, procesos y estados psicolgicos con las
mediciones y estrategias estructurales" (Cattell, 1986). Ese tipo de leyes, segn
Cattell, se refieren a las relaciones sistemticas y consistentes obtenidas de los
estudios empricos sobre el desarrollo, en el conocimiento acerca de los rasgos
determinados en forma hereditaria, de los rasgos modificables por las experiencias y el
aprendizaje y de la modulacin de los estados psicolgicos producidos por las
relaciones psicofisiolgicas.

11
5
En resumen, el desarrollo de la teora clsica de los tests ha procedido de etapas
orientadas en forma pragmtica para desarrollar tests y validar reactivos, (donde los
constructos psicolgicos tericos se definan operacionalmente como "aqullo que
mide la prueba x"); hacia etapas conceptualmente ms elaboradas en que los tests se
derivan de teoras del comportamiento ms articuladas y donde cada reactivo tiene un
significado conceptual definido en un contexto terico particular.
Limitaciones de la Teora Clsica de los Tests: De acuerdo a la Teora Clsica de los
Tests (TCT), la elaboracin de pruebas de desempeo mximo involucra la seleccin
de reactivos de acuerdo a su contenido, nivel de dificultad y poder de discriminacin.
Los reactivos ms deseables son los que poseen un nivel mayor de discriminacin. El
nivel de dificultad por su parte, se ajusta de acuerdo a: 1. El propsito de la prueba, y;
2. El criterio preestablecido para el grupo al cual se aplicar la prueba.
Los ndices estadsticos empleados por la TCT no se mantienen constantes cuando se
aplican a poblaciones que difieren en habilidad respecto de la poblacin empleada
para obtener las normas del test. Por lo tanto, el xito de las tcnicas clsicas de
seleccin de reactivos depende de qu tan parecida es la poblacin con la cual se
obtuvieron los ndices respecto de la poblacin a la que se pretenden aplicar. Si la
diferencia es grande, los ndices obtenidos de los tems no sern apropiados para la
poblacin objetivo. En otros trminos, la teora clsica de los tests no puede predecir
cmo responder un individuo a los tems a menos que esos tems hayan sido
previamente administrados a personas similares (Lord, 1980) Durante el trabajo
prctico de elaboracin de tests, normalmente el grupo a partir del cual se obtienen los
ndices y el grupo al cual el test va dirigido, difieren considerablemente.
Un caso especial en el cual los ndices clsicos de los reactivos se obtienen a partir de
grupos que difieren de la poblacin a la que van dirigidos, puede verse al estructurar
bancos de reactivos. Al elaborar un banco de reactivos, las caractersticas de los tems
que van a ser incluidos en el banco, deben ser determinadas. Los tems con
frecuencia denominados "experimentales", se incluyen en un test que es administrado
a un grupo de personas de tal manera que se obtienen como resultado, los ndices de
esos reactivos. Por supuesto, no todos los reactivos experimentales sern incluidos en
un test particular. Por lo tanto, se crean mltiples formas del test, cada uno de los
cuales contiene diferentes reactivos experimentales y las diferentes formas se aplican
a grupos distintos de examinados. Dado que generalmente no es posible asegurar que
las diferentes formas del examen sean administradas a grupos equivalentes, los
ndices de los reactivos experimentales que se aplicaron a grupos distintos no pueden
ser equivalentes (Hambleton & Swaminathan, 1985). Por lo tanto, si los reactivos

11
6
fueron incluidos en el examen bajo el supuesto de que sus ndices eran comparables,
entonces cualquier test construdo a partir de ese banco de reactivos no podr ser
apropiado para ninguna de las poblaciones que pudieran ser seleccionadas en un
momento dado. Por otra parte, an cuando un banco de reactivos se encuentre bien
conformado, otro problema de la TCT es la precisin de la medicin. Y es que en la
teora clsica de los Tests, la contribucin de un tem a la confiabilidad de la prueba no
depende de las caractersticas del reactivo slamente, sino que tambin depende de la
relacin que hay entre el reactivo en cuestin y los otros reactivos del test. Por lo
tanto, no es posible aislar la contribucin de un tem a la confiabilidad de la prueba y
por lo consiguiente, tampoco su participacin al error estndar de la medida
(Hambleton, Swaminathan, & Rogers, 1991).
Finalmente, no obstante que el desarrollo de la teora clsica de los tests lleg, con la
etapa funcional de los tests, a un punto en que la conceptualizacin de los resultados
de los tests, y consecuentemente su proceso de desarrollo, permitan mediante
sofisticados procedimientos estadsticos, sacar a los reactivos de los lmites impuestos
por la prueba en su conjunto, la limitacin terica an permaneca y se haca
necesario un nuevo marco conceptual para salvarlo. Este nuevo esquema para la
conceptualizacin de los reactivos como unidades independientes del test y del grupo
utilizado para normarlo, se obtuvo con la Teora de Respuesta al tem.

b) Teora de la Generalizabilidad
Cronbach y Glaser (1972) postularon la Teora de la Generalizabilidad (TG) que es
una extensin del modelo clsico en el que diversas mediciones del mismo individuo
pueden variar tanto por efecto de una variacin en lo que se mide como por el error de
medicin (Nunnally y Bernstein, 1995). En esta teora las decisiones sobre la bondad
de un instrumento se basan en estudiar las fuentes y tipos de error, utilizando el
anlisis de varianza. Cuando se mide una variable se trata de generalizar los
resultados a un dominio o universo confiable de observaciones. El puntaje del universo
es semejante al puntaje verdadero en el modelo clsico. La diferencia es que en la
TCT se considera que la varianza de error es de una sola clase y, en cambio, la TG
reconoce que existen otros universos de generalizacin y por lo tanto muchos puntajes
de universo posibles. Solo cuando el universo se ha definido podemos afirmar cules
son las fuentes de variacin que producen error. Las diferentes fuentes de error en
esta teora se denominan facetas, trmino que introdujo Cronbach para designar cada

11
7
una de las caractersticas de la situacin de medicin que pueden cambiar de un
momento a otro y, por tanto, hacer variar los resultados obtenidos.
Segn esta teora los puntajes observados solo poseen inters si son representativos
de todos los puntajes posibles de un mismo universo. Poblacin es el conjunto de
personas de las que se extrae una muestra; y Universo es el conjunto de todos los
tems posibles de un constructo; y Universo de Condiciones de Medicin al conjunto
de todas las facetas estudiadas. Las distintas fuentes de variaciones asociadas a las
facetas y a sus interacciones se estima que contribuyen a la varianza de error y
disminuyen la generalizabilidad de los puntajes observados en las personas
evaluadas.

c)Teora de Respuesta al tem


La literatura sobre tests registra en los ltimos 30 aos un desplazamiento progresivo
del esquema proporcionado por la Teora Clsica de los Tests, hacia el contexto y los
procedimientos delineados por la Teora de Respuestas al tem (TRI) [Del ingls: tem
Response Theory - IRT]. Esta teora, fue desarrollada para resolver varios de los
problemas que presentaba la TCT (Hambleton & Swaminathan, 1985) y que no haban
sido resueltos de una manera satisfactoria. Algnos de esos problemas son:
(1) El uso de ndices de los reactivos cuyos valores dependen de la poblacin
particular de la cul fueron obtenidos, y
(2) La estimacin de la habilidad del examinado depende del conjunto especfico de
reactivos incluidos en la prueba.
Es decir, las caractersticas del examinado y las caractersticas de la prueba no
pueden separarse en un instrumento elaborado conforme a los principios de la Teora
Clsica de los Tests; y por el contrario, cada uno slo puede ser interpretado en
trminos del otro. Las caractersticas del examinado en las cuales la teora TRI est
interesada, son la "habilidad" que mide el test. Para la TCT, la nocin de habilidad se
expresa por medio del llamado puntaje verdadero que se define como "el valor
esperado a partir de la destreza observada en la prueba en cuestin" (Hambleton,
Swaminathan, y Rogers, 1991).La habilidad del examinado se define slo en trminos
de una prueba especfica. Si el test es "difcil", el examinado parecer tener un nivel
bajo de habilidad. Si el test es "fcil", el examinado parecer tener un mayor nivel de
habilidad. Y el nivel de dificultad de la prueba se define como "la proporcin de
examinados en el grupo de inters, que contest el reactivo correctamente"
(Hambleton, Swaminathan y Rogers, 1991) Por lo tanto, el que un tem sea difcil o
fcil depende de la habilidad de los examinados a quienes se aplic la prueba y a su

11
8
vez, la habilidad de los examinados depende del nivel de dificultad de la prueba.
De la misma forma, el nivel de discriminacin de los reactivos y los coeficientes de
validez y confiabilidad de la prueba se definen tambin en base a las caractersticas
del grupo particular de examinados. As, las caractersticas del test y de los reactivos
cambian a medida que cambia el contexto de la prueba. Por lo tanto, es muy difcil
comparar examinados a quienes se aplican diferentes tests; o an, comparar tems
cuyas caractersticas se obtuvieron utilizando diferentes grupos de examinados.
Esto significa que los coeficientes de los reactivos son dependientes del grupo al
mismo tiempo que son dependientes del test. Esta clase de dependencia es la que se
trata de eliminar mediante la TRI. Otro problema de la TCT es que es centrada-en-el-
test, ms que centrada-en-el-reactivo. No se toma en consideracin cmo responde el
examinado a un reactivo dado, y por lo tanto, no se tienen bases para determinar qu
tan bien podra desempearse un examinado particular ante un reactivo individual. Es
decir, la TCT no permite hacer predicciones acerca de cmo se comportar un
individuo o grupo particular ante un reactivo dado. Esta posibilidad de prediccin es
importante en una gran variedad de situaciones como por ejemplo, cuando se intenta
predecir el comportamiento de un profesional ante diferentes tipos de situaciones
prcticas.
De acuerdo a Hambleton, Swaminathan y Rogers (1991), las principales
caractersticas de la TRI como una alternativa a la teora clsica de los tests son:
1. Las caractersticas de los reactivos no dependen del grupo del cul fueron
obtenidos;
2. Los puntajes que describen la habilidad del examinado no dependen del test en su
conjunto;
3. El modelo se expresa a nivel del reactivo ms que a nivel del test;
4. El modelo no requiere de pruebas paralelas para determinar el ndice de
confiabilidad; y
5. Provee una medida de la precisin de cada ndice de habilidad.
Los postulados bsicos de la TRI son:
1) El resultado de un evaluado en un tem puede ser explicado por un conjunto de
factores llamados rasgos latentes o aptitudes
2) La relacin entre la respuesta de un sujeto a un tem y el rasgo latente que subyace
puede describirse como una funcin monotnica creciente que se llama funcin
caracterstica del tem o curva caracterstica del tem (CCI) Esta funcin especfica que
a medida que la aptitud aumenta la probabilidad de una respuesta correcta al tem
tambin aumenta.

11
9
3) Las estimaciones de la aptitud obtenidas con distintos tems seran iguales y las
estimaciones de los parmetros de los tems obtenidos en distintas muestras de
examinados sern iguales. Es decir que en la TRI los parmetros de aptitud y de los
tem son invariantes.
La ejecucin de un examinado en una prueba puede ser predichos por un conjunto de
rasgos, rasgos latentes y habilidades; y (2) la relacin entre las respuestas de los
examinados a los reactivos y el conjunto de rasgos que subyacen a la respuesta ante
el reactivo, pueden describirse por una funcin monotnicamente incrementada
llamada funcin caracterstica del reactivo o curva caracterstica del tem (CCI). Esta
funcin especifica que a medida que el nivel del rasgo incrementa, tambin incrementa
la probabilidad de una respuesta correcta ante ese reactivo." (p.7)
Son supuestos de la TRI:
1. La unidimensionalidad del rasgo latente: que las respuestas del examinado estn
determinadas por una nica variable denominada Rasgo. Ej.: Un tem de un test
espacial medir solo habilidad espacial y no ninguna otra cosa (Ferreres Traver, 2005)
2. La independencia local: Las respuestas de un evaluado a cualquier par de tem son
independientes y la probabilidad de responder correctamente a un tem es
independiente de la probabilidad de responder correctamente cualquier otro tem
(Ferreres Traver, 2005).
Existen muchos modelos de la TRI, pero los bsicos son:
- Modelo Logstico de un parmetro o Modelo de Rasch que est medido
en la misma escala que el parmetro zeta que representa el nivel de
habilidad, el parmetro b representa la dificultad del tem. Cuanto mayor
sea el valor de b, ms difcil ser el tem ya que mayor ser el nivel de
habilidad necesario para tener una probabilidad de acertar de 0.5
- Modelo Logstico de dos parmetros o Modelo de Birnbaum que indica
en qu medida el tem diferencia entre examinados con un nivel alto y
bajo de habilidad. Cuanto mayor sea el valor de a, mayor poder
discriminativo del tem, parmetro a que representa la discriminacin
del tem.
- Modelo Logstico de tres parmetros incorpora junto con el a y el b al c
que representa la probabilidad de acertar el tem que tienen las
personas con un nivel de habilidad muy bajo; o parmetro del pseudo
azar.
Para construir una prueba de acuerdo a los principios de la TRI, es necesario construir
un banco de reactivos con parmetros estimados para cada tem, de acuerdo al

12
0
modelo seleccionado. El procedimiento recomendado por Lord (1977) consiste en los
siguientes cuatro pasos:

1. Decidir acerca de la forma deseada de la funcin de informacin de la prueba o


curva de informacin deseada (target information curve).
2. Seleccionar los reactivos del banco cuya curva de informacin deseada cae bajo el
rea de la curva de informacin de la prueba, de tal manera que saturen el rea bajo la
curva de la funcin deseada de la prueba.
3. Conforme se adicionan reactivos a la prueba, se recalcula la curva de informacin
de la prueba con los reactivos seleccionados hasta ese momento.
4. Continuar la seleccin de los reactivos hasta que la funcin de informacin de la
prueba se aproxime a la funcin de informacin deseada con un grado satisfactorio."
(p. 23)
Sin embargo, la TRI no se encuentra libre de problemas y su aplicacin contiene
ciertos puntos riesgosos debido a que el uso de criterios estadsticos para la seleccin
de los reactivos no asegura una prueba con contenidos completamente vlidos.
Deficiencias en los procedimientos de seleccin de los contenidos pueden generar una
prueba con un bajo nivel de validez de contenido (Hambleton, Swaminathan y
Rogers;1991).
Otro problema de la TRI es que cuando se utilizan funciones de informacin de los
reactivos durante el desarrollo de una prueba, es probable que los valores sean
sobrevalorados y por lo tanto, la funcin de informacin podra sesgarse. Una prueba
construida con tems de valores elevados puede ser que no corresponda a los de la
prueba esperada. Como consecuencia, la funcin de informacin de la prueba ser
sobrevalorada y por lo tanto, habr que aadir varios reactivos adicionales para
compensar esta sobrevaloracin.
Sin embargo, una de las ventajas de la construccin de los tests de acuerdo a los
modelos de la TRI es que se pueden elaborar tests individualizados, es decir, a la
medida de los sujetos que permiten inferir en cada uno de los evaluados un verdadero
valor del rasgo de la manera ms precisa.

1.2. Definicin del Dominio del Test


Siguiendo a Tornimbeni et al. (2004) la construccin de una escala de medicin de
algn aspecto del comportamiento humano requiere previamente un exhaustivo
anlisis conceptual del dominio o rasgo a medir. Para estos autores se debe obtener
definiciones conceptuales ajustadas del rasgo en cuestin y decidir cul tipo de

12
1
indicadores operacionales son adecuados para describirlo. Todas las dimensiones
importantes del rasgo estudiado deben incluirse. Si se trata de una prueba para medir
rendimiento, la definicin del dominio puede realizarse delimitando el universo de
situaciones a ser evaluadas. As por ejemplo, en el caso de un examen de Estadstica,
el universo abarcara los objetivos y contenidos del programa de la asignatura. En la
medicin del rendimiento se pueden utilizar pruebas referidas a criterios o referidas a
normas. Los procedimientos de construccin de las pruebas referidas a criterios
difieren de aquellos usados tradicionalmente en las pruebas de rendimiento. Para la
elaboracin de pruebas por normas, se parte de la construccin de una tabla de
especificaciones que es una tabla de doble entrada por medio de la cual se relacionan
los objetivos cuyo logro se desea evaluar con los contenidos especficos
correspondientes. A partir de esta tabla se determina la cantidad de tems que
conformar la prueba y se lleva a cabo su redaccin.
En la construccin de una prueba con referencia a criterios, en cambio, no se realiza
una tabla de especificaciones, sino que se define y delimita el dominio de conductas
correspondientes a cada objetivo. Siguiendo dicha definicin se elaboran los tems que
evaluarn ese dominio de conductas y todos los desempeos individuales sern
referidos a ese dominio. Tal como lo establece Pophan (1975) citado por Tornimbeni
et al.(2004) por dominio debe entenderse el conjunto de conductas que debera
exhibir el alumno en relacin con un objetivo dado, si ste ha sido alcanzado. Es
decir, todas aquellas tareas que el alumno debera poder realizar si el objetivo ha sido
logrado. Para Hambleton y Rogers (1991) citados por los mismos autores, el dominio
puede ser de conductas, objetivos, destrezas y competencias y la amplitud del dominio
vara en funcin de la finalidad del test. Si el dominio comprende ms de un objetivo
pueden construirse subtests para cada objetivo, y se evala el rendimiento de los
sujetos en cada uno de ellos. Para la especificacin del dominio de conductas o clase
de tareas que el individuo debe realizar, seguiremos el esquema propuesto por
Tornimbeni et al (2004) que proponen:
i. Definicin del objetivo: Se establece cul o cules sern los
objetivos que se evaluarn a travs de la prueba, por ejemplo, la
habilidad de comprensin, que incluye aquellas conductas o
respuestas que se refieren nicamente a una comprensin de
los mensajes literales contenidos en la comunicacin.
ii. Descripcin del objetivo: Se define en trminos de conductas
observables el o los objetivos a ser evaluados. En el ejemplo
anterior se especificara un objetivo de la habilidad de

12
2
comprensin tal como ser capaz de analizar el propsito del
autor y su punto de vista examinando una comunicacin escrita.
iii. Especificacin de las caractersticas de la situacin de
evaluacin: se especifican todos aquellos aspectos a tener en
cuenta en la situacin de evaluacin, por ejemplo, en un texto de
divulgacin cientfica, seleccionar el prrafo e identificar la
oracin donde se expresa la intencin del autor.
iv. Caractersticas de la respuesta: Se especifica cul es la
respuesta que se espera del sujeto, en este caso, que
seleccione de manera correcta el prrafo y la oracin
correspondiente.

1.3. Seleccin y elaboracin de las Escalas


La medicin es la asignacin numrica de acuerdo con reglas y las escalas son las
reglas de medicin. La elaboracin de escalas puede definirse como el proceso de
establecimiento de reglas para la asignacin numrica en la medicin. O sea es el
proceso por el cual se disea y calibra un dispositivo de medicin y la forma en que se
asignan nmeros, valores de escala, a diferentes cantidades del rasgo o atributo que
se est midiendo. Al prolfico L. Thurstone se le acredita la adaptacin de los mtodos
de elaboracin de escalas psicofsicas al estudio de variables psicolgicas. Las
escalas son instrumentos usados para medir algo, ese algo en psicometra es un
rasgo o atributo psicolgico. Las escalas pueden clasificarse a lo largo de un
continuo del nivel de medicin y denominarse por su naturaleza como nominales,
ordinales, de intervalo o de razn.
Quienes elaboran las pruebas disean un mtodo de medicin, es decir, hacen la
escala de una prueba, en la forma que creen que se adapta mejor a la manera en que
han conceptualizado la medicin del rasgo o rasgos que son su objetivo. No hay un
nico mtodo para la elaboracin de escalas, el que una escala sea de naturaleza
nominal, ordinal, de intervalo o de razn depender en parte de los objetivos de la
escala y de la legitimidad matemtica de las manipulaciones y transformaciones de los
datos resultantes.
Existen escalas de estimacin que son agrupamientos de palabras, afirmaciones o
smbolos en los que juicios relativos a la intensidad de un rasgo, actitud o emocin
particular es indicada por quien responde la prueba. Un tipo de escala de estimacin
sumatoria, la escala Likert se usa en forma extensa dentro de la psicologa, por lo
general en escala de actitudes. Las escalas Likert son relativamente fciles de

12
3
elaborar, cada reactivo presenta cinco respuestas alternativas, por lo general, en un
tipo de continuo entre acuerdo y desacuerdo o aprobacin y desaprobacin. Las
escalas Likert son confiables, lo cual puede explicar su popularidad. Otro mtodo de
elaboracin de escalas que produce datos ordinales es el mtodo de comparaciones
apareadas. A quienes responden la prueba se les presentan pares de estmulos y se
les pide que los comparen y seleccionen uno por medio de alguna regla. Otra forma de
derivar informacin ordinal por medio de un sistema de elaboracin de escalas implica
tareas de clasificacin. En estos enfoques se presentan tarjetas impresas, dibujos,
fotografas, u otros estmulos y se les pide a los evaluados que los clasifiquen desde
las ms hasta las menos justificables o que los jerarquicen. Todos los mtodos
anteriores producen datos ordinales, el mtodo de intervalos aparentemente iguales
descripto por Thurstone es un mtodo de elaboracin de escalas para obtener datos
que se supone son de intervalo.
El mtodo de elaboracin de escalas particular empleado en la elaboracin de un test
depender de las variables que se van a medir, el grupo para el que se pretende la
prueba (por ejemplo los nios pueden requerir un mtodo de elaboracin de escalas
menos complicado que los adultos) y las preferencias del elaborador de la prueba.

1.4. Redaccin de tems


Segn lo afirman Tornimbeni et al. (2004) existen pautas convencionales para la
redaccin de tems de prueba. Estas incluyen recomendaciones tales como: redactar
tems congruentes con el objetivo de medicin y evitar los tems demasiado largos (de
ms de 20 vocablos), las oraciones complejas con ambigedades de sentido, las
frases con dobles negaciones, el uso de expresiones extremas (nunca, siempre,
todos) y utilizar el lenguaje ms apropiado al nivel de maduracin y educativo de la
poblacin (Osterlind, 1990). Para Nunnally (1991) los dos errores ms comunes en la
redaccin de tems son: a) ambigedad (preguntas difusas que admiten varias
respuestas) y b) trivialidad (centrarse en aspectos poco importantes del rasgo o
dominio en cuestin)
Existen formatos de seleccin de respuesta y de construccin de respuesta, los
primeros facilitan la calificacin automatizada y pueden aplicarse con facilidad a gran
cantidad de evaluados. El formato de seleccin de respuesta en presentar una
eleccin de respuestas y requerir la seleccin de una alternativa. Existen tres tipos: los
tem de opcin mltiple, los tem de relacin y los tem de verdadero/falso. Un reactivo
de opcin mltiple consta de tres elementos un enunciado o base del tem, una

12
4
alternativa u opcin correcta o clave y varias alternativas u opciones incorrectas
llamadas distractores.

1.5. Revisin del Test por Expertos


Tal como lo explican Tornimbeni et al. (2004), la mayora de los autores recomiendan
que los items preliminares de un test sean revisados por expertos en construccin de
pruebas, en el dominio o rasgo a medir y en el nivel de comprensin de la poblacin a
la cual se apunta con la prueba.
Las tres caractersticas que los expertos deben evaluar en cada tem son:
a) claridad semntica y correccin gramatical
b)adecuacin de su dificultad al nivel educativo y evolutivo de las personas
c) congruencia con el rasgo o dominio medido
Este ltimo tem es el principal parmetro y se refiere al grado de consistencia que
debe existir entre un tem particular y las metas esenciales de la prueba dado que esto
ser un factor posterior de confiabilidad y validez (Oesterlind, 1990). A los jueces se
les pide que evalen la calidad y consistencia de los items y se descartan aquellos con
puntuaciones medias ms bajas y con escaso grado de acuerdo, respectivamente. Se
recomienda que los tem seleccionados sean aquellos en que, al menos, un 60% de
los jueces coinciden (Herrera Rojas, 1993) Es til tambin incluir preguntas que
demanden informacin cualitativa sobre los tems lo que puede facilitar un
mejoramiento en el fracaso de algunos de ellos.

1.6. Anlisis y Seleccin de tems


Siguiendo a Tornimbeni et al. (2004) podemos afirmar que existen varios
procedimientos de anlisis de los tems de una prueba preliminar. Todos ellos se
ocupan esencialmente de: a) la distribucin de los puntajes de cada tem y b) la
relacin estadstica entre el tem y la prueba total. Tal como lo plantean los autores
mencionados, el primer paso para obtener informacin psicomtrica sobre los items de
pruebas homogneas consiste en administrar los elementos preliminares a una
muestra amplia (superior a 300 sujetos) que sea representativa de la poblacin que se
quiere evaluar en la prueba final. Para descartar los tems que no funcionan bien debe
contarse con una cantidad de sujetos por lo menos cinco veces superior al nmero
inicial de reactivos y aproximadamente el doble de tem de los que aparecern en la
versin definitiva de la medida. La determinacin del numero muestral necesario para
realizar anlisis de tem y los estudios de validez y confiabilidad de un test es un punto
conflictivo debido a las dificultades existentes para seleccionar participantes en

12
5
determinados contextos de aplicacin de la psicologa o con determinadas
poblaciones. El ideal, coincidiendo con los autores mencionados, ronda entre los 300 a
400 sujetos para estudios correlacionales pero este nmero no es condicin suficiente
de buenos ndices psicomtricos (por ejemplo un alfa superior a .80). Existen otros
factores intervinientes como el entrenamiento de los evaluadores o la heterogeneidad
de la muestra que pueden incrementar los valores de confiabilidad y validez y
compensar tamaos maestrales inferiores al estndar mencionado (Pajares, Hartley y
Valiente, 2001).
El procedimiento ms empleado en el anlisis inicial de reactivos es la correlacin de
cada uno de ellos con el puntaje total de la prueba. Si el test consta de diversas
subescalas, cada tem debe correlacionarse con el puntaje total de esa parte, no con
el puntaje total de la prueba. El estadstico usual es el producto momento de Pearson (
r ) o correlacin punto biserial si se trata de tem dicotmicos (si/no, verdadero/falso).
Los tem con correlaciones no significativas o bajas (inferiores a .30) se eliminan o se
revisan y se conservan los menos ambiguos, ni fciles ni dificultosos y ms
relacionados con el constructo (Nunnally y Bernstein, 1995). Cuando hay items con
varias alternativas de respuesta es aconsejable obtener las correlaciones de cada una
de las alternativas con el puntaje de la prueba total, sobre todo en aquellos de
correlacin baja o negativa. Los mejores distractores sern aquellos que obtengan
correlaciones negativas con los puntajes de la prueba, es decir, que sean
seleccionados por quienes tienen puntajes bajos en la prueba (Herrera Rojas, 1993). En
las pruebas de habilidades (tems dicotmicos) es importante conocer el ndice de
dificultad de cada tem, o sea el porcentaje de personas que responden
acertadamente al reactivo analizado. El ndice de dificultad de los reactivos tiene un
rango de 0 a 1 y se simboliza como p. Un reactivo cuyo p es 0 est indicando que
ningn sujeto contest correctamente y un reactivo con p igual a 1 es aquel que todos
los sujetos respondieron correctamente. El valor ptimo de p para un reactivo depende
de varios factores, tales como los objetivos de la prueba y la cantidad de alternativas
de respuesta. Si el propsito del test es identificar slo un porcentaje reducido de los
mejores postulantes para un empleo, por ejemplo, entonces los items de la prueba
deberan ser lo suficientemente difciles y tener un valor medio-bajo de p. Para
pruebas convencionales de habilidades se recomiendan valores p entre .20 y .80
(Aiken, 2003)
La proporcin de acierto de un tem es un estimador adecuado de la dificultad de un
tem. Sin embargo, esta informacin hay que complementarla con la distribucin de
frecuencias en todas las opciones de respuesta (en elecciones mltiples) y las

12
6
estimaciones de proporcin para diferentes rangos de puntuacin en la prueba total.
En escalas con formatos tipo Likert, los reactivos donde la mayora de los evaluados
responde con las mximas o mnimas categoras (p.ej. 1 o 10) indican que tales items
carecen de suficiente dificultad (atractivo) o son excesivamente difciles para los
evaluados. Con la misma lgica deben eliminarse los reactivos donde la mayora de
los sujetos de la muestra obtiene el mismo puntaje puesto que tales elementos de
prueba no discriminan entre los evaluados (Bandura, 2001)
Las pruebas referidas a criterios, como explica Martnez Arias (1995) se evalan y
seleccionan los items de una forma particular, diferente a las pruebas referidas a
normas. El anlisis se realiza comparando los resultados de un grupo antes de aplicar
un programa de aprendizaje y despus del mismo, o comparando dos grupos
similares, uno de ellos, que recibi capacitacin y el otro no. Al calcular el ndice de
dificultad los resultados esperados son, items con alta dificultad para los grupos que
no han pasado por el proceso de aprendizaje, y baja dificultad para los que han sido
sometidos al proceso de instruccin. En cuanto al ndice de discriminacin, obtenido
por la comparacin entre grupos, se espera mxima discriminacin entre los grupos y
mnima entre los individuos de un mismo grupo.
Una vez realizada la aplicacin de la prueba piloto y habiendo obtenido resultados
estadsticos sobre el comportamiento de cada tem se podrn tomar decisiones sobre
cules de ellos deben integrar la forma final del test y hacer estimaciones de su
confiabilidad y validez mediante algunos de los procedimientos ya conocidos.
La lgica de este proceso de anlisis es obtener pruebas lo ms homogneas
posibles, es decir, donde todos los reactivos se relacionen con un ncleo comn de
medicin que es el constructo o dominio, informacin que se obtiene aplicando a los
reactivos de una escala el coeficiente alfa de Cronbach, por ejemplo. El conjunto de
tems seleccionados despus de examinar la correlacin tem-total de cada uno, es
analizado con este procedimiento de homogeneidad (alfa o KR-20) y debemos
asegurarnos valores de.80 o superiores. Los tems con correlaciones bajas con el
puntaje total se pueden remover para incrementar el valor del alfa. Si bien un
coeficiente alfa elevado es una condicin necesaria de unidimensionalidad esta
propiedad solo es garantizada por el anlisis factorial (Goldberg, 1999)
El paso decisivo para asegurar la unidimensionalidad de cualquier escala homognea
y el primer paso en un conjunto inicial de tem heterogneos (sin un explcito marco
terico previo) es el anlisis factorial (Martnez Arias, 1995). El anlisis factorial es
esencialmente un mtodo para agrupar las variables que se correlacionan fuertemente
entre s y cuyas correlaciones con las variables de otros agrupamientos es menor

12
7
(Airen, 2003). Segn Klline (2000) el anlisis factorial es un mtodo estadstico en el
cual las variaciones en los puntajes de un nmero de variables son explicadas por un
nmero ms reducido de dimensiones o constructor (factores). El anlisis factorial es
una tcnica analtica que permite reducir un nmero extenso de variables
interrelacionadas a una cantidad pequea de dimensiones latentes. (Glutting et al.
2002)
Una distincin inicial importante es la que debe realizarse entre anlisis factorial
exploratorio y confirmatorio. En el primero se extraen factores sin una estructura
terica previa conjeturada de modo explcito. En cambio el enfoque confirmatorio, los
factores son definidos a priori en base a un modelo terico y en este caso, el anlisis
intenta verificar qu tan bien se adaptan los datos observables a ese modelo.
Antes de realizar un anlisis factorial debe determinarse si los items estn
suficientemente interrelacionados. Existen algunas pruebas estadsticas que pueden
emplearse con esa finalidad. Unas de las ms empleadas son el test de esfericidad de
Bartlett y la medida de adecuacin del muestreo de Kaiser-Mayer-Olikin que se
interpreta de manera semejante al coeficiente de confiabilidad, es decir, con un rango
de 0 a 1 y considerando los valores superiores a .80 como muy adecuados. Si es as,
se puede aplicar el anlisis factorial en sus diferentes variantes.
Los principales mtodos exploratorios para extraer factores son: Anlisis de
Componentes Principales, Ejes Principales y el de Mxima Probabilidad. Este ltimo
muy usado por representar un enfoque estadstico inferencial en psicometra. El
mtodo PC explica la mayor cantidad de varianza posible en los datos observados y
es por consiguiente un mtodo ms descriptivo que inferencial. El mtodo de ejes
principales es anlogo al anterior para los mismos fines.
El anlisis factorial debe realizarse sobre muestras extensas no inferiores a 300
sujetos para obtener datos tiles. Adems se debe contar idealmente con 10 veces el
nmero de sujetos por variable o al menos 5 veces ese nmero (Nunnally, 1991). La
seleccin del nmero correcto de factores es una de las decisiones ms dificultosas
del anlisis factorial. Luego de extraer los factores iniciales, se realiza un
procedimiento de rotacin que permite eliminar los pesos negativos importantes y
reducir el nmero de cargas factoriales de cada variable en los diversos factores
(Anastasi, 1998). Las rotaciones colocan a las variables ms cerca de los factores
diseados para explicarlas, concentran la varianza de las variables en menos factores
y, en general, proporcionan un medio para facilitar la interpretacin de la solucin
factorial obtenida. Los factores rotados explican la misma varianza que el conjunto de
los factores (no rotados) pero la estructura de las cargas factoriales se modifica y son

12
8
ms simples de interpretar, debido al aumento de las cargas positivas extremas (bajas
y altas).
La tarea final del anlisis factorial es interpretar y nominar los factores. Esto se logra
inspeccionando el patrn de cargas factoriales bajas y altas de cada variable sobre los
distintos factores y mediante el conocimiento que se posea de las variables
implicadas. Cuando los factores obtenidos estn correlacionados es posible someter
sus correlaciones al mismo anlisis estadstico que utilizamos con las correlaciones
entre tems. Podemos realizar un anlisis factorial de los factores obtenidos por
rotacin oblicua y derivar factores de segundo orden o superior, es el caso del 16 PF
donde los factores iniciales son 16 pero un nuevo anlisis reduce el modelo a 5
factores de segundo orden asimilables al modelo de cinco grandes factores del
Inventario NEO-PIR.
En el enfoque psicomtrico actual, el anlisis factorial se utiliza ms como estrategia
confirmatoria de un modelo terico previo, en especial, dentro del marco metodolgico
del Modelo de Ecuaciones Estructurales. De modo contrario se corre el riesgo de
obtener estructuras puramente empricas dependientes de la muestra escogida y no
replicables con facilidad.
Estas estrategias analizadas son congruentes con la Teora Clsica de los Tests. El
anlisis desde el enfoque de la Teora de Respuesta al tem emplea estrategias tales
como: discriminar distintos niveles del rasgo medido, asegurar la homogeneidad
mediante los ndices de discriminacin o minimizar el funcionamiento diferencial de los
tems de prueba (Goldberg, 1999). En este momento se pueden complementar ambos
criterios los de la TCT y los de la TRI como etapa de transicin ante los nuevos
desarrollos de esta ltima.

2. ADAPTACIN DE LOS TESTS


2.1. Mtodos de Adaptacin de los Tests
Actualmente se reconoce que la adaptacin de un Test es un proceso mucho ms
complejo que la mera traduccin de ese test en un idioma diferente. Una adaptacin
implica considerar no slo las palabras utilizadas al traducir la prueba sino tambin las
variables culturales involucradas. La traduccin del ingls al espaol del siguiente tem
del NEO PIR I wouldnt enjoy vacationing in Las Vegas por No disfrutara tomando
vacaciones en Las Vegas es correcta. Sin embargo, este tem probablemente tenga
un significado distinto ara muchas personas en Argentina que para los
estadounidenses y, probablemente, el significado sea mucho ms diferente en culturas
no occidentales. As una correcta traduccin no asegura un significado unvoco. Van

12
9
de Vijver y Leung (1997) establecieron tres niveles de adaptacin de las pruebas
psicolgicas. El primero corresponde al de la aplicacin, este es, la simple y llana
traduccin de un test de un idioma a otro Este mtodo asume la equivalencia de
constructo. Desafortunadamente, es el mtodo ms comn y ms utilizado en todo el
mundo. Como se indicara anteriormente la sola traduccin de una prueba no nos
indica ningn nivel de equivalencia entre ambas versiones de la misma.
La segunda alternativa es la adaptacin. En este caso a la traduccin se agrega la
transformacin, adicin o substraccin de algunos tems de la escala original. Como se
explic, algunos tems pueden cambiar su significado a travs de las culturas y, por lo
tanto, necesitan modificaciones o ser eliminados. As mismo tems que no existen en
la versin original del test pueden representar mejor al constructo en la poblacin en la
cual se administrar la nueva versin. Baldo (2000) al realizar una baremizacin del
WISC III en Crdoba encontr que el nivel de dificultad original de los tems
pertenecientes a los subtests Comprensin, Vocabulario e Informacin no eran
aplicables a la poblacin Argentina, por lo que propuso un nuevo ordenamiento de los
tems. Este es un ejemplo de adaptacin sin adicin o substraccin de tems.
Finalmente, la opcin ensamble puede emerger al momento de adaptar un instrumento
de evaluacin psicolgica. En este caso el instrumento original ha sido modificado tan
profundamente que prcticamente se ha transformado en un nuevo instrumento
original con los nuevos elementos. Esto ocurre cuando muchos de los tems del test
original son evidentemente inadecuados para representar el constructo a medir. Esto
sucede en tests de denominacin confrontacional, utilizados en neuropsicologa,
donde se utilizan lminas con dibujos de objetos que el evaluado debe nombrar. Estos
objetos tienen distinta frecuencia de observacin en la vida diaria de un sujeto y por
ello van a variar considerablemente de una cultura a otra. Es el caso de la adaptacin
Argentina del Test de Denominacin de Boston (Allegri et. Al 1997). En la versin
original la figura de una bellota est ubicada en el lugar nmero 32 mientras que en la
versin Argentina tal lmina se encuentra sobre el final en el nmero 50. El ensamble
tambin se da cuando el constructo no est representado de forma adecuada por la
versin original en la cultura a la que se quiere adaptar la prueba. Los abordajes
indigenistas de la medicin de la personalidad, por ejemplo, han promovido el diseo
de tests distintos para abarcar aspectos de la personalidad no contemplados en las
teoras occidentales. Tal es el caso del Inventario Chino de Evaluacin de la
Personalidad, que contiene dimensiones indigenistas de la personalidad tales como
armona.

13
0
2.2. Tcnicas de Traduccin
El proceso de traduccin es complejo e implica mas que la traduccin lineal de las
palabras escritas a un nuevo lenguaje. Existen dos mtodos comunes: la traduccin
directa o forward translation y la traduccin inversa o backward translation. En el
mtodo de traduccin directa un traductor, o preferentemente, un grupo de
traductores, traducen el test desde el idioma original al nuevo idioma. Luego, otro
grupo de traductores, juzga la equivalencia entre las dos versiones. De este modo
pueden realizarse las correcciones pertinentes en las dificultades o errores
identificados por los traductores. En el caso de la traduccin inversa, l mas utilizado
de los mtodos, un grupo de traductores realiza una traduccin desde el idioma
original al nuevo idioma; luego un segundo grupo de traductores toma el test traducido (
en el nuevo idioma) y vuelve a traducirlo al idioma original. Seguidamente se realizan
las comparaciones entre la versin original y la versin retraducida al idioma original
para determinar su equivalencia. Ambos mtodos poseen diversas ventajas y
desventajas, se ejemplifica la metodologa utilizada para la traduccin de instrumentos
con el caso de la prueba CPI- 434 que actualmente se encuentra en desarrollo.

2.3. Mtodos para establecer la Equivalencia entre Tests


Una vez que se ha traducido convenientemente una prueba es necesario realizar un
estudio para establecer si esta traduccin en la prueba es equivalente a la original.
Para ello habr de implementarse un diseo experimental y un anlisis de datos
obtenidos a travs de ese diseo. Hambleton ( 200) seala que existen bsicamente 3
mtodos.
1)Administracin de la prueba en el idioma original y de la prueba traducida a sujetos
bilinges: En este caso se le administrara ambas versiones de la prueba ( la original y
su traduccin al nuevo idioma) a sujetos que hablan ambos idiomas. Si por ejemplo,
deseamos traducir el test de Inteligencia de Wechsler para Adultos, Versin III desde
el ingles al Espaol, administraremos la versin en Ingles y la versin en Espaol a los
evaluados que hablen ambos idiomas. Este mtodo segn Hambleton, posee ventajas
y desventajas. Entre las primeras se pueden mencionar que pueden controlarse las
diferencias de las caractersticas de los participantes en el test ( por ejemplo su
habilidad) ya que ambas pruebas son administradas a la misma persona. Entre las
desventajas, este autor que este diseo esta basado en la premisa de que los sujetos
son igualmente competentes en ambos idiomas, lo cual es difcil de sostener. Es
probable, entonces, que puedan observarse diferencias entre ambas versiones debido
a una menor capacidad de algunas personas para entender los tems en alguno de los

13
1
dos idiomas. La segunda gran desventaja de este diseo es que no puede asegurarse
que los bilinges posean el mismo nivel de competencia que la poblacin general. Por
el hecho de conocer otro idioma es probable que se trate de personas con una mayor
capacidad intelectual o mejor educacin. Hambleton, tambin seala una variacin de
este mtodo que conserva las misma ventajas y desventajas pero que es ms fcil de
implementar. La misma consiste en administrar al azar una ( no ambas) de las
versiones del test ( en espaol o en ingles) a los participantes bilinges.
2)Administracin de la versin original y su traduccin inversa a monolinges en el
idioma original: Siguiendo nuestro ejemplo anterior, planteado por las autoras (
Tornimbeni et. Al. 2004) se le administrara la versin original del WAIS III y la
versin obtenida de la traduccin inversa a sujetos cuyo idioma natal es el ingles. La
equivalencia de los tems se determina comparando el desempeo de cada sujeto en
cada tem de ambas versiones. Nuevamente, la ventaja esta en el control de las
diferencias en las caractersticas de los participantes. La primer gran desventaja esta
en que este diseo no permite obtener datos con la versin en el idioma meta ( target)
del test ( espaol en el ejemplo). De esta manera no es posible obtener puntajes de
sujetos que hablen el idioma al que se intenta traducir el test. La segunda gran
desventaja de este diseo reside en el hecho de la posible falta de independencia
entre los puntajes obtenidos ya que es probable que exista un efecto de aprendizaje
luego de la administracin de la primer versin de la prueba, especialmente si la
primera es la original. La administracin al azar de una de las versiones en el primer
lugar puede reducir la importancia del efecto de aprendizaje.
3)Administracin de la versin original a monolinges que hablan el idioma original y
de la versin traducida a monolinges que hablan el idioma al que ha sido traducida la
prueba: Siguiendo con el ejemplo enunciado por Tornimbeni et. Al (2004), se
administrara la versin en ingles del WAIS III a evaluados cuyo idioma natal es el
Espaol. Una posible dificultad reside en asumir que los sujetos de ambas muestras
poseen una habilidad comparable. sin embargo, Hambleton sugiere que tal obstculo
puede superarse si los anlisis son desarrollados con la Teora De Respuesta al tem,
en la cual se asume que utilizando distintos conjuntos de tem pueden obtenerse las
mismas estimaciones de aptitud . Igualmente, administrando esos tem a distintas
muestras de examinados las estimaciones de parmetros obtenidas sern iguales.
Una vez obtenidos los datos por medio de los diseos revisados existen varias
posibilidades estadsticas para su anlisis. Bsicamente el anlisis estar destinado a
identificar la existencia de Funcionamiento Diferencial de items ( FDI) es decir, tem
que se comportan en forma diferente a travs de las diversas muestras transculturales.

13
2
Por ejemplo, en las investigaciones citada de Tanzer ( 1995) en donde el investigador
le administro dos cuestionarios sobre autoconcepto acadmico de lectura y
matemticas. En los resultados pudo observarse que a pesar de que la prueba
mostraba la misma estructura factorial para ambos grupos culturales, cuando las
escalas de los tems de competencia/ facilidad se trabajaban en forma individual
podan observarse grandes diferencias entre ambos grupos culturales. El autor
especulo con que tal diferencia s deba a un factor cultural de modestia, la cual es
una virtud deseable dentro de la cultura de Singapur, fuertemente influenciada por la
cultura china. As, los singaporeanos eran ms renuentes a mostrar una actitud
autoelogio o jactancia. Esta investigacin adems, de ser un ejemplo de FDI, muestra
tambin la insuficiencia de comparar las estructuras factoriales de las pruebas cuando
son aplicadas transculturalmente. Como puede observarse en estos resultados, es
necesario siempre realizar un anlisis de (FDI) ya que a pesar de conservar una
misma estructura factorial un grupo puede mostrar valores mucho ms bajos que otro
en determinados tem.
Existen diversos mtodos en los que se puede analizar el comportamiento de los
tems. Algunos mtodos dentro de la TCT tales como los mtodos de suma de chi-
cuadrado o el de Mantel y Haenzel que fuera adaptado para el FDI por Holland y
Thayer ( 1988) y que es en la actualidad l mas utilizado a estos fines. El anlisis
puede desarrollarse dentro de la TRI en donde el mismo se centrara en las
probabilidades que tiene una persona con un determinado nivel de habilidad de
contestar un tem en forma correcta. El modelo de Rasch, de un solo parmetro es l
ms popular.

2.4 Fuentes de Sesgo


Si deseamos usar las pruebas para predecir resultados en alguna situacin futura
como por ejemplo en el desempeo de un aspirante a la universidad, necesitamos
instrumentos con alta validez predictiva del criterio particular. Este requisito suele
descuidarse en el desarrollo de las llamadas pruebas libres de influencia cultural. En
un esfuerzo por incluir en esas pruebas solo las funciones comunes a diferentes
culturas o subculturas, puede elegirse un contenido que tenga poca relevancia para el
criterio que se pretenda predecir. Una mejor solucin es elegir un contenido relevante
para el criterio e investigar luego las posibles diferencias poblacionales de la
efectividad de la prueba para el propsito pretendido.
Desde mediados de la dcada de los setenta se ha observado una rpida
acumulacin de investigaciones sobre problemas de sesgo de la prueba. En este

13
3
contexto, el termino sesgo se emplea en su bien establecido sentido estadstico,
para desganar un error constante o sistemtico en contraste con uno que se debe al
azar. Las principales preguntas que se han planteado con respecto al sesgo de la
prueba tiene que ver con el coeficiente de validez ( sesgo de la pendiente) y la relacin
entre las medias del grupo en la prueba y en el criterio ( sesgo de interseccin). Si una
prueba produce un coeficiente de validez significativamente diferente en dos grupos, la
diferencia se describe como sesgo de la pendiente y esta clase de diferencia entre
grupos se conoce como validez diferencial. Una prueba exhibe sesgo de
interseccin si sistemticamente subpredice o sobrepredice una ejecucin del criterio
para un grupo particular.
El problema del sesgo de la interseccin se relaciona mas con lo que ha sido llamado
equidad de la prueba. Aunque los trminos equidad y sesgo de la prueba a veces
se usan indistintamente para cubrir todos los aspectos del uso del instrumento con
minoras culturales.
Modelos de decisin para el uso justo de las pruebas:
Gradualmente empez a cambiar el inters de la investigacin en la evaluacin del
sesgo de las pruebas al diseo de estrategias de seleccin para su uso justo con
minoras culturales. Entre las metas por reconciliar estn las de proporcionar iguales
oportunidades a todos los individuos , elevar al mximo la tasa del xito y la
productividad, incrementar la mezcla demogrfica y la representatividad y extender el
tratamiento preferencial a grupos desfavorecidos por inequidades anteriores.
Van de Vijver y Tanzer ( 1997) identificaron diferentes fuentes de sesgo , que a
continuacin se explicitan:
a) Sesgo de constructo:
Este tipo de sesgo se da cuando el constructo medido no es idntico a travs de los
grupos culturales... ( p.p. 264, Van de Vijver y Tanzer, 1997). La importancia que cada
cultura otorga a ciertas conductas se encuentra en esta categora. Conductas de tica
y civismo que en algunas sociedades pueden ser normales en otras pueden constituir
un verdadero rasgo de rigidez y asemejarse a una conducta obsesivo compulsivo.
b) Sesgo metodolgico:
Este sesgo reconoce tres formas.
El sesgo de muestra: que se da cuando las muestras son incomparables entre si. La
cantidad de aos de escolaridad que poseen los sujetos de una muestra es una
variable determinante en el desempeo del mismo en un test determinado,
especialmente si se trata de un test de habilidad. El nivel sociocultural, la motivacin,
la composicin por genero y edad de los sujetos son otras variables que pueden hacer

13
4
incomparables a dos muestras que pueden mostrar resultados muy diferentes en un
test determinado.
El sesgo en el instrumento: que puede provenir de las caractersticas del instrumento.
La familiaridad que los sujetos tienen con los estmulos presentados tiene una gran
importancia. Algunos estmulos tales como objetos, dibujos, figuras u otros elementos
utilizados en algunas culturas no existen en otras o son irrelevantes. El tem de
ejemplo en el Sub. Test de Ordenamiento de lamina WISC III que muestra a una mujer
frente a una maquina expendedora de latas de gaseosa tiene muy poco valor en
culturas rabes, por ejemplo, o en zonas rurales de nuestro pas. El idioma es otra
fuente de sesgo de instrumento. La traduccin de un idioma a otro frecuentemente
subestimada, es un problema importante que requiere una metodologa especifica a
seguir. Los problemas son mayores cuanto mas diferencias hay entre idiomas como
entre el ingles y el chino o el rabe, idiomas cuya lectura se realiza de izquierda a
derecha a diferencia del de derecha a izquierda. Tambin la disposicin del texto tiene
importancia en el completamiento de frases o de interpretacin de textos, mayor es el
problema cuando implican conectar letras y nmeros siguiendo un orden alfabtico o
numrico y los caracteres de idiomas como el espaol, ruso, griego. rabe, hebreo o
chino son tan diferentes. Tambin entre los idiomas occidentales existen diferencias
como que en ingles no existe la que el alfabeto sueco contiene mas vocales, y en
portugus existen distintos tipo de a. Los mtodos de respuesta constituyen otra
fuente de sesgo del instrumento. Las laminas de respuestas del Test de Matrices
Progresivas de Raven que implica completar una secuencia lgica con una figura
opcional, incluyen la figura faltante al final de la segunda fila, con lo que asume una
lectura de izquierda a derecha. Este hecho fue demostrado por Carpenter, Just y Shell (
1990) en un muy preciso estudio que implica una serie de desventajas para los
sujetos de las culturas rabes quienes involuntariamente van a intentar resolver la
prueba de derecha a izquierda, forma en que se lee su idioma.
El sesgo de administracin: incluye problemas tales como dificultades en la
comunicacin, es decir, dificultades para que el entrevistado entienda las instrucciones
del entrevistador ya sea por la dificultad de las palabras utilizadas, el modo de
explicacin de las instrucciones o un inadecuado manejo del idioma de alguna de las
partes. Tambin se incluyen las alteraciones en la manera de administrar las pruebas.
Normalmente los manuales incluyen instrucciones de administracin que en muchos
casos no son adecuadas para la poblacin a aplicar. Los administradores del Test
entonces adaptan esas instrucciones segn su criterio personal. Otro punto importante
es el uso de cronmetros que produce serias alteraciones en los resultados.

13
5
Sesgo de tem: Se produce cuando el mismo tiene diferentes significados en distintas
culturas. Ciertos grupos culturales pueden obtener puntajes significativamente
distintos en un tem determinado a pesar de obtener un puntaje total similar. La
deseabilidad social o la relevancia cultural, entre otros factores, pueden producir el
sesgo de tem. Tanzer ( 1995) demostr que aunque la estructura factorial de un Test
de autoconcepto acadmico era similar cuando se lo aplico a estudiantes australianos
y singaporeanos, existan diferencias sustanciales entre estas muestras cuando se
compararon algunos tem especficamente. Este tipo de sesgos tambin acta en test
neuropiscologicos.

ADAPTACIN DE TESTS DE UNA CULTURA A OTRA


Directrices para la traduccin Adaptacin de los Test

1 .Contexto
C1. Los efectos de las diferencias culturales que no sean relevantes para los objetivos
centrales del estudio deberan minimizarse en la medida de lo posible.
C2. Debera de evaluarse la cuanta del solapamiento de los constructos en las
poblaciones de inters.

2. Adaptacin de los tests


D1. Los constructores/ editores de tests deberan de asegurarse que el proceso de
adaptacin tiene en cuenta las diferencias lingsticas y culturales entre las
poblaciones a las que se dirigen las versiones adaptadas de los tests.
D. 2. Los constructores / editores de los tests deberan de proporcionar datos que
garanticen que el lenguaje utilizado en las instrucciones, en los propios tem y en el
manual del tests, son apropiados para todas la poblaciones culturales e idiomticas a
las que va dirigido el tests.
D. 3. Los constructores / editores de tests deberan de aportar evidencia de que las
tcnicas de evaluacin elegidas, los formatos de los tems, las reglas de los tests y los
procedimientos son familiares a todas las poblaciones a las que van dirigidos.
D. 4. Los constructores / editores de tests deberan de facilitar evidencia de que el
contenido de los tems y los materiales de los estmulos son familiares a todas las
poblaciones a las que van dirigidos.
D. 5. Los constructores / editores de tests deberan de aportar una justificacin
racional sistemtica, tanto lingstica como psicolgica, para mejorar la precisin del
proceso de adaptacin, as como reunir datos acerca de la equivalencia de todas las
versiones en los distintos idiomas.
13
6
D.6. Los constructores / editores de tests deberan de asegurarse que el diseo de
recogida de datos permite el uso de tcnicas estadsticas apropiadas para establecer
la equivalencia entre los tems correspondientes a las diferentes versiones idiomticas
del test.
D. 7. Los constructores / editores de tests deberan aplicar tcnicas estadsticas
apropiadas para 1) establecer la equivalencia entre las diferentes versiones de un test,

y 2) identificar componentes problemticos o aspectos del test que puedan ser


inadecuados para alguna de las poblaciones a las que va destinado el test.
D. 8. Los constructores / editores de tests deberan de proporcional informacin sobre
la evaluacin de la validez en todas las poblaciones objetivo a las que va dirigido el
test adaptado.
D. 9. Los constructores / editores de tests deberan de aportar datos estadsticos
sobre la equivalencia de los tests para todas las poblaciones a las que van dirigidos.
D. 10. No deben utilizarse preguntas no equivalentes en todas las versiones dirigidas
a diferentes poblaciones cuando se prepara una escala comn, o cuando se comparan
estas poblaciones. Sin embargo, pueden ser tiles para reforzar la validez de
contenido de las puntuaciones de cada poblacin por separado.

3. Aplicacin
A.1 Los constructores y los aplicadores de los tests deberan tratar de prever los tipos
de problemas que cabe esperar, y tomar las medidas oportunas para evitarlos
mediante la preparacin de materiales e instrucciones adecuados.
A.2 Quienes aplican los tests deberan de ser sensibles a cierto numero de Editores
relacionados con los materiales utilizados para los estmulos, los procedimientos de
aplicacin, y las formas de respuesta, que pueden reducir la validez de las inferencias
extradas de las puntuaciones.
A.3 Aquellos aspectos del entorno que influyen en la paliacin del test deberan de
mantenerse lo mas parecidos posibles para todas las poblaciones a las que va
dirigido el test.
A.4 Las instrucciones para la aplicacin del test en el idioma fuente y en el objetivo
deben minimizar la influencia de variacin no deseada.
A.5 El manual del test debera de especificar todos los aspectos del test y de su
aplicacin que han de revisarse al utilizarlo en un nuevo contexto cultural.
A.6 El aplicador no debe de interferir, debiendo minimizarse su influencia sobre los
examinados. Deben de seguirse al pie de la letra las reglas explicitas descritas en el
manual del test.

13
7
4. Interpretacin de las puntuaciones
1. 1 Cuando se adapta un test para utilizarlo en otra poblacin, debe de facilitarse la
documentacin sobre los cambios , as como los datos acerca de la equivalencia entre
las versiones.

1. 2 . Las diferencias entre las puntuaciones obtenidas por las muestras a las que se
aplico el test no deben de tomarse sin mas directamente. El investigador tiene la
responsabilidad de sustanciar las diferencias con otros datos empricos.
1. 3 . Las comparaciones entre poblaciones solo pueden hacerse al nivel de la
invarianza que se haya establecido para la escala en la que se expresan las
puntuaciones.
1. 4. El constructor del test debera de proporcionar informacin especfica acerca de
las distintas formas en las que los contextos socioculturales y ecolgicos de las
poblaciones pueden afectar al rendimiento en el test , y debera sugerir procedimientos
para tener en cuenta estos efectos en la interpretacin de los resultados.

Estandarizacin de Instrumentos de Medicin

En este apartado se abordarn aspectos relacionados con la estandarizacin del


proceso de medicin, especficamente lo concerniente con la aplicacin y calificacin
de los instrumentos de medida. Tambin se revisaran recomendaciones sobre la
muestra de estandarizacin y los diferentes procedimientos para la transformacin de
puntajes.

1.1 Estandarizacin de la aplicacin

Tal como ya se mencion la aplicacin de los instrumentos es un punto sensible


dentro del proceso de medicin, pues se encuentran mltiples amenazas que de no ser
prevenidas pueden quitarle muchas de las ventajas que tiene el uso de los
instrumentos de medidas sobre otras estrategias de consecucin de informacin.
Las amenazas ms frecuentes tienen que ver con la falta de entrenamiento para el
correcto uso de los instrumentos de medicin. Este riesgo se controla de manera
sencilla mediante el entrenamiento a los usuarios de los instrumentos; tal como
tambin fue mencionado previamente, en algunos casos el correcto uso de los test
solo requiere la lectura previa y el seguimiento de instrucciones puntuales consignados
en los manuales de uso. Sin embargo, por lo regular una correcta interpretacin de
tales instrucciones as como el seguimiento de las mismas implica el dominio
disciplinar por parte del evaluador. Por ello, en la literatura especializada se
13
8
recomienda leer el manual antes de usar el instrumento adems de entrenamiento
dirigido por personas con experiencia en el uso de los instrumentos.

Una segunda amenaza al proceso de medicin que est presente en la aplicacin


ocurre de manera previa a la misma. Este riesgo se hace evidente en la planeacin del
proceso evaluativo, durante sta se deben contemplar no solo aspectos como la
disponibilidad del material sino tambin sobre cuestiones logsticas de la aplicacin:
que hacen referencia no solo al cmo sino al cundo y dnde se usa el instrumento.
El primer aspecto involucra un tiempo calendario y un tiempo dentro del proceso
de intervencin; en cuanto al tiempo calendario, se deben tener en cuenta el
cronograma de actividades que realizan tanto el evaluador como el evaluado y la
duracin del proceso de medicin; por su parte el momento dentro del proceso de
intervencin es an ms relevante en tanto que se requiere un parmetro claro de
por qu realizar el proceso de medicin en ese momento y no en otro.
Un tercer aspecto que debe controlarse dentro del proceso de aplicacin del
instrumento de medicin est relacionado con la interaccin entre evaluador y
evaluado. Esto tiene que ver bsicamente con el dar las instrucciones claras y
precisas para que el evaluado puede abordar el proceso de medicin de manera
tranquila, sepa en que consiste tal proceso y que se busca con el mismo; igualmente,
en las instrucciones debe estar claro cuales son los comportamientos que debe emitir
el examinado respecto al instrumento.
El otro aspecto se refiere al trato personal que realiza el evaluador con el fin de
tranquilizar y orientar el proceso de medicin que est realizando, en general, los
procesos de medicin generan tensin, en especial si de ella se desprenden
consecuencias importantes para la vida del evaluado, lo cual puede llevar a que ste
se bloqu y la medicin no se realice de manera adecuada, llevando a posibles
resultados errneos.

1.2 Estandarizacin de calificacin

Tal como se ha indicado, los instrumentos de medicin permiten obtener un


resultado numrico, que en la mayora de los instrumentos consiste en una suma
simple de los valores dados a las respuestas dadas por el examinado. Algunos
instrumentos son un poco ms sofisticados y requieren de operaciones matemticas
algo complejas, pero son la excepcin y no la regla. En la actualidad la mayora de

13
9
instrumentos de medicin vienen acompaados de un programa de computo que
permite sistematizar este paso, es estos casos, la atencin debe dirigirse en
alimentar correctamente el programa de calificacin.
El proceso de calificacin comprende dos etapas, la primera es la obtencin de la
puntuacin cruda o directa, mientras que el segundo es la transformacin del puntaje
directo a escalas estndares de resultados.
La obtencin del puntaje directo se estipula durante la construccin de los
instrumentos, ah se establecen los pesos que tendrn las diferentes seales
recolectadas por el instrumento, as como el parmetro mediante el cual se
obtendrn el o los resultados del proceso de medicin. Por lo tanto, el usuario debe
estar atento a comprender y aplicar los procedimientos que se deben realizar para
pasar de la aplicacin del instrumento a la obtencin del resultado.
Por su parte, el clculo del puntaje tpico presenta dos niveles, el primero que se
realiza durante la construccin y evaluacin del instrumento, donde no solo se
estipula el tipo de transformacin de puntajes que se realizar sino tambin se hace
eleccin de la muestra de estandarizacin y la equivalencias entre puntajes directos y
tpicos denominados baremos.
En cuanto a las escalas utilizadas, en general lo que se hace es transformar una
escala ordinal en una escala intervalar en la que existe un punto de referencia
definido y se pueden establecer comparaciones entre los distintos valores de la
escala a diferencia de la escala ordinal donde solo se indica que existe una mayor o
menor magnitud de atributo, pero no cunta en realidad. Las transformaciones ms
populares se basan en modificaciones de la puntuacin normal estndar que tiene
media cero con desviacin 1, por lo que la magnitud de atributo se expresa en
distancias respecto al comportamiento promedio de la muestra de estandarizacin
utilizada en el proceso de medicin.
La muestra de estandarizacin esta constituida por el conjunto de examinados a
quienes se le aplica el instrumento y que con base en sus respuestas se determinan la
los rangos de manifestacin del atributo y con ello establecer los intervalos de
resultados que se considerarn bajos, medios o altos. La eleccin de sta muestra
es fundamental en el proceso de medicin, pues debe ser representativa de la

poblacin a la cual se dirige el instrumento; de lo contrario la estimacin ser


incorrecta, ya por sobreestimacin o por subestimacin de la magnitud del atributo
del examinado en relacin con su grupo de referencia.
Finalmente, los baremos son tablas que los constructores de instrumentos
elaboran para establecer la equivalencia entre los puntajes directos y tpicos. Estas

14
0
herramientas descargan al usuario de la labor de realizar clculos para la
transformacin de los puntajes. As pues, la labor de ste consiste en saber a qu
escala se transformaron las puntuaciones directas y como se interpretan las mismas,
pues el significado de una magnitud particular solo es interpretable dentro del marco
conceptual y disciplinar en el cual se circunscribe el atributo medido.

2. CONCLUSIONES
La utilizacin de los tests psicolgicos construidos en otros contextos culturales es
una prctica frecuente no solo en nuestro medio sino en todo el mundo . El uso de un
test en un contexto cultural diferente, donde se usa un lenguaje distinto y se esta
familiarizado con estmulos muy diversos, produce dificultades traducibles como
fuentes de sesgo. La existencia de sesgo puede tener consecuencias iatrognicas al
aplicar los tests y al obtener resultados totalmente errneos. En un mbito clnico
podemos asumir la existencia de un rasgo de personalidad patolgico, cuando este
rasgo puede ser normal s esta dentro de un rango correctamente medido.
Adems de ser muy necesario contar con instrumentos adecuados para la practica
psicolgica y para la investigacin, la adaptacin de instrumentos responde a razones
de ndole cientfico y practico. Es importante reconocer que la mayora de las teoras
psicolgicas actuales se han desarrollado en contextos de cultura occidental y que la
validacin emprica de las mismas se ha realizado con muestras de jvenes
universitarios de raza blanca.
Ahora enfrentamos el desafi de demostrar la Universalidad de esas teoras si es que
es posible. Es por ello que para poder evaluar si un determinado rasgo psicolgico
existe en culturas diferentes es necesario contar con instrumentos equivalentes a
travs de diferentes culturas, es decir que midan lo mismo en ambas culturas en
donde va a ser aplicado. Para ello proponemos comenzar por desarrollar mayor
cantidad de instrumentos que cumplan con los requisitos necesarios para ser
aplicados segn las teoras de los tests que ltimamente han cobrado vigor y
siguiendo parmetros internacionales.

14
1
. REFERENCIAS BIBLIOGRFICAS

CORTADA DE KOHAN, N. (1999) Teoras Psicomtricas y Construccin de Tests.


Lugar Editorial. Buenos Aires. (2004) Teora y Mtodos para la Construccin de

Escalas de Actitudes. Lugar Editorial Buenos Aires.


FERRERES TRAVER. D. (2005) Funcionamiento diferencial de los tems: Un
adecuado empleo de cuestionarios en situaciones bilinges. Curso de Doctorado.
Facultad de Psicologa. UBA
FORNS I SANTACANA, M. (1993) Evaluacin psicolgica infantil. Barcanova.
Barcelona, Espaa.
HAMBLETON, R. K., SWAMINATHAN, H., & ROGERS, H. J. (1991). Fundamentals of
Item Response Theory. (Vol-2). Newbury Park, CA: Sage.
Herrera Rojas, A. (1993) La medicin en Psicologa. Universidad de Bogot. Indito.
HOGAN, T. (2004) Pruebas Psicolgicas: Una introduccin prctica. Ed. Manual
Moderno: Mjico.
LPEZ FEAL, R. (1986) Construccin de instrumentos de medida en Ciencias
conductuales y sociales. Col I. Alamex. Espaa.
MARTORELL, M.C. (1992) Tcnicas de evaluacin psicolgica. Introduccin. Vol
I.Anlogos, Observacin, Autoobservacin, Autoinformes, N = 1 e introduccin a la
Evaluacin de Programas. Vol. II. Socializacin, Hiperactividad, Autoconcepto y
Retraso Mental en Nios y Adolescentes Vol.III. Pomolibro. Valencia, Espaa.

14
2

Você também pode gostar