Escolar Documentos
Profissional Documentos
Cultura Documentos
HUANCAYO
ESCUELA DE CIENCIAS DE LA
SALUD
BAREMACIN, ADAPTACIN Y
ESTANDARIZACIN DE
PRUEBAS PSICOLGICAS
ASIGNATURA:
1
INDICE
1. INTRODUCCIN
i. SESGO DE CONSTRUCTO
1. CONTEXTO
3. APLICACIN
CONCLUSIN
REFERENCIA BIBLIOGRAFICA
2
1. INTRODUCCION
3
de las escuelas de Pars que podan necesitar lo que hoy se conoce como educacin
especial. La Stanford Binet Intelligence Scale (Escala de Inteligencia Stanford Binet) se
origin en la idea de proporcionar una escala tipo Binet que pudiera utilizarse con los
estadounidenses, aunque las revisiones llegaron ms all de la simple traduccin del
francs al ingls. La Wechsler-Bellevue Intelligence Scale (Escala Wechsler-Bellevue
de Inteligencia) que dio origen a la coleccin de escalas Wechsler, apareci con la
intencin de ofrecer una prueba de inteligencia ms adecuada que la Stanford-Binet.
Las pruebas Otis construidas para evaluar la enorme cantidad de reclutas durante la
Primera Guerra Mundial al igual que la Woodworth Personal Data Sheet (Hoja de
Datos Personales Woodworth), prototipo de muchas pruebas de personalidad
posteriores. El Inventario Multifactico de Personalidad de Minnesota (MMPI) se
elabor para ayudar en la clasificacin de los pacientes mentales en la prctica
clnica de los hospitales de la Universidad de Minnesota. Tambin la enorme cantidad
de pruebas de aprovechamiento para su uso en las escuelas y la industria tiene
una orientacin altamente prctica. Estos son solo algunos ejemplos del hecho de
que muchos tests se originan en respuesta a una necesidad muy prctica.
5
BAREMACIN DE UNA PRUEBA PSICOLGICA
Para rasgos psicolgicos que evolucionan con la edad (sobre todo de tipo intelectual) tiene
sentido comparar la puntuacin de un sujeto con las que obtienen los de su misma edad y los
de edades diferentes. Esto se puede realizar mediante dos tipos diferentes de baremos: las
Edades Mentales (EM) y los Cocientes Intelectuales (CI).
Edad: 5 6 7 8 9 10 11 12 13 14
Media: 6 8 9 11 14 15 18 22 24 27
10
4
Hemos realizado una correspondencia entre las edades y puntuaciones medias que nos va
permitir obtener la EM de cualquier nio al que apliquemos el test. Por ejemplo, si un nio
obtiene el test una puntuacin directa de 14 puntos, le asignamos una EM de 9 aos,
independientemente de su edad cronolgica real, ya que esa puntuacin es la media que
obtienen los nios de 9 aos.
EM
CU = 100
EC
Por ejemplo, en el ejemplo anterior, si un nio de 10 aos obtiene una puntuacin directa de
18 puntos, diremos que su EM es de 11 aos, y que su CI es:
11
CU = 100 = 110
10
El modo de clculo del centil asociado a una puntuacin se resume en los siguientes pasos:
1) Disponer en una columna, ordenadas de mayor a menor o de menor a mayor,
las posibles puntuaciones directas (Xi) que se puedan obtener en el test.
2) Asignar a cada puntuacin su frecuencia (fi), es decir, el n de sujetos del grupo
normativo que la han obtenido.
3) Disponer una tercera columna de frecuencias acumuladas
(Fi).
4) Para cada valor de Fi, obtener el valor Ci= (100) Fi/N, siendo Ci el centil asignado a
la puntuacin directa Xi, Fi la frecuencia acumulada correspondiente a Xi y N el
nmero total de sujetos que forman el grupo normativo.
Ejemplo:
Supongamos que aplicamos un cuestionario de conocimientos en el manejo de ordenadores a
un grupo de 200 universitarios y que las puntuaciones directas obtenidas (X) y los sujetos que
obtuvieron cada una de ellas (f) son las siguientes:
X: 28 27 26 25 24 23 22 21 20 19
18 f: 2 4 21 32 45 37 22 18 12 6
1
A partir de estos datos, los centiles correspondientes a cada puntuacin directa, se
obtienen de la siguiente forma:
Centiles
X f F C = (100)F/200
28 2 200 100
27 4 198 99
26 21 194 97
25 32 173 865
24 45 141 705
23 37 96 48
22 22 59 295
21 18 37 185
20 12 19 95 10
19 6 7 35 6
18 1 1 05
As, si un sujeto obtiene una puntuacin directa de 20 puntos en el cuestionario, diremos
que supera en conocimientos informticos al 9,5% de los sujetos universitarios, mientras que
ms del 90% de los alumnos universitarios tienen mayor conocimiento en el manejo de
ordenadores que la persona evaluada.
Xi - X
Zi =
SX
puede ser positiva o negativa, e indica el n de desviaciones tpicas que se aleja de la media
una determinada puntuacin directa.
C
2
,4
,3
,2
C
1
Pues bien, conociendo la proporcin que queda por debajo de un punto dado de
la distribucin, podemos utilizar la tabla de la curva normal para obtener sin clculos la
puntuacin tpica asociada (Zn), que se denominar puntuacin tpica normalizada.
Indicar el nmero de desviaciones tpicas que una puntuacin se encuentra por encima
(si es positiva) o por debajo (si es negativa) de la media en una distribucin normal.
Por ejemplo, las puntuaciones tpicas normalizadas asociadas a los centiles 1, 26, 57 y
97 son: Centil Centil/100 Zn
1
26 0,01
0,26 -2,33
-0,64
57 0,57 0,18
97 0,97 1,88
10
8
3.3.- PUNTUACIONES TPICAS DERIVADAS
Las puntuaciones D suponen una escala con media 50 y desviacin tpica 20. Por
ejemplo, una puntuacin D = 35 indica que la persona obtuvo una puntuacin Zi = -.75, o
lo que es lo mismo, una puntuacin que se encuentra .75 desviaciones tpicas por debajo
de la media del grupo normativo donde se barema el test.
Los estaninos representan otra escala con media 5 y desviacin tpica 2. Una persona
que obtenga el estanino 8 en un test de aptitud espacial indicar que se encuentra 1.5
desviaciones tpicas por encima de la media del grupo normativo.
Puntuacin tpica: -2
Escala T: 30
10
9
Escala D: 10
Estanino: 1
EJERCICIOS
X 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23
f 2 3 4 11 17 15 23 20 19 23 22 15 8 8 4 5 1
a) Centil.
b) Tpica normalizada (Zn). c) Escala D no normalizada. d) Estanino.
11
0
4. En un test distribudo normalmente, el sujeto A ocupa el centil 20, el B el
centil 40 y el C el centil 60. Por lo tanto, la diferencia entre las puntuaciones directas
de A y B ser la misma que para los sujetos B y C. V ( ) F() Depende ( ).
Razone su respuesta:
5. Las puntuaciones de una persona en tres escalas diferentes han sido: 60, 70
y 80. Diga razonadamente qu puntuacin corresponde a cada escala:
b) La puntuacin en la escala T es
c) La puntuacin en la escala D es
Juan 95 1,5
Antonio 65
11
1
9. En un test cuyas puntuaciones se distribuyen normalmente, 5 personas
(numeradas del 1 al 5) obtienen las siguientes puntuaciones en los correspondientes
baremos:
1) Dn = 50 2) Tn = 20 3) En = 5 4) Zn = -3 5) Centil = 90
X 45 44 43 42 41 40 39 38
f 5 15 45 85 90 56 44 10
11
2
ADAPTACIN DE LAS PRUEBAS PSICOLOGICAS
la estimacin del nivel en que poseen los sujetos la(s) caracterstica(s) que
mide el test (valores escalares de los sujetos)
11
3
Es decir que el objetivo de cualquier teora de tests es realizar inferencias sobre el
nivel en que los sujetos poseen la caracterstica o rasgo inobservable que mide el test,
a partir de las respuestas que stos han dado a los elementos que forman el mismo.
As para medir o estimar las caractersticas latentes de los sujetos es necesario
relacionar stas con la actuacin observable en una prueba y esta relacin debe de
ser adecuadamente descrita por una funcin matemtica. Las distintas teoras de tests
difieren justamente en la funcin que utilizan para relacionar la actuacin observable
en el test con el nivel del sujeto en la variable inobservable. Y sirven para dar cuenta
del error de medida inherente a toda medicin psicolgica o estimacin del error; y
proporcionar una estimacin del rasgo o caracterstica evaluada (estimacin del rasgo)
11
4
eran los adecuados. Sin embargo, con frecuencia resultaba que la correlacin no era
tan buena, y el resultando era que se obtenan reactivos deficientes y la prueba en su
conjunto era de escaso valor. El concepto mismo de confiabilidad implicaba al de error
de la medida y tuvieron que desarrollarse procedimientos distintos para determinar la
confiabilidad del test de una manera ms precisa. Tal fue el caso de los
procedimientos de pruebas paralelas y de divisin por mitades.
La itemetra hizo contribuciones valiosas a la psicologa debido al nfasis que puso en
el anlisis del error. Entre sus contribuciones se encuentran varios conceptos sobre
precisin de la medida, las tcnicas para el tratamiento del error y el uso generalizado
del error estndar de la medida como la medida bsica del error. Adems, dio lugar a
contribuciones tales como las frmulas de Spearman-Brown (Spearman, 1904), Kuder-
Richardson (Kuder & Richardson, 1937), Alfa de Cronbach (Cronbach, 1951) y a varios
principios bsicos de escalamiento, as como al uso generalizado de la curva normal,
el uso de las correlaciones mltiples y la frmula de atenuacin, etc.
La siguiente etapa es la que Cattell (1986) denomina psicometra estructural y se
caracteriza por el uso de las nuevas herramientas estadsticas tales como el anlisis
factorial con sus diversas variantes tcnicas, como un medio para encontrar la
"estructura natural" de las habilidades en el contexto de los factores culturales, la
dotacin gentica, la personalidad, los rasgos, los motivos dinmicos y las
dimensiones que dan lugar a la accin y al comportamiento. Su objetivo primordial no
era como tal, aplicar pruebas, sino determinar la relacin que hay entre los conceptos
clnicos sobre personalidad, y los fundamentos de la investigacin experimental
multivariada (cuantitativa por naturaleza), as como analizar las interacciones
dinmicas entre los rasgos y los estados de la personalidad. Los tests se
consideraban significativos en la medida que armonizaban con los constructos tericos
formulados conceptualmente.
La etapa funcional en el desarrollo de los tests es aquella que "trasciende a las
aplicaciones inmediatas y simplistas que identificaban a las estadsticas con factores
conductuales, y profundiza en las leyes y formulaciones conceptuales del
comportamiento: que relaciona rasgos, procesos y estados psicolgicos con las
mediciones y estrategias estructurales" (Cattell, 1986). Ese tipo de leyes, segn
Cattell, se refieren a las relaciones sistemticas y consistentes obtenidas de los
estudios empricos sobre el desarrollo, en el conocimiento acerca de los rasgos
determinados en forma hereditaria, de los rasgos modificables por las experiencias y el
aprendizaje y de la modulacin de los estados psicolgicos producidos por las
relaciones psicofisiolgicas.
11
5
En resumen, el desarrollo de la teora clsica de los tests ha procedido de etapas
orientadas en forma pragmtica para desarrollar tests y validar reactivos, (donde los
constructos psicolgicos tericos se definan operacionalmente como "aqullo que
mide la prueba x"); hacia etapas conceptualmente ms elaboradas en que los tests se
derivan de teoras del comportamiento ms articuladas y donde cada reactivo tiene un
significado conceptual definido en un contexto terico particular.
Limitaciones de la Teora Clsica de los Tests: De acuerdo a la Teora Clsica de los
Tests (TCT), la elaboracin de pruebas de desempeo mximo involucra la seleccin
de reactivos de acuerdo a su contenido, nivel de dificultad y poder de discriminacin.
Los reactivos ms deseables son los que poseen un nivel mayor de discriminacin. El
nivel de dificultad por su parte, se ajusta de acuerdo a: 1. El propsito de la prueba, y;
2. El criterio preestablecido para el grupo al cual se aplicar la prueba.
Los ndices estadsticos empleados por la TCT no se mantienen constantes cuando se
aplican a poblaciones que difieren en habilidad respecto de la poblacin empleada
para obtener las normas del test. Por lo tanto, el xito de las tcnicas clsicas de
seleccin de reactivos depende de qu tan parecida es la poblacin con la cual se
obtuvieron los ndices respecto de la poblacin a la que se pretenden aplicar. Si la
diferencia es grande, los ndices obtenidos de los tems no sern apropiados para la
poblacin objetivo. En otros trminos, la teora clsica de los tests no puede predecir
cmo responder un individuo a los tems a menos que esos tems hayan sido
previamente administrados a personas similares (Lord, 1980) Durante el trabajo
prctico de elaboracin de tests, normalmente el grupo a partir del cual se obtienen los
ndices y el grupo al cual el test va dirigido, difieren considerablemente.
Un caso especial en el cual los ndices clsicos de los reactivos se obtienen a partir de
grupos que difieren de la poblacin a la que van dirigidos, puede verse al estructurar
bancos de reactivos. Al elaborar un banco de reactivos, las caractersticas de los tems
que van a ser incluidos en el banco, deben ser determinadas. Los tems con
frecuencia denominados "experimentales", se incluyen en un test que es administrado
a un grupo de personas de tal manera que se obtienen como resultado, los ndices de
esos reactivos. Por supuesto, no todos los reactivos experimentales sern incluidos en
un test particular. Por lo tanto, se crean mltiples formas del test, cada uno de los
cuales contiene diferentes reactivos experimentales y las diferentes formas se aplican
a grupos distintos de examinados. Dado que generalmente no es posible asegurar que
las diferentes formas del examen sean administradas a grupos equivalentes, los
ndices de los reactivos experimentales que se aplicaron a grupos distintos no pueden
ser equivalentes (Hambleton & Swaminathan, 1985). Por lo tanto, si los reactivos
11
6
fueron incluidos en el examen bajo el supuesto de que sus ndices eran comparables,
entonces cualquier test construdo a partir de ese banco de reactivos no podr ser
apropiado para ninguna de las poblaciones que pudieran ser seleccionadas en un
momento dado. Por otra parte, an cuando un banco de reactivos se encuentre bien
conformado, otro problema de la TCT es la precisin de la medicin. Y es que en la
teora clsica de los Tests, la contribucin de un tem a la confiabilidad de la prueba no
depende de las caractersticas del reactivo slamente, sino que tambin depende de la
relacin que hay entre el reactivo en cuestin y los otros reactivos del test. Por lo
tanto, no es posible aislar la contribucin de un tem a la confiabilidad de la prueba y
por lo consiguiente, tampoco su participacin al error estndar de la medida
(Hambleton, Swaminathan, & Rogers, 1991).
Finalmente, no obstante que el desarrollo de la teora clsica de los tests lleg, con la
etapa funcional de los tests, a un punto en que la conceptualizacin de los resultados
de los tests, y consecuentemente su proceso de desarrollo, permitan mediante
sofisticados procedimientos estadsticos, sacar a los reactivos de los lmites impuestos
por la prueba en su conjunto, la limitacin terica an permaneca y se haca
necesario un nuevo marco conceptual para salvarlo. Este nuevo esquema para la
conceptualizacin de los reactivos como unidades independientes del test y del grupo
utilizado para normarlo, se obtuvo con la Teora de Respuesta al tem.
b) Teora de la Generalizabilidad
Cronbach y Glaser (1972) postularon la Teora de la Generalizabilidad (TG) que es
una extensin del modelo clsico en el que diversas mediciones del mismo individuo
pueden variar tanto por efecto de una variacin en lo que se mide como por el error de
medicin (Nunnally y Bernstein, 1995). En esta teora las decisiones sobre la bondad
de un instrumento se basan en estudiar las fuentes y tipos de error, utilizando el
anlisis de varianza. Cuando se mide una variable se trata de generalizar los
resultados a un dominio o universo confiable de observaciones. El puntaje del universo
es semejante al puntaje verdadero en el modelo clsico. La diferencia es que en la
TCT se considera que la varianza de error es de una sola clase y, en cambio, la TG
reconoce que existen otros universos de generalizacin y por lo tanto muchos puntajes
de universo posibles. Solo cuando el universo se ha definido podemos afirmar cules
son las fuentes de variacin que producen error. Las diferentes fuentes de error en
esta teora se denominan facetas, trmino que introdujo Cronbach para designar cada
11
7
una de las caractersticas de la situacin de medicin que pueden cambiar de un
momento a otro y, por tanto, hacer variar los resultados obtenidos.
Segn esta teora los puntajes observados solo poseen inters si son representativos
de todos los puntajes posibles de un mismo universo. Poblacin es el conjunto de
personas de las que se extrae una muestra; y Universo es el conjunto de todos los
tems posibles de un constructo; y Universo de Condiciones de Medicin al conjunto
de todas las facetas estudiadas. Las distintas fuentes de variaciones asociadas a las
facetas y a sus interacciones se estima que contribuyen a la varianza de error y
disminuyen la generalizabilidad de los puntajes observados en las personas
evaluadas.
11
8
vez, la habilidad de los examinados depende del nivel de dificultad de la prueba.
De la misma forma, el nivel de discriminacin de los reactivos y los coeficientes de
validez y confiabilidad de la prueba se definen tambin en base a las caractersticas
del grupo particular de examinados. As, las caractersticas del test y de los reactivos
cambian a medida que cambia el contexto de la prueba. Por lo tanto, es muy difcil
comparar examinados a quienes se aplican diferentes tests; o an, comparar tems
cuyas caractersticas se obtuvieron utilizando diferentes grupos de examinados.
Esto significa que los coeficientes de los reactivos son dependientes del grupo al
mismo tiempo que son dependientes del test. Esta clase de dependencia es la que se
trata de eliminar mediante la TRI. Otro problema de la TCT es que es centrada-en-el-
test, ms que centrada-en-el-reactivo. No se toma en consideracin cmo responde el
examinado a un reactivo dado, y por lo tanto, no se tienen bases para determinar qu
tan bien podra desempearse un examinado particular ante un reactivo individual. Es
decir, la TCT no permite hacer predicciones acerca de cmo se comportar un
individuo o grupo particular ante un reactivo dado. Esta posibilidad de prediccin es
importante en una gran variedad de situaciones como por ejemplo, cuando se intenta
predecir el comportamiento de un profesional ante diferentes tipos de situaciones
prcticas.
De acuerdo a Hambleton, Swaminathan y Rogers (1991), las principales
caractersticas de la TRI como una alternativa a la teora clsica de los tests son:
1. Las caractersticas de los reactivos no dependen del grupo del cul fueron
obtenidos;
2. Los puntajes que describen la habilidad del examinado no dependen del test en su
conjunto;
3. El modelo se expresa a nivel del reactivo ms que a nivel del test;
4. El modelo no requiere de pruebas paralelas para determinar el ndice de
confiabilidad; y
5. Provee una medida de la precisin de cada ndice de habilidad.
Los postulados bsicos de la TRI son:
1) El resultado de un evaluado en un tem puede ser explicado por un conjunto de
factores llamados rasgos latentes o aptitudes
2) La relacin entre la respuesta de un sujeto a un tem y el rasgo latente que subyace
puede describirse como una funcin monotnica creciente que se llama funcin
caracterstica del tem o curva caracterstica del tem (CCI) Esta funcin especfica que
a medida que la aptitud aumenta la probabilidad de una respuesta correcta al tem
tambin aumenta.
11
9
3) Las estimaciones de la aptitud obtenidas con distintos tems seran iguales y las
estimaciones de los parmetros de los tems obtenidos en distintas muestras de
examinados sern iguales. Es decir que en la TRI los parmetros de aptitud y de los
tem son invariantes.
La ejecucin de un examinado en una prueba puede ser predichos por un conjunto de
rasgos, rasgos latentes y habilidades; y (2) la relacin entre las respuestas de los
examinados a los reactivos y el conjunto de rasgos que subyacen a la respuesta ante
el reactivo, pueden describirse por una funcin monotnicamente incrementada
llamada funcin caracterstica del reactivo o curva caracterstica del tem (CCI). Esta
funcin especifica que a medida que el nivel del rasgo incrementa, tambin incrementa
la probabilidad de una respuesta correcta ante ese reactivo." (p.7)
Son supuestos de la TRI:
1. La unidimensionalidad del rasgo latente: que las respuestas del examinado estn
determinadas por una nica variable denominada Rasgo. Ej.: Un tem de un test
espacial medir solo habilidad espacial y no ninguna otra cosa (Ferreres Traver, 2005)
2. La independencia local: Las respuestas de un evaluado a cualquier par de tem son
independientes y la probabilidad de responder correctamente a un tem es
independiente de la probabilidad de responder correctamente cualquier otro tem
(Ferreres Traver, 2005).
Existen muchos modelos de la TRI, pero los bsicos son:
- Modelo Logstico de un parmetro o Modelo de Rasch que est medido
en la misma escala que el parmetro zeta que representa el nivel de
habilidad, el parmetro b representa la dificultad del tem. Cuanto mayor
sea el valor de b, ms difcil ser el tem ya que mayor ser el nivel de
habilidad necesario para tener una probabilidad de acertar de 0.5
- Modelo Logstico de dos parmetros o Modelo de Birnbaum que indica
en qu medida el tem diferencia entre examinados con un nivel alto y
bajo de habilidad. Cuanto mayor sea el valor de a, mayor poder
discriminativo del tem, parmetro a que representa la discriminacin
del tem.
- Modelo Logstico de tres parmetros incorpora junto con el a y el b al c
que representa la probabilidad de acertar el tem que tienen las
personas con un nivel de habilidad muy bajo; o parmetro del pseudo
azar.
Para construir una prueba de acuerdo a los principios de la TRI, es necesario construir
un banco de reactivos con parmetros estimados para cada tem, de acuerdo al
12
0
modelo seleccionado. El procedimiento recomendado por Lord (1977) consiste en los
siguientes cuatro pasos:
12
1
indicadores operacionales son adecuados para describirlo. Todas las dimensiones
importantes del rasgo estudiado deben incluirse. Si se trata de una prueba para medir
rendimiento, la definicin del dominio puede realizarse delimitando el universo de
situaciones a ser evaluadas. As por ejemplo, en el caso de un examen de Estadstica,
el universo abarcara los objetivos y contenidos del programa de la asignatura. En la
medicin del rendimiento se pueden utilizar pruebas referidas a criterios o referidas a
normas. Los procedimientos de construccin de las pruebas referidas a criterios
difieren de aquellos usados tradicionalmente en las pruebas de rendimiento. Para la
elaboracin de pruebas por normas, se parte de la construccin de una tabla de
especificaciones que es una tabla de doble entrada por medio de la cual se relacionan
los objetivos cuyo logro se desea evaluar con los contenidos especficos
correspondientes. A partir de esta tabla se determina la cantidad de tems que
conformar la prueba y se lleva a cabo su redaccin.
En la construccin de una prueba con referencia a criterios, en cambio, no se realiza
una tabla de especificaciones, sino que se define y delimita el dominio de conductas
correspondientes a cada objetivo. Siguiendo dicha definicin se elaboran los tems que
evaluarn ese dominio de conductas y todos los desempeos individuales sern
referidos a ese dominio. Tal como lo establece Pophan (1975) citado por Tornimbeni
et al.(2004) por dominio debe entenderse el conjunto de conductas que debera
exhibir el alumno en relacin con un objetivo dado, si ste ha sido alcanzado. Es
decir, todas aquellas tareas que el alumno debera poder realizar si el objetivo ha sido
logrado. Para Hambleton y Rogers (1991) citados por los mismos autores, el dominio
puede ser de conductas, objetivos, destrezas y competencias y la amplitud del dominio
vara en funcin de la finalidad del test. Si el dominio comprende ms de un objetivo
pueden construirse subtests para cada objetivo, y se evala el rendimiento de los
sujetos en cada uno de ellos. Para la especificacin del dominio de conductas o clase
de tareas que el individuo debe realizar, seguiremos el esquema propuesto por
Tornimbeni et al (2004) que proponen:
i. Definicin del objetivo: Se establece cul o cules sern los
objetivos que se evaluarn a travs de la prueba, por ejemplo, la
habilidad de comprensin, que incluye aquellas conductas o
respuestas que se refieren nicamente a una comprensin de
los mensajes literales contenidos en la comunicacin.
ii. Descripcin del objetivo: Se define en trminos de conductas
observables el o los objetivos a ser evaluados. En el ejemplo
anterior se especificara un objetivo de la habilidad de
12
2
comprensin tal como ser capaz de analizar el propsito del
autor y su punto de vista examinando una comunicacin escrita.
iii. Especificacin de las caractersticas de la situacin de
evaluacin: se especifican todos aquellos aspectos a tener en
cuenta en la situacin de evaluacin, por ejemplo, en un texto de
divulgacin cientfica, seleccionar el prrafo e identificar la
oracin donde se expresa la intencin del autor.
iv. Caractersticas de la respuesta: Se especifica cul es la
respuesta que se espera del sujeto, en este caso, que
seleccione de manera correcta el prrafo y la oracin
correspondiente.
12
3
elaborar, cada reactivo presenta cinco respuestas alternativas, por lo general, en un
tipo de continuo entre acuerdo y desacuerdo o aprobacin y desaprobacin. Las
escalas Likert son confiables, lo cual puede explicar su popularidad. Otro mtodo de
elaboracin de escalas que produce datos ordinales es el mtodo de comparaciones
apareadas. A quienes responden la prueba se les presentan pares de estmulos y se
les pide que los comparen y seleccionen uno por medio de alguna regla. Otra forma de
derivar informacin ordinal por medio de un sistema de elaboracin de escalas implica
tareas de clasificacin. En estos enfoques se presentan tarjetas impresas, dibujos,
fotografas, u otros estmulos y se les pide a los evaluados que los clasifiquen desde
las ms hasta las menos justificables o que los jerarquicen. Todos los mtodos
anteriores producen datos ordinales, el mtodo de intervalos aparentemente iguales
descripto por Thurstone es un mtodo de elaboracin de escalas para obtener datos
que se supone son de intervalo.
El mtodo de elaboracin de escalas particular empleado en la elaboracin de un test
depender de las variables que se van a medir, el grupo para el que se pretende la
prueba (por ejemplo los nios pueden requerir un mtodo de elaboracin de escalas
menos complicado que los adultos) y las preferencias del elaborador de la prueba.
12
4
alternativa u opcin correcta o clave y varias alternativas u opciones incorrectas
llamadas distractores.
12
5
determinados contextos de aplicacin de la psicologa o con determinadas
poblaciones. El ideal, coincidiendo con los autores mencionados, ronda entre los 300 a
400 sujetos para estudios correlacionales pero este nmero no es condicin suficiente
de buenos ndices psicomtricos (por ejemplo un alfa superior a .80). Existen otros
factores intervinientes como el entrenamiento de los evaluadores o la heterogeneidad
de la muestra que pueden incrementar los valores de confiabilidad y validez y
compensar tamaos maestrales inferiores al estndar mencionado (Pajares, Hartley y
Valiente, 2001).
El procedimiento ms empleado en el anlisis inicial de reactivos es la correlacin de
cada uno de ellos con el puntaje total de la prueba. Si el test consta de diversas
subescalas, cada tem debe correlacionarse con el puntaje total de esa parte, no con
el puntaje total de la prueba. El estadstico usual es el producto momento de Pearson (
r ) o correlacin punto biserial si se trata de tem dicotmicos (si/no, verdadero/falso).
Los tem con correlaciones no significativas o bajas (inferiores a .30) se eliminan o se
revisan y se conservan los menos ambiguos, ni fciles ni dificultosos y ms
relacionados con el constructo (Nunnally y Bernstein, 1995). Cuando hay items con
varias alternativas de respuesta es aconsejable obtener las correlaciones de cada una
de las alternativas con el puntaje de la prueba total, sobre todo en aquellos de
correlacin baja o negativa. Los mejores distractores sern aquellos que obtengan
correlaciones negativas con los puntajes de la prueba, es decir, que sean
seleccionados por quienes tienen puntajes bajos en la prueba (Herrera Rojas, 1993). En
las pruebas de habilidades (tems dicotmicos) es importante conocer el ndice de
dificultad de cada tem, o sea el porcentaje de personas que responden
acertadamente al reactivo analizado. El ndice de dificultad de los reactivos tiene un
rango de 0 a 1 y se simboliza como p. Un reactivo cuyo p es 0 est indicando que
ningn sujeto contest correctamente y un reactivo con p igual a 1 es aquel que todos
los sujetos respondieron correctamente. El valor ptimo de p para un reactivo depende
de varios factores, tales como los objetivos de la prueba y la cantidad de alternativas
de respuesta. Si el propsito del test es identificar slo un porcentaje reducido de los
mejores postulantes para un empleo, por ejemplo, entonces los items de la prueba
deberan ser lo suficientemente difciles y tener un valor medio-bajo de p. Para
pruebas convencionales de habilidades se recomiendan valores p entre .20 y .80
(Aiken, 2003)
La proporcin de acierto de un tem es un estimador adecuado de la dificultad de un
tem. Sin embargo, esta informacin hay que complementarla con la distribucin de
frecuencias en todas las opciones de respuesta (en elecciones mltiples) y las
12
6
estimaciones de proporcin para diferentes rangos de puntuacin en la prueba total.
En escalas con formatos tipo Likert, los reactivos donde la mayora de los evaluados
responde con las mximas o mnimas categoras (p.ej. 1 o 10) indican que tales items
carecen de suficiente dificultad (atractivo) o son excesivamente difciles para los
evaluados. Con la misma lgica deben eliminarse los reactivos donde la mayora de
los sujetos de la muestra obtiene el mismo puntaje puesto que tales elementos de
prueba no discriminan entre los evaluados (Bandura, 2001)
Las pruebas referidas a criterios, como explica Martnez Arias (1995) se evalan y
seleccionan los items de una forma particular, diferente a las pruebas referidas a
normas. El anlisis se realiza comparando los resultados de un grupo antes de aplicar
un programa de aprendizaje y despus del mismo, o comparando dos grupos
similares, uno de ellos, que recibi capacitacin y el otro no. Al calcular el ndice de
dificultad los resultados esperados son, items con alta dificultad para los grupos que
no han pasado por el proceso de aprendizaje, y baja dificultad para los que han sido
sometidos al proceso de instruccin. En cuanto al ndice de discriminacin, obtenido
por la comparacin entre grupos, se espera mxima discriminacin entre los grupos y
mnima entre los individuos de un mismo grupo.
Una vez realizada la aplicacin de la prueba piloto y habiendo obtenido resultados
estadsticos sobre el comportamiento de cada tem se podrn tomar decisiones sobre
cules de ellos deben integrar la forma final del test y hacer estimaciones de su
confiabilidad y validez mediante algunos de los procedimientos ya conocidos.
La lgica de este proceso de anlisis es obtener pruebas lo ms homogneas
posibles, es decir, donde todos los reactivos se relacionen con un ncleo comn de
medicin que es el constructo o dominio, informacin que se obtiene aplicando a los
reactivos de una escala el coeficiente alfa de Cronbach, por ejemplo. El conjunto de
tems seleccionados despus de examinar la correlacin tem-total de cada uno, es
analizado con este procedimiento de homogeneidad (alfa o KR-20) y debemos
asegurarnos valores de.80 o superiores. Los tems con correlaciones bajas con el
puntaje total se pueden remover para incrementar el valor del alfa. Si bien un
coeficiente alfa elevado es una condicin necesaria de unidimensionalidad esta
propiedad solo es garantizada por el anlisis factorial (Goldberg, 1999)
El paso decisivo para asegurar la unidimensionalidad de cualquier escala homognea
y el primer paso en un conjunto inicial de tem heterogneos (sin un explcito marco
terico previo) es el anlisis factorial (Martnez Arias, 1995). El anlisis factorial es
esencialmente un mtodo para agrupar las variables que se correlacionan fuertemente
entre s y cuyas correlaciones con las variables de otros agrupamientos es menor
12
7
(Airen, 2003). Segn Klline (2000) el anlisis factorial es un mtodo estadstico en el
cual las variaciones en los puntajes de un nmero de variables son explicadas por un
nmero ms reducido de dimensiones o constructor (factores). El anlisis factorial es
una tcnica analtica que permite reducir un nmero extenso de variables
interrelacionadas a una cantidad pequea de dimensiones latentes. (Glutting et al.
2002)
Una distincin inicial importante es la que debe realizarse entre anlisis factorial
exploratorio y confirmatorio. En el primero se extraen factores sin una estructura
terica previa conjeturada de modo explcito. En cambio el enfoque confirmatorio, los
factores son definidos a priori en base a un modelo terico y en este caso, el anlisis
intenta verificar qu tan bien se adaptan los datos observables a ese modelo.
Antes de realizar un anlisis factorial debe determinarse si los items estn
suficientemente interrelacionados. Existen algunas pruebas estadsticas que pueden
emplearse con esa finalidad. Unas de las ms empleadas son el test de esfericidad de
Bartlett y la medida de adecuacin del muestreo de Kaiser-Mayer-Olikin que se
interpreta de manera semejante al coeficiente de confiabilidad, es decir, con un rango
de 0 a 1 y considerando los valores superiores a .80 como muy adecuados. Si es as,
se puede aplicar el anlisis factorial en sus diferentes variantes.
Los principales mtodos exploratorios para extraer factores son: Anlisis de
Componentes Principales, Ejes Principales y el de Mxima Probabilidad. Este ltimo
muy usado por representar un enfoque estadstico inferencial en psicometra. El
mtodo PC explica la mayor cantidad de varianza posible en los datos observados y
es por consiguiente un mtodo ms descriptivo que inferencial. El mtodo de ejes
principales es anlogo al anterior para los mismos fines.
El anlisis factorial debe realizarse sobre muestras extensas no inferiores a 300
sujetos para obtener datos tiles. Adems se debe contar idealmente con 10 veces el
nmero de sujetos por variable o al menos 5 veces ese nmero (Nunnally, 1991). La
seleccin del nmero correcto de factores es una de las decisiones ms dificultosas
del anlisis factorial. Luego de extraer los factores iniciales, se realiza un
procedimiento de rotacin que permite eliminar los pesos negativos importantes y
reducir el nmero de cargas factoriales de cada variable en los diversos factores
(Anastasi, 1998). Las rotaciones colocan a las variables ms cerca de los factores
diseados para explicarlas, concentran la varianza de las variables en menos factores
y, en general, proporcionan un medio para facilitar la interpretacin de la solucin
factorial obtenida. Los factores rotados explican la misma varianza que el conjunto de
los factores (no rotados) pero la estructura de las cargas factoriales se modifica y son
12
8
ms simples de interpretar, debido al aumento de las cargas positivas extremas (bajas
y altas).
La tarea final del anlisis factorial es interpretar y nominar los factores. Esto se logra
inspeccionando el patrn de cargas factoriales bajas y altas de cada variable sobre los
distintos factores y mediante el conocimiento que se posea de las variables
implicadas. Cuando los factores obtenidos estn correlacionados es posible someter
sus correlaciones al mismo anlisis estadstico que utilizamos con las correlaciones
entre tems. Podemos realizar un anlisis factorial de los factores obtenidos por
rotacin oblicua y derivar factores de segundo orden o superior, es el caso del 16 PF
donde los factores iniciales son 16 pero un nuevo anlisis reduce el modelo a 5
factores de segundo orden asimilables al modelo de cinco grandes factores del
Inventario NEO-PIR.
En el enfoque psicomtrico actual, el anlisis factorial se utiliza ms como estrategia
confirmatoria de un modelo terico previo, en especial, dentro del marco metodolgico
del Modelo de Ecuaciones Estructurales. De modo contrario se corre el riesgo de
obtener estructuras puramente empricas dependientes de la muestra escogida y no
replicables con facilidad.
Estas estrategias analizadas son congruentes con la Teora Clsica de los Tests. El
anlisis desde el enfoque de la Teora de Respuesta al tem emplea estrategias tales
como: discriminar distintos niveles del rasgo medido, asegurar la homogeneidad
mediante los ndices de discriminacin o minimizar el funcionamiento diferencial de los
tems de prueba (Goldberg, 1999). En este momento se pueden complementar ambos
criterios los de la TCT y los de la TRI como etapa de transicin ante los nuevos
desarrollos de esta ltima.
12
9
de Vijver y Leung (1997) establecieron tres niveles de adaptacin de las pruebas
psicolgicas. El primero corresponde al de la aplicacin, este es, la simple y llana
traduccin de un test de un idioma a otro Este mtodo asume la equivalencia de
constructo. Desafortunadamente, es el mtodo ms comn y ms utilizado en todo el
mundo. Como se indicara anteriormente la sola traduccin de una prueba no nos
indica ningn nivel de equivalencia entre ambas versiones de la misma.
La segunda alternativa es la adaptacin. En este caso a la traduccin se agrega la
transformacin, adicin o substraccin de algunos tems de la escala original. Como se
explic, algunos tems pueden cambiar su significado a travs de las culturas y, por lo
tanto, necesitan modificaciones o ser eliminados. As mismo tems que no existen en
la versin original del test pueden representar mejor al constructo en la poblacin en la
cual se administrar la nueva versin. Baldo (2000) al realizar una baremizacin del
WISC III en Crdoba encontr que el nivel de dificultad original de los tems
pertenecientes a los subtests Comprensin, Vocabulario e Informacin no eran
aplicables a la poblacin Argentina, por lo que propuso un nuevo ordenamiento de los
tems. Este es un ejemplo de adaptacin sin adicin o substraccin de tems.
Finalmente, la opcin ensamble puede emerger al momento de adaptar un instrumento
de evaluacin psicolgica. En este caso el instrumento original ha sido modificado tan
profundamente que prcticamente se ha transformado en un nuevo instrumento
original con los nuevos elementos. Esto ocurre cuando muchos de los tems del test
original son evidentemente inadecuados para representar el constructo a medir. Esto
sucede en tests de denominacin confrontacional, utilizados en neuropsicologa,
donde se utilizan lminas con dibujos de objetos que el evaluado debe nombrar. Estos
objetos tienen distinta frecuencia de observacin en la vida diaria de un sujeto y por
ello van a variar considerablemente de una cultura a otra. Es el caso de la adaptacin
Argentina del Test de Denominacin de Boston (Allegri et. Al 1997). En la versin
original la figura de una bellota est ubicada en el lugar nmero 32 mientras que en la
versin Argentina tal lmina se encuentra sobre el final en el nmero 50. El ensamble
tambin se da cuando el constructo no est representado de forma adecuada por la
versin original en la cultura a la que se quiere adaptar la prueba. Los abordajes
indigenistas de la medicin de la personalidad, por ejemplo, han promovido el diseo
de tests distintos para abarcar aspectos de la personalidad no contemplados en las
teoras occidentales. Tal es el caso del Inventario Chino de Evaluacin de la
Personalidad, que contiene dimensiones indigenistas de la personalidad tales como
armona.
13
0
2.2. Tcnicas de Traduccin
El proceso de traduccin es complejo e implica mas que la traduccin lineal de las
palabras escritas a un nuevo lenguaje. Existen dos mtodos comunes: la traduccin
directa o forward translation y la traduccin inversa o backward translation. En el
mtodo de traduccin directa un traductor, o preferentemente, un grupo de
traductores, traducen el test desde el idioma original al nuevo idioma. Luego, otro
grupo de traductores, juzga la equivalencia entre las dos versiones. De este modo
pueden realizarse las correcciones pertinentes en las dificultades o errores
identificados por los traductores. En el caso de la traduccin inversa, l mas utilizado
de los mtodos, un grupo de traductores realiza una traduccin desde el idioma
original al nuevo idioma; luego un segundo grupo de traductores toma el test traducido (
en el nuevo idioma) y vuelve a traducirlo al idioma original. Seguidamente se realizan
las comparaciones entre la versin original y la versin retraducida al idioma original
para determinar su equivalencia. Ambos mtodos poseen diversas ventajas y
desventajas, se ejemplifica la metodologa utilizada para la traduccin de instrumentos
con el caso de la prueba CPI- 434 que actualmente se encuentra en desarrollo.
13
1
dos idiomas. La segunda gran desventaja de este diseo es que no puede asegurarse
que los bilinges posean el mismo nivel de competencia que la poblacin general. Por
el hecho de conocer otro idioma es probable que se trate de personas con una mayor
capacidad intelectual o mejor educacin. Hambleton, tambin seala una variacin de
este mtodo que conserva las misma ventajas y desventajas pero que es ms fcil de
implementar. La misma consiste en administrar al azar una ( no ambas) de las
versiones del test ( en espaol o en ingles) a los participantes bilinges.
2)Administracin de la versin original y su traduccin inversa a monolinges en el
idioma original: Siguiendo nuestro ejemplo anterior, planteado por las autoras (
Tornimbeni et. Al. 2004) se le administrara la versin original del WAIS III y la
versin obtenida de la traduccin inversa a sujetos cuyo idioma natal es el ingles. La
equivalencia de los tems se determina comparando el desempeo de cada sujeto en
cada tem de ambas versiones. Nuevamente, la ventaja esta en el control de las
diferencias en las caractersticas de los participantes. La primer gran desventaja esta
en que este diseo no permite obtener datos con la versin en el idioma meta ( target)
del test ( espaol en el ejemplo). De esta manera no es posible obtener puntajes de
sujetos que hablen el idioma al que se intenta traducir el test. La segunda gran
desventaja de este diseo reside en el hecho de la posible falta de independencia
entre los puntajes obtenidos ya que es probable que exista un efecto de aprendizaje
luego de la administracin de la primer versin de la prueba, especialmente si la
primera es la original. La administracin al azar de una de las versiones en el primer
lugar puede reducir la importancia del efecto de aprendizaje.
3)Administracin de la versin original a monolinges que hablan el idioma original y
de la versin traducida a monolinges que hablan el idioma al que ha sido traducida la
prueba: Siguiendo con el ejemplo enunciado por Tornimbeni et. Al (2004), se
administrara la versin en ingles del WAIS III a evaluados cuyo idioma natal es el
Espaol. Una posible dificultad reside en asumir que los sujetos de ambas muestras
poseen una habilidad comparable. sin embargo, Hambleton sugiere que tal obstculo
puede superarse si los anlisis son desarrollados con la Teora De Respuesta al tem,
en la cual se asume que utilizando distintos conjuntos de tem pueden obtenerse las
mismas estimaciones de aptitud . Igualmente, administrando esos tem a distintas
muestras de examinados las estimaciones de parmetros obtenidas sern iguales.
Una vez obtenidos los datos por medio de los diseos revisados existen varias
posibilidades estadsticas para su anlisis. Bsicamente el anlisis estar destinado a
identificar la existencia de Funcionamiento Diferencial de items ( FDI) es decir, tem
que se comportan en forma diferente a travs de las diversas muestras transculturales.
13
2
Por ejemplo, en las investigaciones citada de Tanzer ( 1995) en donde el investigador
le administro dos cuestionarios sobre autoconcepto acadmico de lectura y
matemticas. En los resultados pudo observarse que a pesar de que la prueba
mostraba la misma estructura factorial para ambos grupos culturales, cuando las
escalas de los tems de competencia/ facilidad se trabajaban en forma individual
podan observarse grandes diferencias entre ambos grupos culturales. El autor
especulo con que tal diferencia s deba a un factor cultural de modestia, la cual es
una virtud deseable dentro de la cultura de Singapur, fuertemente influenciada por la
cultura china. As, los singaporeanos eran ms renuentes a mostrar una actitud
autoelogio o jactancia. Esta investigacin adems, de ser un ejemplo de FDI, muestra
tambin la insuficiencia de comparar las estructuras factoriales de las pruebas cuando
son aplicadas transculturalmente. Como puede observarse en estos resultados, es
necesario siempre realizar un anlisis de (FDI) ya que a pesar de conservar una
misma estructura factorial un grupo puede mostrar valores mucho ms bajos que otro
en determinados tem.
Existen diversos mtodos en los que se puede analizar el comportamiento de los
tems. Algunos mtodos dentro de la TCT tales como los mtodos de suma de chi-
cuadrado o el de Mantel y Haenzel que fuera adaptado para el FDI por Holland y
Thayer ( 1988) y que es en la actualidad l mas utilizado a estos fines. El anlisis
puede desarrollarse dentro de la TRI en donde el mismo se centrara en las
probabilidades que tiene una persona con un determinado nivel de habilidad de
contestar un tem en forma correcta. El modelo de Rasch, de un solo parmetro es l
ms popular.
13
3
contexto, el termino sesgo se emplea en su bien establecido sentido estadstico,
para desganar un error constante o sistemtico en contraste con uno que se debe al
azar. Las principales preguntas que se han planteado con respecto al sesgo de la
prueba tiene que ver con el coeficiente de validez ( sesgo de la pendiente) y la relacin
entre las medias del grupo en la prueba y en el criterio ( sesgo de interseccin). Si una
prueba produce un coeficiente de validez significativamente diferente en dos grupos, la
diferencia se describe como sesgo de la pendiente y esta clase de diferencia entre
grupos se conoce como validez diferencial. Una prueba exhibe sesgo de
interseccin si sistemticamente subpredice o sobrepredice una ejecucin del criterio
para un grupo particular.
El problema del sesgo de la interseccin se relaciona mas con lo que ha sido llamado
equidad de la prueba. Aunque los trminos equidad y sesgo de la prueba a veces
se usan indistintamente para cubrir todos los aspectos del uso del instrumento con
minoras culturales.
Modelos de decisin para el uso justo de las pruebas:
Gradualmente empez a cambiar el inters de la investigacin en la evaluacin del
sesgo de las pruebas al diseo de estrategias de seleccin para su uso justo con
minoras culturales. Entre las metas por reconciliar estn las de proporcionar iguales
oportunidades a todos los individuos , elevar al mximo la tasa del xito y la
productividad, incrementar la mezcla demogrfica y la representatividad y extender el
tratamiento preferencial a grupos desfavorecidos por inequidades anteriores.
Van de Vijver y Tanzer ( 1997) identificaron diferentes fuentes de sesgo , que a
continuacin se explicitan:
a) Sesgo de constructo:
Este tipo de sesgo se da cuando el constructo medido no es idntico a travs de los
grupos culturales... ( p.p. 264, Van de Vijver y Tanzer, 1997). La importancia que cada
cultura otorga a ciertas conductas se encuentra en esta categora. Conductas de tica
y civismo que en algunas sociedades pueden ser normales en otras pueden constituir
un verdadero rasgo de rigidez y asemejarse a una conducta obsesivo compulsivo.
b) Sesgo metodolgico:
Este sesgo reconoce tres formas.
El sesgo de muestra: que se da cuando las muestras son incomparables entre si. La
cantidad de aos de escolaridad que poseen los sujetos de una muestra es una
variable determinante en el desempeo del mismo en un test determinado,
especialmente si se trata de un test de habilidad. El nivel sociocultural, la motivacin,
la composicin por genero y edad de los sujetos son otras variables que pueden hacer
13
4
incomparables a dos muestras que pueden mostrar resultados muy diferentes en un
test determinado.
El sesgo en el instrumento: que puede provenir de las caractersticas del instrumento.
La familiaridad que los sujetos tienen con los estmulos presentados tiene una gran
importancia. Algunos estmulos tales como objetos, dibujos, figuras u otros elementos
utilizados en algunas culturas no existen en otras o son irrelevantes. El tem de
ejemplo en el Sub. Test de Ordenamiento de lamina WISC III que muestra a una mujer
frente a una maquina expendedora de latas de gaseosa tiene muy poco valor en
culturas rabes, por ejemplo, o en zonas rurales de nuestro pas. El idioma es otra
fuente de sesgo de instrumento. La traduccin de un idioma a otro frecuentemente
subestimada, es un problema importante que requiere una metodologa especifica a
seguir. Los problemas son mayores cuanto mas diferencias hay entre idiomas como
entre el ingles y el chino o el rabe, idiomas cuya lectura se realiza de izquierda a
derecha a diferencia del de derecha a izquierda. Tambin la disposicin del texto tiene
importancia en el completamiento de frases o de interpretacin de textos, mayor es el
problema cuando implican conectar letras y nmeros siguiendo un orden alfabtico o
numrico y los caracteres de idiomas como el espaol, ruso, griego. rabe, hebreo o
chino son tan diferentes. Tambin entre los idiomas occidentales existen diferencias
como que en ingles no existe la que el alfabeto sueco contiene mas vocales, y en
portugus existen distintos tipo de a. Los mtodos de respuesta constituyen otra
fuente de sesgo del instrumento. Las laminas de respuestas del Test de Matrices
Progresivas de Raven que implica completar una secuencia lgica con una figura
opcional, incluyen la figura faltante al final de la segunda fila, con lo que asume una
lectura de izquierda a derecha. Este hecho fue demostrado por Carpenter, Just y Shell (
1990) en un muy preciso estudio que implica una serie de desventajas para los
sujetos de las culturas rabes quienes involuntariamente van a intentar resolver la
prueba de derecha a izquierda, forma en que se lee su idioma.
El sesgo de administracin: incluye problemas tales como dificultades en la
comunicacin, es decir, dificultades para que el entrevistado entienda las instrucciones
del entrevistador ya sea por la dificultad de las palabras utilizadas, el modo de
explicacin de las instrucciones o un inadecuado manejo del idioma de alguna de las
partes. Tambin se incluyen las alteraciones en la manera de administrar las pruebas.
Normalmente los manuales incluyen instrucciones de administracin que en muchos
casos no son adecuadas para la poblacin a aplicar. Los administradores del Test
entonces adaptan esas instrucciones segn su criterio personal. Otro punto importante
es el uso de cronmetros que produce serias alteraciones en los resultados.
13
5
Sesgo de tem: Se produce cuando el mismo tiene diferentes significados en distintas
culturas. Ciertos grupos culturales pueden obtener puntajes significativamente
distintos en un tem determinado a pesar de obtener un puntaje total similar. La
deseabilidad social o la relevancia cultural, entre otros factores, pueden producir el
sesgo de tem. Tanzer ( 1995) demostr que aunque la estructura factorial de un Test
de autoconcepto acadmico era similar cuando se lo aplico a estudiantes australianos
y singaporeanos, existan diferencias sustanciales entre estas muestras cuando se
compararon algunos tem especficamente. Este tipo de sesgos tambin acta en test
neuropiscologicos.
1 .Contexto
C1. Los efectos de las diferencias culturales que no sean relevantes para los objetivos
centrales del estudio deberan minimizarse en la medida de lo posible.
C2. Debera de evaluarse la cuanta del solapamiento de los constructos en las
poblaciones de inters.
3. Aplicacin
A.1 Los constructores y los aplicadores de los tests deberan tratar de prever los tipos
de problemas que cabe esperar, y tomar las medidas oportunas para evitarlos
mediante la preparacin de materiales e instrucciones adecuados.
A.2 Quienes aplican los tests deberan de ser sensibles a cierto numero de Editores
relacionados con los materiales utilizados para los estmulos, los procedimientos de
aplicacin, y las formas de respuesta, que pueden reducir la validez de las inferencias
extradas de las puntuaciones.
A.3 Aquellos aspectos del entorno que influyen en la paliacin del test deberan de
mantenerse lo mas parecidos posibles para todas las poblaciones a las que va
dirigido el test.
A.4 Las instrucciones para la aplicacin del test en el idioma fuente y en el objetivo
deben minimizar la influencia de variacin no deseada.
A.5 El manual del test debera de especificar todos los aspectos del test y de su
aplicacin que han de revisarse al utilizarlo en un nuevo contexto cultural.
A.6 El aplicador no debe de interferir, debiendo minimizarse su influencia sobre los
examinados. Deben de seguirse al pie de la letra las reglas explicitas descritas en el
manual del test.
13
7
4. Interpretacin de las puntuaciones
1. 1 Cuando se adapta un test para utilizarlo en otra poblacin, debe de facilitarse la
documentacin sobre los cambios , as como los datos acerca de la equivalencia entre
las versiones.
1. 2 . Las diferencias entre las puntuaciones obtenidas por las muestras a las que se
aplico el test no deben de tomarse sin mas directamente. El investigador tiene la
responsabilidad de sustanciar las diferencias con otros datos empricos.
1. 3 . Las comparaciones entre poblaciones solo pueden hacerse al nivel de la
invarianza que se haya establecido para la escala en la que se expresan las
puntuaciones.
1. 4. El constructor del test debera de proporcionar informacin especfica acerca de
las distintas formas en las que los contextos socioculturales y ecolgicos de las
poblaciones pueden afectar al rendimiento en el test , y debera sugerir procedimientos
para tener en cuenta estos efectos en la interpretacin de los resultados.
13
9
instrumentos de medicin vienen acompaados de un programa de computo que
permite sistematizar este paso, es estos casos, la atencin debe dirigirse en
alimentar correctamente el programa de calificacin.
El proceso de calificacin comprende dos etapas, la primera es la obtencin de la
puntuacin cruda o directa, mientras que el segundo es la transformacin del puntaje
directo a escalas estndares de resultados.
La obtencin del puntaje directo se estipula durante la construccin de los
instrumentos, ah se establecen los pesos que tendrn las diferentes seales
recolectadas por el instrumento, as como el parmetro mediante el cual se
obtendrn el o los resultados del proceso de medicin. Por lo tanto, el usuario debe
estar atento a comprender y aplicar los procedimientos que se deben realizar para
pasar de la aplicacin del instrumento a la obtencin del resultado.
Por su parte, el clculo del puntaje tpico presenta dos niveles, el primero que se
realiza durante la construccin y evaluacin del instrumento, donde no solo se
estipula el tipo de transformacin de puntajes que se realizar sino tambin se hace
eleccin de la muestra de estandarizacin y la equivalencias entre puntajes directos y
tpicos denominados baremos.
En cuanto a las escalas utilizadas, en general lo que se hace es transformar una
escala ordinal en una escala intervalar en la que existe un punto de referencia
definido y se pueden establecer comparaciones entre los distintos valores de la
escala a diferencia de la escala ordinal donde solo se indica que existe una mayor o
menor magnitud de atributo, pero no cunta en realidad. Las transformaciones ms
populares se basan en modificaciones de la puntuacin normal estndar que tiene
media cero con desviacin 1, por lo que la magnitud de atributo se expresa en
distancias respecto al comportamiento promedio de la muestra de estandarizacin
utilizada en el proceso de medicin.
La muestra de estandarizacin esta constituida por el conjunto de examinados a
quienes se le aplica el instrumento y que con base en sus respuestas se determinan la
los rangos de manifestacin del atributo y con ello establecer los intervalos de
resultados que se considerarn bajos, medios o altos. La eleccin de sta muestra
es fundamental en el proceso de medicin, pues debe ser representativa de la
14
0
herramientas descargan al usuario de la labor de realizar clculos para la
transformacin de los puntajes. As pues, la labor de ste consiste en saber a qu
escala se transformaron las puntuaciones directas y como se interpretan las mismas,
pues el significado de una magnitud particular solo es interpretable dentro del marco
conceptual y disciplinar en el cual se circunscribe el atributo medido.
2. CONCLUSIONES
La utilizacin de los tests psicolgicos construidos en otros contextos culturales es
una prctica frecuente no solo en nuestro medio sino en todo el mundo . El uso de un
test en un contexto cultural diferente, donde se usa un lenguaje distinto y se esta
familiarizado con estmulos muy diversos, produce dificultades traducibles como
fuentes de sesgo. La existencia de sesgo puede tener consecuencias iatrognicas al
aplicar los tests y al obtener resultados totalmente errneos. En un mbito clnico
podemos asumir la existencia de un rasgo de personalidad patolgico, cuando este
rasgo puede ser normal s esta dentro de un rango correctamente medido.
Adems de ser muy necesario contar con instrumentos adecuados para la practica
psicolgica y para la investigacin, la adaptacin de instrumentos responde a razones
de ndole cientfico y practico. Es importante reconocer que la mayora de las teoras
psicolgicas actuales se han desarrollado en contextos de cultura occidental y que la
validacin emprica de las mismas se ha realizado con muestras de jvenes
universitarios de raza blanca.
Ahora enfrentamos el desafi de demostrar la Universalidad de esas teoras si es que
es posible. Es por ello que para poder evaluar si un determinado rasgo psicolgico
existe en culturas diferentes es necesario contar con instrumentos equivalentes a
travs de diferentes culturas, es decir que midan lo mismo en ambas culturas en
donde va a ser aplicado. Para ello proponemos comenzar por desarrollar mayor
cantidad de instrumentos que cumplan con los requisitos necesarios para ser
aplicados segn las teoras de los tests que ltimamente han cobrado vigor y
siguiendo parmetros internacionales.
14
1
. REFERENCIAS BIBLIOGRFICAS
14
2