Você está na página 1de 30

CARLOS F.

fGOCAeRAl
6& U O TE C A P ff|$0*4t. CAPITULO

C o nfi a b i l i d a d

iin la conversacin cotidiana, confiabilidad es sinnimo de seguridad o consistencia, como en la frase "el tren es tan confiable que puedes sincronizar tu reloj con l" o "el amigo confiable que siempre est cuando lo necesitas". En el lenguaje de la psicometra, confiabilidad se refiere, en un sentido amplio, al atributo de consistencia en la medi cin. Y mientras en la conversacin cotidiana confiabilidad siempre denota algo que es valorado en forma positiva, confiabilidad en el sentido psicomtrico tan slo deno ta algo que es consistente, no necesariamente consistentemente bueno o malo, sino tan slo consistente. Es importante para nosotros como administradores de pruebas y consumidores de informacin sobre ellas saber qu tan confiables son as como otros procedimientos de medicin. Pero la confiabilidad rara vez es una cuestin de todo o nada; hay diferen tes tipos y grados de confiabilidad. Un coeficiente de confiabilidad es un ndice de confian za . Expresando de manera ms tcnica, es una proporcin que indica la razn entre la varianza de la puntuacin verdadera en una prueba y la varianza total. En este captulo, exploraremos diferentes clases de coeficientes de confiabilidad, incluyendo aquellos para medir la confiabilidad de prueba y posprueba, la confiabilidad de formas alterna tivas, la confiabilidad de divisin por mitades y la confiabilidad entre evaluadores.

El concepto de confiabilidad
Se recordar de nuestra exposicin de la teora clsica de la prueba en el captulo 1 que se supone que una puntuacin en una prueba de capacidad refleja tanto la pun tuacin verdadera de quien responde la prueba en la capacidad que se est midiendo como tambin el error.1En su sentido ms amplio, "error" se refiere al componente de
1 Con propsitos de ilustracin, se usa con frecuencia la capacidad como un rasgo que se est midiendo. Sin embargo, a menos que se declare de otra manera, los principios a los que nos referimos con respecto a las pruebas de capacidad tambin son ciertos con respecto a otros tipos de pruebas, como las pruebas de personalidad. Por tanto, de acuerdo con el modelo de puntuacin verdadera, tambin es cierto que la mag nitud de la presencia de un cierto rasgo psicolgico (como la extraversin) medido con una prueba de extraversin se deber a 1) la cantidad "verdadera" de extraversin y 2) otros factores.

154

la puntuacin observada en la prueba de capacidad que no tiene que ver con la capa cidad de quien responde la prueba. Si usamos X para representar una puntuacin observada, T para representar una puntuacin verdadera y E para representar el error, entonces el hecho de que una puntuacin observada sea igual a la puntuacin verda dera ms el error puede expresarse como sigue: X=T+E Una estadstica til para describir fuentes de variabilidad en las puntuaciones de una prueba es la varianza (a2), la desviacin estndar al cuadrado. Esta estadstica es til debido a que puede descomponerse en sus componentes. La varianza de las dife rencias verdaderas es varianza verdadera y la varianza de fuentes aleatorias irrelevan tes es varianza de error. Si cr2 representa la varianza total, ct2 representa la varianza verdadera y cr2representa la varianza de error, entonces la relacin de las varianzas puede expresarse como cr2 = cr2 + cr2 tr e En esta ecuacin, la varianza total en una distribucin observada de puntuaciones de prueba (a2) es igual a la suma de la varianza verdadera a 2 ms la varianza de error cr2 . El trmino confiabilidad se refiere a la proporcin de la varianza total atribuida a la varianza verdadera. Entre mayor es la proporcin de la varianza total atribuida a la varianza verdadera, la prueba es ms confiable. Debido a que se supone que las dife rencias verdaderas son estables, se presume que producen puntuaciones consistentes en aplicaciones repetidas de la misma prueba al igual que en formas equivalentes de las pruebas. Debido a que la varianza de error puede incrementar o disminuir una puntuacin de prueba en cantidades variables, se vera afectada la consistencia de la puntuacin, y por tanto la confiabilidad. Ntese que una fuente sistemtica de error no afectara la consistencia de la puntuacin. Si un instrumento de medicin, como una bscula, consistentemente pesara 2.5 kilogramos menos a todos los que se pararan sobre ella, entonces el peso relativo de las personas permanecera sin cambios (aunque los pesos en s variaran en forma consistente del peso verdadero por 2.5 kilogramos). Una escala que pesa 2.5 kilogramos de menos a todos los que se pesan es anloga a una constante que se resta (o se suma) de cada puntuacin de prueba. Una fuente de error sistemtica no cambia la variabilidad de la distribucin ni afecta la confiabilidad.

Fuentes de varianza de error


Las fuentes de varianza de error incluyen la construccin, administracin, calificacin e interpretacin de la prueba. Construccin de pruebas Una fuente de varianza durante la construccin de pruebas es el muestreo de reactivos o muestreo de contenido, un trmino que se refiere a la varia cin entre reactivos dentro de una prueba, al igual que a la variacin entre reactivos entre pruebas. Considrense dos o ms pruebas diseadas para medir una habilidad, atributo de personalidad o cuerpo de conocimiento especficos. Es seguro que se en cuentren diferencias en la forma en que estn redactados los reactivos y diferencias en el contenido exacto del que se ha sacado la muestra. Es probable que todos hayamos entrado a un escenario en donde se aplicar una prueba de rendimiento, pensando "Ojal hagan esta pregunta" o "Espero que no hagan esta pregunta". Con suerte, slo las preguntas que deseamos que nos hagan aparecern en el examen. En tales situa

Captulo 5: Confiabilidad

155

ciones, algunos de quienes responden la prueba logran puntuaciones superiores en la prueba de las que habran obtenido en otra prueba que pretendiera medir lo mismo, tan slo debido al contenido especfico incluido en la muestra de la primera prueba, la forma en que se redactaron los reactivos y as en forma sucesiva. El grado en que la puntuacin de quien responde la prueba es afectada slo por el contenido presenta do en la prueba al igual que por la forma en que se hizo el muestreo del contenido (es decir, la forma en que se construy el reactivo) es una fuente de varianza del error. Desde la perspectiva de un autor de pruebas, un desafo en la elaboracin de una prueba es maximizar la proporcin de la varianza total que es varianza verdadera y minimizar la proporcin de la varianza total que es varianza del error. Muchos de los elaboradores de pruebas cuyos perfiles aparecen en este libro reportaron lidiar con ste y otros problemas relacionados durante el proceso de construccin de la prueba. A este respecto, Thomas Brown, elaborador de las Escalas para Trastornos por Dficit de la Atencin de Brown (Brown Attention Dficit Disorder Scales), es tpico. Brown cree que la mayora de las personas exhiben sntomas del trastorno por dficit de la atencin de vez en cuando. Un reto para l al elaborar su prueba fue crear reactivos y una metodolo ga de medicin que identificara en forma efectiva a personas que estuvieran afectadas de manera significativa por los sntomas del trastorno por dficit de la atencin (vase la Instantnea de un elaborador de pruebas, en las siguientes pginas). Administracin de pruebas Las fuentes de varianza de error que ocurren durante la aplicacin de la prueba pueden influir en la atencin o motivacin de quien responde la prueba; por tanto, sus reacciones ante estas influencias son la fuente de una clase de varianza del error. Ejemplos de influencias adversas que operan durante la aplicacin de una prueba incluyen factores relacionados con el ambiente de la prueba: la tempe ratura del saln, el nivel de iluminacin y la cantidad de ventilacin y ruido, por ejemplo. Una mosca puede fomentar una atraccin tenaz hacia la cara de un examina do. Una bola de goma de mascar en el asiento de la silla slo delata su presencia cuando quien responde la prueba se sienta encima de ella; la lista contina. Otras variables relacionadas con el ambiente incluyen el instrumento usado para introducir las respuestas (como un lpiz con la punta rota o una pluma sin tinta) y la superficie de escritura (la cual puede estar llena de corazones grabados, el legado de estudiantes de aos anteriores que se sintieron obligados a expresar su devocin eterna a alguien a quien es probable que ahora hayan olvidado). Otras fuentes potenciales de varianza de error durante la aplicacin de la prueba incluyen variables de quien responde la prueba como el grado de incomodidad fsica, la cantidad de descanso que tuvo la noche anterior, el grado de ansiedad por la prueba, la extensin de problemas emocionales apremiantes o el efecto de frmacos. Una persona que responde una prueba puede, por cualquier razn, cometer un error al contestar una respuesta. Por ejemplo, el examinando puede rellenar un crculo "b " cuando quera rellenar el crculo "d". Un examinando podra ver una pregunta de prueba como "Cul no sera un factor que impide que las mediciones sean replicables en for ma exacta?" y leer por equivocacin "Cul es un factor que impide que las mediciones sean replicables en forma exacta?" Una pregunta omitida por descuido en una larga lista de preguntas de opcin mltiple del tipo para rellenar crculos podra dar como resultado que las respuestas subsecuentes en la prueba estn fuera de secuencia; por tanto, por ejemplo, quien responde la prueba podra responder el decimoctavo reactivo pero rellenar el crculo del decimosptimo, esto debido a que el duodcimo reactivo fue omitido de manera inadvertida. Las experiencias de aprendizaje formales, las expe riencias casuales de la vida, terapia, enfermedades y otros acontecimientos parecidos

156

Parte 2: La ciencia de la medicin psicolgica

INSTANTNEA

OE

UN

ELABORADOR

DE

PRUEBAS

Thomas E. Brown, Ph.D.


Prueba elaborada:
Escalas para el Trastorno por D ficit de la Atencin de Brown

M i suposicin fue que la mayor parte de los sntomas del trastorno por dficit de la atencin (t d a ) es experimentada por casi todos de vez en cuando. Se presupone que las personas que tienen TDA son aquellas que experimentan un deterioro significativo y persistente por los sntomas del TDA. Por tanto, si esta nueva escala de estimacin habra de ser til, necesitara ser capaz de diferenciar entre personas que reportan un deterioro significativo por estos sntomas del t d a y otras que no reportan dicho deterioro."
Extractado del Test Developer Profile publicado en Cohen (1999) y en Internet en immv.mayfieldpub.com/psychtesting.

que pueden haber ocurrido en el periodo entre aplicaciones de formas paralelas de una prueba tambin sern fuentes de varianza de error relacionadas con el examinado. Las variables relacionadas con el examinador que son fuentes potenciales de varianza de error incluyen la presencia o ausencia de un examinador, su apariencia fsica y comportamiento del examinador y el profesionalismo con que tome la situa cin de prueba el examinador. Algunos examinadores en algunas situaciones de prueba pueden apartarse a sabiendas o sin querer del procedimiento prescrito para una prue ba particular. En un examen oral, algunos examinadores podran proporcionar sin querer claves planteando preguntas que enfatizan diversas palabras, o transmitir in formacin de manera inadvertida sobre la correccin de una respuesta por medio de asentimientos de cabeza, movimientos oculares u otros gestos no verbales. Calificacin e interpretacin de pruebas El advenimiento de la calificacin computarizada y una creciente dependencia de reactivos objetivos calificables por computadora casi han eliminado la varianza de error causada por diferencias de los evaluadores en mu chas pruebas. Sin embargo, no todas las pruebas pueden calificarse con crculos relle nados con lpices del nmero 2. Las pruebas de inteligencia administradas en forma individual, algunas pruebas de personalidad, pruebas de creatividad, diversas medi das conductuales y otras innumerables pruebas todava requieren calificarse en forma manual por personal capacitado. Los manuales para las pruebas de inteligencia indivi duales tienden a ser muy explcitos sobre los criterios de calificacin para que la inteli gencia medida de los examinandos no vare como una funcin de quien est aplicando la prueba y calificando. En algunas pruebas de personalidad, se les pide a los examinandos que suministren respuestas abiertas a estmulos como dibujos, palabras, oraciones y manchas de tinta, y es el examinador quien luego debe calificar (o quiz sea ms apropiado decir evaluar) las respuestas. En una prueba de creatividad, podra drsele a los examinandos la tarea de crear tantas cosas como puedan con un conjunto

Captulo 5: Confiabilidad

157

de bloques. Para una medida conductual de habilidades sociales en un paciente inter no del servicio psiquitrico, a los calificadores o evaluadores podra pedrseles que estimaran a los pacientes con respecto a la variable de "relacin social". Dicha medida conductual podra requerir que el evaluador marcara "s" o "no" reactivos como "El paciente dice 'Buenos das' al menos a dos integrantes del personal". Puede apreciar que tan pronto como una medida psicolgica usa cualquier cosa que no sean reactivos de tipo objetivo que se pueden someter a una calificacin computarizada confiable, el calificador o el sistema de calificacin se vuelve una fuente de varianza de error. Si la subjetividad est implicada en la calificacin, el calificador (o evaluador) puede ser una fuente de varianza de error. En efecto, a pesar del esta blecimiento muy riguroso de criterios de calificacin en muchas de las pruebas de inteligencia ms conocidas, el examinador y los calificadores en ocasiones se enfren tarn con situaciones donde la respuesta de un examinando cae en un rea gris. El elemento de la subjetividad en la calificacin puede estar presente en un grado mu cho mayor en la aplicacin de ciertas pruebas de personalidad de tipo no objetivo y ciertas pruebas acadmicas (como los exmenes de ensayo) e incluso en la observa cin conductual. Considrese el caso de dos observadores a los que se les encarga la tarea de evaluar a un paciente psiquitrico en la variable de "relacin social". En un reactivo que tan slo pregunta si dos miembros del personal fueron saludados en la maana, un evaluador podra juzgar que el contacto ocular del paciente y el hecho de que masculle algo a dos miembros del personal califican como una respuesta "s", mientras que otro podra diferir y proponer que es apropiada una respuesta "no" al reactivo. Tales problemas sobre el acuerdo en la calificacin pueden abordarse por medio de una capacitacin rigurosa diseada para hacer que la consistencia, o confia bilidad, de varios calificadores sea lo ms perfecta posible. Otras fuentes de error Ciertos tipos de situaciones de evaluacin se prestan a varieda des particulares de error sistemtico y no sistemtico. Por ejemplo, considrese la eva luacin del grado de acuerdo entre parejas respecto a la calidad y cantidad de abuso fsico y psicolgico en su relacin. Como observaron Moffitt et al. (1997), "Debido a que el abuso de la pareja por lo general ocurre en privado, slo hay dos personas que 'en realidad' saben lo que sucede detrs de sus puertas cerradas: los dos miembros de la pareja" (p. 47). Las fuentes potenciales de error no sistemtico en una situacin de evaluacin as incluyen olvido, dejar de notar el comportamiento abusivo y enten der mal las instrucciones respecto al reporte. Varios estudios (O'Leary y Arias, 1988; Riggs et al., 1989; Straus, 1979) han sugerido que tambin hay factores que pueden contribuir a un error sistemtico en la forma de reportar gradualmente la perpetracin de abuso. Las mujeres, por ejemplo, pueden reportar menos abuso debido a temor, vergenza o factores de conveniencia social y reportar ms abuso si estn buscando ayuda. Los hombres pueden reportar menos abuso debido a vergenza y factores de conveniencia social y reportar ms abuso si estn intentando justificar el reporte. Del mismo modo que puede ser que nunca se conozca la cantidad de abuso que sufre una persona a manos de su pareja, as puede ser que nunca se conozca la canti dad de varianza de la prueba verdadera con relacin al error. Una supuesta puntua cin verdadera, como lo plante Stanley (1971, p. 361), "no es el hecho definitivo en el libro del ngel del registro". Adems, la utilidad de los mtodos actuales para estimar la varianza verdadera en contraposicin con la varianza de error es una cuestin que se debate en forma acalorada (vase, por ejemplo, Collins, 1996; Humphreys, 1996; Williams y Zimmerman, 1996a, 1996b). Veamos con ms detalle estas estimaciones y el proceso para derivarlas.

158

Parte 2: La ciencia de la medicin psicolgica

Estimaciones de confiabilidad Estimaciones de confiabilidad de prueba y posprueba


Una regla hecha con el acero de la mejor calidad puede ser un instrumento de medicin muy confiable; cada vez que se mide algo que tiene exactamente 12 centmetros de lar go, por ejemplo, la regla indicar que lo que se est midiendo tiene exactamente 12 cen tmetros de largo. Tambin puede decirse que la confiabilidad de este instrumento de medicin es estable en el tiempo; ya sea que se midan los 12 centmetros hoy, maana o el prximo ao, la regla an va a medir 12 centmetros como 12 centmetros. Por el con trario, una regla construida de masilla podra ser un instrumento de medicin poco con fiable. Un minuto podra medir algn patrn que se sabe que tiene 12 centmetros de largo como 12 centmetros, al minuto siguiente podra medirlo como 14 centmetros y una semana despus como 18 centmetros. Una forma de estimar la confiabilidad de un instrumento de medicin es usando el mismo instrumento para medir lo mismo en dos puntos en el tiempo. En el lenguaje psicomtrico, este enfoque de la valoracin de la confiabilidad se llama "mtodo de prueba y posprueba" y el resultado de dicha valora cin es una estimacin de la "confiabilidad de prueba y posprueba". La confiabilidad de prueba y posprueba es una estimacin de la confiabilidad obteni da al correlacionar pares de puntuaciones de las mismas personas en dos aplicaciones diferentes de la misma prueba. La medida de prueba y posprueba es apropiada cuan do se valora la confiabilidad de una prueba que pretende medir algo que es relativa mente estable a lo largo del tiempo, como un rasgo de personalidad. Si se supone que la caracterstica que se est midiendo flucta con el tiempo, tendra poco sentido eva luar la confiabilidad de una prueba usando el mtodo de prueba y posprueba; se encontraran correlaciones insignificantes entre las puntuaciones obtenidas en las dos aplicaciones de la prueba. Estas correlaciones insignificantes se deberan a cambios reales en cualquier cosa que sea lo que se est midiendo en lugar de deberse a factores inherentes en el instrumento de medicin. Conforme pasa el tiempo, las personas cambian; pueden, por ejemplo, aprender cosas nuevas, olvidar algunas cosas y adquirir habilidades nuevas. Por lo general, aunque hay excepciones, conforme se incrementa el intervalo de tiempo entre las apli caciones de las mismas pruebas, disminuye la correlacin entre las puntuaciones obte nidas en cada prueba. El paso del tiempo puede ser una fuente de varianza de error. Entre mayor tiempo pase, es ms probable que el coeficiente de confiabilidad ser menor. Cuando el intervalo entre las pruebas es mayor que seis meses, a menudo se hace referencia a la estimacin de la confiabilidad de prueba y posprueba como "coefi ciente de estabilidad". Una estimacin de la confiabilidad prueba y posprueba de una prueba de matemticas podra ser baja si quienes respondieron la prueba tomaron un curso de matemticas antes de que se aplicara la segunda prueba. Una estimacin de la confiabilidad prueba y posprueba de un perfil de personalidad podra ser baja si quien responde la prueba sufri algn trauma emocional o recibi orientacin durante el periodo intermedio. Puede encontrarse una estimacinbaja de la confiabilidad prueba y posprueba aun cuando el intervalo entre pruebas es relativamente breve; esto si las pruebas ocurren durante un tiempo de grandes cambios del desarrollo con respecto a las variables que est diseada para evaluar. Una evaluacin de un coeficiente de con fiabilidad prueba y posprueba debe abarcar, por consiguiente, ms all de la significa cin del coeficiente obtenido; debe extenderse a una consideracin de los posibles factores que intervienen entre las aplicaciones de la prueba si hemos de llegar a con clusiones apropiadas sobre la confiabilidad del instrumento de medicin.

Captulo 5: Confiabilidad

159

Una estimacin de la confiabilidad prueba y posprueba puede ser ms apropiada para calibrar la confiabilidad de pruebas que emplean como medidas de resultados el tiempo de reaccin o juicios perceptivos (como discriminaciones de brillantez, sonori dad o gusto). Sin embargo, incluso al medir variables como stas y aun cuando el periodo entre las dos aplicaciones de la prueba sea relativamente pequeo, ntese que pueden intervenir diversos factores (como experiencia, prctica, memoria, fatiga y motivacin) y confundir una medida de confiabilidad obtenida.2

Estimaciones de confiabilidad deformas alternas o equivalentes


Si alguna vez ha presentado un examen de composicin en el que las preguntas para la composicin no eran iguales que en la prueba presentada en un inicio, ha experimenta do formas diferentes de una prueba. Y si se ha preguntado si las dos formas de la prueba en realidad eran equivalentes, ha cuestionado la confiabilidad deform as alternas de la prueba. El grado de la relacin entre varias formas de una prueba puede evaluarse por medio de un coeficiente de confiabilidad deform as alternas o equivalentes, el cual a me nudo se denomina coeficiente de equivalencia. Formas alternas y formas equivalentes son trminos que en ocasiones se usan en forma indiscriminada, aunque hay una diferencia tcnica entre ellos. Existen formas equivalen tes de una prueba cuando para cada forma de la prueba son iguales las medias y las varianzas de las puntuaciones de prueba observadas. En teora, las medias de las pun tuaciones obtenidas en formas equivalentes se correlacionan de manera igual con la puntuacin verdadera. De manera ms prctica, las puntuaciones obtenidas en prue bas equivalentes se correlacionan de modo igual con otras medidas. Lasformas alternas tan slo son versiones diferentes de una prueba que se han construido con el fin de ser equivalentes. Aunque no cumplen con los requisitos para la designacin legtima de "equivalentes", las formas alternas de una prueba estn diseadas generalmente para ser equivalentes con respecto a variables como contenido y nivel de dificultad. Las estimaciones de la confiabilidad de formas alternas y equivalentes son simi lares a una estimacin de la confiabilidad y repeticin de la prueba en dos formas: 1) se requieren dos aplicaciones de la prueba con el mismo grupo y 2) las puntuaciones de prueba pueden ser afectadas por factores como la motivacin, la fatiga o eventos que intervienen como la prctica, el aprendizaje o la terapia. Sin embargo, una fuente adicional de varianza de error, el muestreo de reactivos, est inherente en el clculo de un coeficiente de confiabilidad de formas alternas o equivalentes; quienes responden las pruebas pueden salir mejor o peor en una forma especfica de la prueba, no como una funcin de su capacidad verdadera, sino tan slo debido a los reactivos particula res que se seleccionaron para ser incluidos.3Otra desventaja potencial de una forma de prueba alterna es de naturaleza financiera; comnmente consume mucho tiempo y es muy costoso elaborar formas de prueba alternas o equivalentes; tan slo piense en todo lo que podra implicar hacer que las mismas personas acuden a repetidas aplicaciones de una prueba experimental! Una ventaja primordial de usar una forma
2 Aunque podemos referimos a un nmero como una declaracin sumaria de la confiabilidad de herra mientas de medicin individuales, cualquiera de estos ndices de confiabilidad slo pueden interpretarse de manera significativa en el contexto del proceso de medicin, las circunstancias nicas que rodean al uso de la regla, la prueba o algn otro instrumento de medicin en una aplicacin o situacin particular. 3 De acuerdo con el modelo de puntuacin verdadero clsico, el efecto de tales factores en las puntuaciones de prueba se supone que es en efecto un error de medicin. Hay modelos alternativos en los que el efecto de dichos factores en puntuaciones de prueba fluctuantes no sera considerado error (Atkinson, 1981).

160

Parte 2: La ciencia de la medicin psicolgica

alternativa o paralela de una prueba es que se minimiza el efecto de la memoria para el contenido de una forma de prueba aplicada con anterioridad. Se supone que ciertos rasgos son relativamente estables en las personas a lo largo del tiempo, y esperaramos que las pruebas que miden esos rasgos, sean formas alter nas, formas equivalentes o de algn otro tipo, reflejen esa estabilidad. Como ejemplo, esperaramos que hubiera, y de hecho hay, un grado razonable de estabilidad en las puntuaciones en las pruebas de inteligencia. A la inversa, podramos esperar que hu biera relativamente poca estabilidad en las puntuaciones obtenidas en una medida del estado de ansiedad (ansiedad sentida en el momento); podra esperarse que el nivel de ansiedad experimentado por alguien que responde la prueba variara hora tras hora, por no decir da tras da, semana tras semana o mes tras mes. Puede obtenerse una estimacin de la confiabilidad de una prueba sin elaborar una forma alterna de la prueba y sin tener que administrar la prueba dos veces a las mismas personas. Dicha evaluacin implica el escrutinio de los reactivos individuales que forman la prueba y su relacin entre s. Debido a que este tipo de estimacin de la confiabilidad no se obtiene por medio de la comparacin de datos de una forma alter na ni a travs de un procedimiento de prueba y posprueba sino, ms bien, por medio de un examen de los reactivos de la prueba, se conoce como estimacin de confiabili dad de "consistencia interna" o como una estimacin de "consistencia entre reactivos". Nuestra atencin cambiar ahora a estos tipos de estimaciones de confiabilidad, co menzando por la estimacin de "divisin por mitades".

Estimaciones de confiabilidad de divisin por mitades


Una estimacin de confiabilidad de divisin por mitades se obtiene correlacionando dos pares de puntuaciones obtenidas de mitades equivalentes de una sola prueba aplica da una sola vez. Es una medida de confiabilidad til cuando es poco prctico o inde seable evaluar la confiabilidad con dos pruebas o hacer dos aplicaciones de una prueba (debido a factores como tiempo o costo). El clculo de un coeficiente de confiabilidad de divisin por mitades por lo general implica tres pasos: Paso 1. Dividir la prueba en mitades equivalentes. Paso 2. Calcular una r de Pearson entre las puntuaciones en las dos mitades de la prueba. Paso 3. Ajustar la confiabilidad de la mitad de la prueba usando la frmula de Spearman-Brown. Puede ser que haya escuchado el refrn que dice que "hay ms de una forma de pelar a un gato". Un corolario a este fragmento de sabidura podra ser que hay algu nas formas en las que nunca debera pelar a un gato. Un fragmento de sabidura an logo cuando se trata de calcular los coeficientes de confiabilidad de divisin por mitades es: hay ms de una forma de dividir una prueba, o hay algunas formas en las que nunca debera dividirse una prueba. No se recomienda tan slo dividir la prueba a la mitad, debido a que es probable que este procedimiento elevara o disminuira en forma falsa el coeficiente de confiabilidad (debido a factores como cantidades diferen tes de ansiedad por la prueba, y diferencias en la dificultad de los reactivos como una funcin de su colocacin en la prueba). Una forma aceptable de dividir una prueba es asignar al azar los reactivos a una u otra mitad de la prueba. Una segunda forma aceptable es asignar los reactivos con nmeros nones a una mitad de la prueba y los reactivos con nmeros pares a la otra mitad (produciendo una estimacin a la que

Captulo 5: Confiabilidad

161

tambin se hace referencia como "confiabilidad mitad pares-mitad nones").4 Una ter cera forma es dividir la prueba por contenido de modo que cada mitad de la prueba contenga reactivos equivalentes con respecto al contenido y dificultad. En general, un objetivo primario al dividir una prueba en mitades con el propsito de obtener una estimacin de la confiabilidad de divisin por mitades es crear lo que podra denomi narse "miniformas paralelas", con cada mitad siendo igual a la otra, o lo ms similar humanamente posible, en aspectos de formato, estilsticos, estadsticos y otros aspec tos relacionados. El paso 2 en el procedimiento implica el clculo de una r de Pearson, lo cual re quiere poca explicacin en este punto. Sin embargo, el tercer paso requiere el uso de la frmula de Spearman-Brown. La frmula de Spearman-Brown La frmula de Spearman-Brown le permite a quien elabora la prueba o al administrador estimar la confiabilidad de consistencia interna a partir de una correlacin de dos mitades de una prueba; es una aplicacin especfica de una frmula ms general para estimar la confiabilidad de una prueba que se ha alargado o acortado en cualquier cantidad de reactivos. Debido a que la confiabilidad de una prueba es afectada por su longitud, es necesaria una frmula para estimar la confiabilidad de una prueba que se ha acortado o alargado. La frmula general de Spearman-Brown (rSB ) es nr

rSB=

l +

)r

donde rSB es igual a la confiabilidad ajustada por la frmula de Spearman-Brown, r es igual a la r de Pearson en la prueba con la longitud original y n es igual al nmero de reactivos en la versin revisada dividido entre el nmero de reactivos en la versin original. Al determinar la confiabilidad de una mitad de una prueba, un elaborador de pruebas puede usar luego la frmula de Spearman-Brown para estimar la confiabili dad de una prueba entera. Debido a que la prueba entera es del doble de largo que la mitad de una prueba, n se vuelve 2 en la frmula de Spearman-Brown para el ajuste de la confiabilidad de divisin por mitades. El smbolo r^ significa la r de Pearson de las puntuaciones en las dos mitades de la prueba:

Por lo general es cierto, aunque no siempre, que la confiabilidad se incrementa conforme aumenta la longitud de una prueba, a condicin de que los reactivos adicio nales sean equivalentes con respecto al contenido y rango de dificultad de los reactivos originales. Las estimaciones de confiabilidad basadas en la consideracin de la prue ba entera tendern por consiguiente a ser mayores que aquellas basadas en la mitad de una prueba. El cuadro 5.1 muestra correlaciones de la mitad de una prueba junto con estimaciones de confiabilidad ajustadas para la prueba entera. Puede verse que todas las correlaciones ajustadas son mayores que las correlaciones sin ajustar; esto se
4 Una precaucin aqu: con respecto a un grupo de reactivos en una prueba de rendimiento que abordan un solo problema, por lo general es deseable asignar el grupo entero de reactivos a una mitad de la prueba. De otra manera, si parte del grupo estuviera en una mitad y la otra parte en la otra mitad, la semejanza de la mitad de las puntuaciones sera inflada en forma falsa; un solo error de comprensin, por ejemplo, podra afectar a reactivos en ambas mitades de la prueba.

162

Parte 2: La ciencia de la medicin psicolgica

Cuadro 5.1 Coeficientes de confiabilidad mitad pares-mitad nones antes y despus del ajuste de SpearmanBrown*

C orrelacin de la

--------------------------------------------------------------------------------------- ______S. ...

Grado

m itad de la prueba Estim acin de la (rs in ajustar) prueba entera ( r )

K .718 .836 1 .807 .893 _2________________ 777_____________ .875________


*Para puntuaciones en una prueba de capacidad mental.

debe a que las estimaciones de Spearman-Brown se basan en una prueba que es el doble de larga que la mitad de la prueba original. Para los datos de los alumnos de jardn de nios, por ejemplo, una confiabilidad de la mitad de una prueba de .718 puede estimarse que es equivalente a una confiabilidad de la prueba entera de .836. Si los elaboradores o administradores de pruebas desean acortar una prueba, la frmula de Spearman-Brown puede ser usada para estimar el efecto del acortamiento en la confiabilidad de la prueba. La reduccin en el tamao de la prueba con el prop sito de reducir el tiempo de aplicacin de la prueba es una prctica comn en situacio nes donde el administrador de la prueba puede tener slo un tiempo limitado con quien responde la prueba o en situaciones donde el aburrimiento o la fatiga podran producir respuestas de significacin cuestionable. Tambin podra usarse una frmula de Spearman-Brown para determinar el n mero de reactivos necesario para alcanzar un nivel deseado de confiabilidad. Al agre gar reactivos para incrementar la confiabilidad de la prueba hasta un nivel deseado, la regla es que los reactivos nuevos deben ser equivalentes en contenido y dificultad de modo que la prueba ms larga todava mida lo que meda la prueba original. Si la confiabilidad de la prueba original es relativamente baja, puede ser poco prctico in crementar el nmero de reactivos para alcanzar un nivel de confiabilidad aceptable. Otra alternativa sera abandonar este instrumento relativamente poco confiable y lo calizar, o elaborar, una alternativa adecuada. La confiabilidad del instrumento tam bin podra elevarse de alguna manera; por ejemplo, creando reactivos nuevos, aclarando las instrucciones de la prueba o simplificando las reglas de calificacin. Las estimaciones de confiabilidad de consistencia interna, como las obtenidas usan do la frmula de Spearman-Brown, son inapropiadas para medir la confiabilidad de pruebas heterogneas y pruebas de velocidad. El impacto de las caractersticas de la prueba en la confiabilidad se comenta con mayor detalle ms adelante en este captulo.

Otros mtodos de estimacin de la consistencia interna


Adems de la frmula de Spearman-Brown, otros mtodos que se usan en forma am plia para estimar la confiabilidad de consistencia interna incluyen frmulas desarrolla das por Kuder y Richardson (1937) y Cronbach (1951). Consistencia entre reactivos es un trmino que se refiere al grado de correlacin entre todos los reactivos en una escala. Lina medida de consistencia entre reactivos se calcula a partir de una sola aplicacin de una forma nica de una prueba. Un ndice de consistencia entre reactivos es til, a su vez, para evaluar la homogeneidad de la prueba. Se dice que las pruebas son "homog neas" si contienen reactivos que miden un solo rasgo. Como un adjetivo usado para describir reactivos de prueba, homogeneidad (derivada de las palabras griegas homos, que significa "m ism a", y genous, que significa "clase") es el grado en que una prueba mide un solo factor; o sea, el grado en que los reactivos en una escala son unifactoriales.

Captulo 5: Confiabilidad

163

En contraste con la homogeneidad de la prueba, la heterogeneidad describe el grado en que una prueba mide factores diferentes. Una prueba no homognea o heterognea se compone de reactivos que miden ms de un rasgo. Podra esperarse que una prueba que slo evala el conocimiento de las habilidades de reparacin de televisores de color tuviera un contenido ms homogneo que vina prueba de reparaciones electrni cas. La primera prueba slo evala un rea y la ltima evala varias, como el conoci miento no slo de televisores sino tambin de radios, videograbadoras, reproductores de discos compactos, etc. Entre ms homognea es una prueba, puede esperarse que tenga ms consistencia entre reactivos. Debido a que la prueba abarcara una muestra de un rea de contenido relativamente reducida, tendra ms consistencia entre reactivos. Una persona que es hbil en la reparacin de televisores de color podra estar algo familiarizado con la reparacin de otros aparatos electrnicos como radios y sistemas estereofnicos pero puede saber poco sobre videograbadoras o reproductores de discos compactos. Por tanto, habra menos consistencia entre reactivos en esta prueba de capacidad de reparacin general que en una prueba diseada para evaluar slo el conocimiento y habilidades para la reparacin de televisores de color. La homogeneidad de la prueba es deseable debido a que permite una interpreta cin relativamente sencilla de la puntuacin de la prueba. Es probable que aquellos que obtienen la misma puntuacin en una prueba homognea tengan capacidades parecidas en el rea examinada. Aquellos que obtienen la misma puntuacin en una prueba ms heterognea pueden tener capacidades bastante diferentes. Pero aunque es deseable una prueba homognea debido a que se presta con facilidad a una inter pretacin clara, a menudo es una herramienta insuficiente para medir variables psico lgicas multifacticas como inteligencia o personalidad. Una forma de evitar esta fuente potencial de dificultad ha sido aplicar una serie de pruebas homogneas, cada una diseada para medir algn componente de una variable heterognea.5 Adems de algunas de las influencias aleatorias que pueden afectar a las medidas de confiabili dad, la varianza de error en una medida de consistencia entre reactivos proviene de dos fuentes: 1) el muestreo de reactivos y 2) la heterogeneidad del rea de contenido. Entre ms heterognea sea el rea de contenido de la que se extrae la muestra, ser menor la consistencia entre reactivos. Las frirfulas de Kuder-Richardson La insatisfaccin con los mtodos de divisin por mitades existentes para estimar la confiabilidad llev a G. Frederic Kuder y M.W. Richardson (1937; Richardson y Kuder, 1939) a desarrollar sus propias medidas para estimar la confiabilidad. La ms conocida de las muchas frmulas en las que colabo raron es su frmula Kuder-Richardson 20 o KR-20 (llamada as debido a que fue la vig sim a frm ula desarrollada en una serie). En el caso en que los reactivos de la prueba son muy homogneos, las estimaciones de confiabilidad KR-20 y de divi sin por mitades sern similares. Sin embargo, la KR-20 es la estadstica de eleccin para determinar la consistencia entre reactivos de reactivos dicotmicos, sobre todo aquellos reactivos que pueden ser calificados como correctos o equivocados (como los reactivos de opcin mltiple). Si los reactivos de prueba son ms heterogneos, la KR20 producir estimaciones de confiabilidad inferiores que el mtodo de divisin por mitades. El cuadro 5.2 resume los reactivos en una prueba heterognea de muestra.

5 Como veremos en otra parte de este libro, las decisiones importantes rara vez se toman slo con base en una prueba. Los psiclogos con frecuencia se basan en una batera de pruebas, una coleccin selecta de prue bas y procedimientos de evaluacin en el proceso de valoracin. Una batera de pruebas puede componer se o no de pruebas homogneas.

164

Parte 2: La ciencia de la medicin psicolgica

Cuadro 5.2 reas de contenido en las que se realiz un muestreo para obtener 18 reactivos de la Prueba Hipottica de Reparaciones Electrnicas (phre )

Nmero de reactivo
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18

rea de contenido
Televisin de color Televisin de color Televisin blanco y negro Televisin blanco y negro Radio Radio Videograbadora Videograbadora Computadora Computadora Reproductor de discos compactos Reproductor de discos compactos Receptor estereofnico Receptor estereofnico Cmara de video Cmara de video Reproductor DVD Reproductor DVD

Asumiendo que el nivel de dificultad de todos los reactivos en la prueba es ms o menos igual, esperara que una estimacin de confiabilidad de divisin por mitades (mitad pares-mitad nones) fuera bastante alta o baja? Cmo sera la estimacin de confiabilidad KR-20 en comparacin con la estimacin de confiabilidad mitad paresmitad nones? Sera mayor o menor? Podramos suponer que debido a que las reas de contenido de las que se tom una muestra para los 18 reactivos de esta "Prueba Hipottica de Reparaciones Elec trnicas" estn ordenadas en una manera en la que los reactivos impares y pares abar can la misma rea de contenido, es probable que la estimacin de la confiabilidd mitad pares-mitad nones sea bastante alta. Con respecto a la suposicin razonable respecto a la estimacin de confiabilidad KR-20, debido a la gran heterogeneidad de las reas de contenido cuando se consideran en conjunto, podra ser razonable prede cir que la estimacin de confiabilidad KR-20 sera menor que la mitad pares-mitad nones. Cmo puede calcularse la KR-20? Puede usarse la siguiente frmula: r
KR20

=(

Jfc-1

donde r representa la frmula 20 de Kuder-Richardson del coeficiente de confiabi lidad, k es el nmero de reactivos de la prueba, a 2 es la varianza del total de las pun tuaciones de la prueba, p es la proporcin de quienes respondieron la prueba que aprobaron el reactivo, q es la proporcin de personas que fallaron en el reactivo y pq es la suma de los productos pq de todos los reactivos. Para este ejemplo particular, k es igual a 18. Basados en los datos del cuadro 5.3, puede calcularse que 1 pq es 3.975. La varianza del total de las puntuaciones de la prueba es 5.26. Por tanto, = .259. Puede obtenerse una aproximacin de la KR-20 usando la frmula vigsimo pri mera en la serie desarrollada por Kuder y Richardson, una frmula conocida, como podr adivinar, como KR-21. La KR-21 puede ser usada si hay razn para creer que todos los reactivos de la prueba tienen aproximadamente el mismo grado de dificul-

Captulo 5: Confiabilidad

165

Cuadro 5.3 Desempeo en la PHRE por reactivo para 20 personas que respondieron la prueba

Nmero de reactivo
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18

Nmero de personas que io respondieron en forma correcta


14 12 9 18 8 5 6 9 10 10 8 6 15 9 12 12 14 7

tad; una suposicin, deberamos agregar, que rara vez se justifica. La frmula KR-21 tiende a ser anticuada en una poca de calculadoras y computadoras, debido a que se usaba como una aproximacin de la KR-20 que requera menos clculos. Otra frmula usada alguna vez en la medicin de la confiabilidad de la consistencia interna y ahora en su mayor parte anticuada era un estadgrafo conocido como la frmula de Rulon (Rulon, 1939). Aunque se han propuesto numerosas modificaciones de las frmulas de KuderRichardson a lo largo de los aos (por ejemplo, Cliff, 1984; Horst, 1953), quiz la nica variante de la frmula KR-20 que ha recibido la mayor aceptacin hasta la fecha es un estadgrafo llamado "coeficiente alfa", en ocasiones denominado "coeficiente a-20" (siendo a la letra griega alfa y el 20 refirindose a KR-20). Coeficiente alfa Desarrollado por Cronbach (1951) y ampliado en lo subsecuente por otros (como Kaiser y Michael, 1975; Novick y Lewis, 1967), el coeficiente alfa puede considerarse como la media de todas las correlaciones de divisin por mitades posi bles, las buenas junto con las malas, corregida por la frmula de Spearman-Brown. Como hemos sealado antes, la KR-20 se usa en forma apropiada en pruebas con reactivos dicotmicos. El coeficiente alfa tambin puede ser usado en pruebas con reactivos dicotmicos. Adems, el coeficiente alfa es apropiado para ser usado en prue bas que contienen reactivos que no son dicotmicos: reactivos que pueden calificarse en forma individual a lo largo de un rango de valores. Los ejemplos de estas pruebas incluyen las encuestas de opinin y de actitud, donde se presenta un rango de alter nativas posibles, las pruebas de ensayo y las pruebas de respuesta corta, donde puede darse crdito parcial. La frmula para el coeficiente alfa es

A - r ) { '
donde r a es el coeficiente alfa, k es el nmero de reactivos,a 2 es la varianza de un reactivo, X cr2es la suma de las varianzas de cada reactivo y a 2 es la varianza del total

166

Parte 2: La ciencia de la medicin psicolgica

de las puntuaciones de la prueba. En la era de las computadoras y calculadoras programables, pocas personas que tuvieran la ocasin de calcular esta estadstica rea lizaran en forma manual los clculos bastante laboriosos, y podra presumirse en forma razonable que el nmero de personas que preferiran la forma antigua dismi nuira conforme aumentara el nmero de reactivos en la prueba. En la actualidad, quiz debido a la fcil disponibilidad de computadoras (desde computadoras centra les hasta porttiles), el coeficiente alfa es la estadstica preferida para obtener una estimacin de la confiabilidad de la consistencia interna (Keith y Reynolds, 1990).

Medidas de confiabilidad entre evaluadores


En situaciones en las que estamos siendo evaluados, por lo general nos gustara creer que sin importar quin est haciendo la evaluacin, seramos evaluados en la misma forma.6 Por ejemplo, si el profesor de este curso fuera a evaluar su conocimiento de la materia por medio de una prueba de ensayo, a usted le gustara pensar que la califica cin que reciba en la prueba de ensayo sera la misma si fuera calificada por su profe sor o por cualquier otro profesor que imparta este curso. Si presenta un examen prctico para obtener su licencia de manejo, a usted le gustara pensar que aprobar o reprobar la prueba slo es cuestin de su desempeo detrs del volante y no una funcin de quin est sentado en el asiento del pasajero. Por desgracia, en algunos tipos de prue bas bajo algunas condiciones, la puntuacin puede ser ms una funcin del evaluador que de alguna otra cosa. Esto se demostr desde 1912 cuando unos investigadores presentaron una composicin de ingls de un alumno a una convencin de maestros, y fue calificada por voluntarios, con calificaciones que variaron desde un mnimo de 50% hasta un mximo de 98% (Starch y Elliott, 1912). Denominada en forma diversa como "confiabilidad del evaluador", "confiabili dad del juez", "confiabilidad del observador" y "confiabilidad entre evaluadores", la confiabilidad entre evaluadores es el grado de acuerdo o consistencia que existe entre dos o ms evaluadores (o jueces o calificadores). Pueden publicarse referencias a los niveles de confiabilidad entre evaluadores para una prueba particular (ya sea en el manual de la prueba o en alguna otra parte), y si el coeficiente de confiabilidad es muy alto, el futuro administrador de la prueba sabe que las puntuaciones pueden derivarse en forma consistente y sistemtica por varios evaluadores con suficiente capacitacin. Un elaborador de pruebas responsable que es incapaz de crear una prueba que pueda ser calificada con un grado razonable de consistencia por evaluadores ca pacitados regresar al pizarrn para descubrir la razn para este problema. Si, por ejemplo, el problema es una falta de claridad en los criterios de calificacin, entonces el remedio podra ser redactar de nuevo la seccin de criterios de calificacin del ma nual para incluir reglas de calificacin redactadas con claridad. Una revisin de la literatura sobre la capacitacin de evaluadores para mejorar su desempeo en las es timaciones sugiere que las conferencias para evaluadores sobre las reglas de califica cin no son tan efectivas para promover la consistencia entre ellos como proporcionarles la oportunidad de participar en discusiones de grupo junto con ejercicios de prctica e informacin sobre su precisin (Smith, 1986).
6 Decimos "por lo general" debido a que existen excepciones. Por tanto, por ejemplo, si acude a una entre vista de trabajo y el patrn o entrevistador es un padre o algn otro pariente amoroso, podra esperar de manera razonable que la naturaleza de la valoracin que recibira no sera la misma que si el evaluador fuera alguna otra persona. Por otra parte, si el patrn o entrevistador es alguien con quien ha tenido un mal rato, puede ser tiempo de revisar de nuevo los anuncios de empleo.

Captulo 5: Confiabilidad

167

Quiz la forma ms simple de determinar el grado de consistencia que existe en tre evaluadores en la calificacin de una prueba es calcular un coeficiente de correla cin, un coeficiente de confiabilidad entre evaluadores. Suponiendo, por ejemplo, que se aplic una prueba de 30 reactivos de tiempo de reaccin a un sujeto y fue calificada por dos evaluadores, la confiabilidad entre stos sera igual al valor del coeficiente de correlacin de Spearman-Brown corregido obtenido con respecto a 30 pares de pun tuaciones. Si se encontrara que el coeficiente de confiabilidad es, digamos, .90, esto significara que el 90% de la varianza en las puntuaciones asignadas por los evaluadores se deriva de diferencias reales en el tiempo de reaccin del sujeto, mientras que el 10% podra atribuirse a factores distintos al tiempo de reaccin del sujeto (es decir, error). En muchos casos, se usan ms de dos evaluadores en estos estudios de confiabilidad. En tales casos, se correlacionaran las puntuaciones obtenidas por los dos evaluadores, usando la r de Pearson o la rho de Spearman, dependiendo de la escala de medicin de la puntuacin de la prueba. La estadstica kappa La estadstica kappa fue diseada en un principio para ser usa da en el caso en el que los evaluadores hacen estimaciones usando escalas nominales de medicin (Cohen, 1960). La estadstica kappa fue modificada despus por Fliess (1971) para ser usada con mltiples evaluadores. Por lo general se ha recibido bastan te bien la estadstica kappa como una medida de confiabilidad entre evaluadores (Hartmann, 1977), aunque hay casos especiales en las que puede ser apropiado usar la kappa en una forma modificada (Conger, 1985) o usar otra medida, como la Y de Yule (Spitznagel y Helzer, 1985).

Uso e interpretacin de un coeficiente de confiabilidad


Hemos visto que con respecto a la prueba en s, bsicamente hay tres enfoques para la estimacin de la confiabilidad: 1) prueba y posprueba, 2) formas alternas o equivalen tes y 3) consistencia interna o entre reactivos. El mtodo o mtodos empleados depen der de diversos factores, siendo primordial entre ellos el propsito de obtener una medida de confiabilidad y la forma en que se usar la medida.

Varianza verdadera Varianza de error

Figura 5.1 Fuentes de varianza en una prueba hipottica

168

Parte 2: La ciencia de la medicin psicolgica

El propsito del coeficiente de confiabilidad


Qu tanto se pueden repetir las mediciones, con la misma forma o formas alternas de una prueba, a lo largo de intervalos cortos? A lo largo de intervalos largos? stas son algunas de las preguntas que buscamos responder con referencia a un coeficiente de confiabilidad. Si se disea una prueba especfica de desempeo de los empleados para ser usada varias veces en el transcurso del periodo de empleo, sera razonable esperar que la prueba demuestre confiabilidad a lo largo del tiempo; en cuyo caso sera esen cial el conocimiento de la confiabilidad de prueba y posprueba del instrumento. Para una prueba diseada slo para una nica aplicacin, vina estimacin de la consistencia interna sera el coeficiente calculado. Si el propsito de determinar la confiabilidad es analizar la varianza de error en sus partes, como se ha hecho para la ilustracin en la figura 5.1, entonces tendran que calcularse varios coeficientes de confiabilidad. Ntese que no todos los diversos coeficientes de confiabilidad reflejan las mismas fuentes de varianza de error. Por tanto, un coeficiente de confiabilidad individual puede proporcionar un ndice de error de la construccin de la prueba, de la aplica cin de la prueba o de la calificacin e interpretacin. Un coeficiente de confiabilidad entre evaluadores, por ejemplo, proporciona informacin sobre el error como resulta do de la calificacin de la prueba. De manera especfica, puede usarse para responder preguntas de cun consistentemente califican los mismos reactivos de prueba dos evaluadores. Para respuestas a preguntas como "Cmo afecta la enfermedad a la puntuacin de esta persona que respondi la prueba?", tendra que calcularse un co eficiente de confiabilidad diferente. El cuadro 5.4 resume las diferentes clases de varianza del error que se reflejan en diferentes coeficientes de confiabilidad.

La naturaleza de la prueba
Relacionadas en forma muy estrecha con consideraciones relativas al propsito y uso de un coeficiente de confiabilidad estn las consideraciones relacionadas con la natu raleza de la prueba en s. Aqu se incluyen consideraciones como 1) si los reactivos de prueba son de naturaleza homognea o heterognea, 2) si se supone que la caracters tica, capacidad o rasgo que se est midiendo es dinmico o esttico, 3) si el rango de puntuaciones de la prueba est restringido o no, 4) si la prueba es de velocidad o de Cuadro 5.4 Resumen de tipos de confiabilidad Nmero de Nmero de sesiones de formas de prueba prueba
2 1o 2 1 1 2 1

Tipo de

confiabilidad
Prueba y posprueba Formas alternativas Consistencia interna

Fuente o fuentes de varianza de error


Aplicacin Construccin de la prueba Aplicacin Construccin de la prueba

Procedimientos estadsticos
/de Pearson o rho de Spearman rde Pearson o rho de Spearman rde Pearson entre mitades de prueba equivalentes con correccin de Spearman-Brown o Kuder-Richardson para reactivos dicotmicos o Coeficiente alfa para reactivos de puntos mltiples a de Pearson o rho de Spearman o coeficiente kappa

Entre evaluadores

Calificacin e interpretacin

Captulo 5: Confiabilidad

169

I .............................................. ACERCAMIENTO

La confiabilidad de las Escalas Bayley para el Desarrollo Infantil

L a s Escalas Bayley para el Desarrollo Infantil, segunda edicin (Bayley Scales for Infant Development; b s id - ii ; Bayley, 19931 es una prueba diseada para evaluar el nivel de desarrollo de nios entre un mes y tres aos y medio de edad. Se usa sobre todo para ayudar a identificar nios de bajo desarrollo y que podran beneficiarse con una intervencin cognoscitiva (Bayley, 1993). Las BSlD -ll incluyen tres escalas. Los reactivos en la Escala Motora estn centrados en el control y habilidad empleados en los movimientos corporales. Los reactivos en la Escala Mental se enfocan en capacidades cognoscitivas. La Escala de Estimacin del Comportamiento evala problemas conductuales, como falta de atencin. Las b s id - ii son una medida confiable? La forma en que s e evala la confiabilidad de las b s id - ii depende en parte de la naturaleza de la prueba en s. Por ejemplo, debido a que se espera que las escalas Mental, Motora y de Estimacin del Comportamiento midan un conjunto homogneo de capacidades, la confiabilidad de consisten cia interna e s una medida de confiabilidad apropiada para las escalas. Ntese que la confiabilidad de consistencia interna no se calcula a lo largo de las tres escalas de las b s id - ii al mismo tiempo, debido a que no se supone que la prueba en su conjunto sea homognea. Ms bien, se espera que cada una de estas tres escalas mida un conjunto algo diferente de habilidades de las que miden las otras. Otra caracterstica de las b s id - ii tambin justifica la valoracin de la confiabilidad de consistencia interna. No se espera que las capacidades medidas cambien durante el curso de la sesin de prueba (alrededor de 30 a 60 minutos). Adems, las b s id - ii son una prueba con referencia a la norma y de poder. Como se seala ms adelante en esta seccin, todas estas caractersticas son consecuentes con el examen de la confiabilidad de consistencia interna de la prueba. Bayley (1993) report coeficientes alfa que variaban de .78 a .93 para la Escala Mental (existen variaciones a lo largo de los grupos de edad), .75 a .91 para la Escala Motora y .64 a .92 para la Escala de Estimacin del Comportamien

to. A partir de estos estudios de confiabilidad, Bayley (1993) concluy que las b s id - ii tienen consistencia interna. Examinar la confiabilidad de prueba y posprueba de las b s id - ii plantea un problema nico para los instrumentos que se encargan de la evaluacin de bebs. Sabemos que el desarrollo cognoscitivo durante los primeros meses y aos de vida es desigual y rpido. Los nios a menudo crecen en impulsos, cambiando en forma dramtica en el transcurso de unos cuantos das (Hetherington y Parke, 1993). El nio examinado justo antes y de nuevo justo despus de un avance del desarrollo puede desempearse en forma muy diferente en el b s id - ii en las dos pruebas. En tales casos, un cambio en la puntuacin de la prueba no sera el resultado del error en la prueba en s o en la aplicacin de la prueba. En lugar de ello, tales cambios en la puntuacin de la prueba podran reflejar un cambio real en las habilidades del nio. Aun as, por supuesto, no todas las diferencias entre el desempeo en la prueba del nio en dos aplicaciones de la prueba necesitan ser el resultado de cambios en las habilidades. El reto en la estimacin de la confiabilidad de prueba y posprueba de las b s id - ii es hacerlo de tal manera que no sea disminuida en forma falsa por los cambios reales del desarrollo entre las pruebas de quien las responde. La solucin de Bayley a este dilema implic examinar la confiabilidad de prueba y posprueba durante periodos cortos. El intervalo mediano entre pruebas era de slo cuatro das. Las correlaciones entre los resultados de las dos sesiones de prueba fueron fuertes para las Escalas Mental (.83 a .91) y Motora (.77 a .79). La Escala de Estimacin del Comportamiento demostr una confiabili dad de prueba y posprueba inferior: .48 a .70 al mes de edad, .57 a .90 a los 12 meses de edad y .60 a .71 a los 24 a 36 meses de edad (Bayley, 1993). La confiabilidad entre evaluadores es una preocupacin importante para las b s id - ii , debido a que muchos reactivos requieren juicio de parte del examinador. El manual de prueba proporciona criterios claros para la calificacin del desempeo del beb, pero por su naturaleza muchas tareas

poder y 5) si la prueba se lleva a cabo con referencia a un criterio o no. Algunas prue bas presentan problemas especiales respecto a la medicin de su confiabilidad (vase el Acercamiento de este captulo). Homogeneidad contra heterogeneidad de los reactivos de la prueba Si la prueba es homo gnea en sus reactivos (es decir, si es uniforme desde el punto de vista funcional de

170

Parte 2: La ciencia de la medicin psicolgica

implican alguna subjetividad en la calificacin. Por ejemplo, uno de los reactivos de la Escala Motora es "Mantener las manos abiertas... Calificacin: dar crdito si el nio sostiene sus manos abiertas la mayor parte del tiempo cuando es libre de seguir sus propios intereses" Bayley, 1993, p. 147). El error del examinador en este reactivo puede surgir de una variedad de fuentes: diferentes examinadores pueden notar la posicin de las manos del nio en diferentes momentos. Los examinadores pueden definir en forma diferente cundo el nio es "libre de seguir sus propios intereses". Y los examinadores pueden estar en desacuerdo respecto a lo que constituye "la mayor parte del tiempo". Como un segundo ejemplo, uno de los reactivos de la Escala Mental es "Atender a la historia... Calificacin: dar crdito si el nio atiende a la historia entera. Atender incluye disminuir la actividad motora y mirar las ilustraciones, escuchar las palabras o hablarle acerca de las ilustraciones mientras le lee" (Bayley, 1993, p. 114). Los examinadores pueden diferir en presentarse de lapsos de atencin o en su exactitud respecto a la atencin a la historia completa. Una sola distraccin es suficiente para que el nio pierda crdito en este reactivo? Las correlaciones entre las puntuaciones asignadas por el examinador y por un observador sentado cerca en forma discreta durante la misma sesin de prueba fueron las siguientes: .96 para la Escala Mental, .75 para la Escala Motora, .57 a .82 para los factores diferentes de la Escala de Estimacin del Comportamiento y .88 para la Escala de Estimacin del Comportamiento total (Bayley, 1993). No existe una forma alterna o equivalente d e las b s id - i i , as que no puede evaluarse la confiabilidad de formas alternas. Sera til tener una forma alterna de la prueba, en especial en casos en los que el examinador comete un error en la aplicacin de la primera versin. Aun as, casi es seguro que la creacin de una forma alternativa de esta prueba implicara una gran inversin de tiempo, dinero y esfuerzo. Si usted fuera el editor de la prueba, hara esa inversin? Al considerar la respuesta a esta pregunta, no olvide que el nivel de capacidad de quien responde la prueba est cambiando con rapidez.

Nancy Bayley, Ph.D.

Al revisar las b s id - i i , Nellis y Gridley (1994) sealaron que una meta primordial en la revisin era fortalecer la prueba desde el punto de vista psicomtrico. Basados en los datos proporcionados en el manual de la prueba, los cuales se han resumido en este Acercamiento, Nellis y Gridley concluye ron que esta meta se logr: las b s id - ii parecen ser ms confiables que las Escalas Bayley originales. Sin embargo, todava hay algunos puntos dbiles importantes. Por ejemplo, el manual est centrado en la calidad psicomtrica de las b s id - ii aplicadas a nios sin problemas de desarrollo significativos; se desconoce si se habran obtenido los mismos niveles de confiabilidad con nios con demoras en el desarrollo (Nellis y Gridley, 1994). Debido a que las Escalas Bayley originales se usaban en forma tan amplia, Nellis y Gridley predicen que los profesionales interesados realizarn y publicarn con rapidez investigaciones para responder las interrogantes sobre la confiabilidad de la prueba revisada. Ellos, al igual que los autores de este libro, estn vidos de ver los resultados de tales estudios para entender mejor la calidad psicomtrica de las b s id - i i .

principio a fin debido a que est diseada para medir un factor, como una capacidad o un rasgo), sera razonable esperar un alto grado de consistencia interna. Si la prueba tiene reactivos heterogneos, una estimacin de la consistencia interna podra ser baja con relacin a una estimacin ms apropiada de la confiabilidad y repeticin de la prueba.

Captulo 5: Confiabilidad

171

Caractersticas dinmicas contra estticas El que lo que mide la prueba sea dinmico o esttico tambin es una consideracin para obtener una estimacin de confiabili dad. Se supone que las caractersticas dinmicas siempre cambian como una funcin de experiencias situacionales y cognoscitivas. Por ejemplo, si se fueran a tomar medi ciones cada hora de la caracterstica dinmica de ansiedad en la forma en que se ma nifiesta en un corredor de bolsa a lo largo de un da hbil, uno podra encontrar que el nivel medido de esta caracterstica cambia de una hora a otra. Tales cambios podran relacionarse incluso con la magnitud del ndice Dow-Jones. Debido a que la cantidad verdadera de ansiedad que se supone que existe variara con cada evaluacin, una medida de prueba y posprueba sera de poca ayuda para estimar la confiabilidad del instrumento de medicin. La mejor estimacin de la confiabilidad podra obtenerse a partir de tina medida de consistencia interna. Comprese esta situacin con una en la que las evaluaciones cada hora de este mismo corredor de bolsa se hacen sobre una caracterstica que no es de naturaleza dinmica sino que se supone es relativamente inmutable o esttica (como la inteligencia). En este caso, no se esperara que la medi cin obtenida variara de manera significativa como una funcin del tiempo, y seran apropiados el mtodo de prueba y posprueba o el mtodo de formas alternas. Restriccin o inflacin del rango Al usar e interpretar un coeficiente de confiabilidad, es importante el punto al que se hace referencia en forma variada como "restriccin del rango" o "restriccin de la varianza" (o, a la inversa, "inflacin del rango" o "in flacin de la varianza"). Si la varianza de cualquier variable en un anlisis correlativo es restringida por el procedimiento de muestreo usado, entonces el coeficiente de co rrelacin resultante tiende a ser menor. Si la varianza de cualquier variable en un anlisis correlativo es inflada por el procedimiento de muestreo, entonces el coefi ciente de correlacin resultante tiende a ser mayor. Tambin es de importancia crtica si el rango de las varianzas empleadas es apropiado para el objetivo del anlisis correlacional. Considrese en el ltimo contexto, por ejemplo, una prueba educativa publicada diseada para ser usada con nios de primero a sexto grados. De manera ideal, el manual para esta prueba no contendra un valor de confiabilidad que abarca ra a todos quienes respondieron las pruebas en los grados de primero a sexto, sino valores de confiabilidad para quienes respondieron la prueba en cada grado. Un fun cionario de personal corporativo que emplea una cierta prueba de seleccin en el pro ceso de contratacin debe mantener datos de confiabilidad con respecto a puntuaciones logradas por los solicitantes de empleo, en oposicin a los empleados contratados, si no se quiere restringir el rango de mediciones (esto se debe a que las personas que fueron contratadas generalmente obtuvieron puntuaciones superiores en la prueba que cualquier grupo comparable de aspirantes). Pruebas de velocidad contra pruebas de poder Cuando un lmite de tiempo es lo bas tante largo como para permitir a quienes responden la prueba intentar suspender todos los reactivos y si algunos reactivos son tan difciles que ninguna persona que responde la prueba es capaz de obtener una puntuacin perfecta, entonces la prueba es una prueba de poder. Por el contrario, una prueba de velocidad por lo general contie ne reactivos de nivel de dificultad uniforme (normalmente uniforme bajo) de modo que cuando se les dan lmites de tiempo generosos todos los que responden la prueba seran capaces de completar la totalidad de los reactivos de la prueba en forma correc ta. En la prctica, sin embargo, se establece el lmite de tiempo en vina prueba de velocidad de modo que pocos si es que alguno de quienes responden la prueba sern capaces de completar la prueba entera. Las diferencias de puntuacin en una prueba

172

Parte 2: La ciencia de la medicin psicolgica

de velocidad se basan por consiguiente en la velocidad de desempeo, debido a que los reactivos intentados tienden a ser correctos. Una estimacin de confiabilidad de tina prueba de velocidad debera estar basada en el desempeo de dos periodos de prueba independientes usando uno de los siguientes: 1) confiabilidad de prueba y posprueba, 2) confiabilidad de formas alternas o equivalentes o 3) confiabilidad de divisin por dos mitades de prueba cronometradas por separado. Si se usa un proce dimiento de divisin por mitades, el coeficiente de confiabilidad obtenido se da para una mitad de la prueba y deber ajustarse usando la frmula de Spearman-Brown. Debido a que una medida de la confiabilidad de una prueba de velocidad debera reflejar la consistencia de la velocidad de respuesta, la confiabilidad de una prueba de velocidad no debera calcularse a partir de una sola aplicacin con un lmite de tiempo nico. Si se aplica una prueba de velocidad una vez y se calcula alguna medida de consistencia interna, como la de Kuder-Richardson o una correlacin de divisin por mitades, el resultado sera un coeficiente de confiabilidad falsamente alto. Un par de ejemplos ilustra cmo ocurre esto. Cuando un grupo de personas que responden una prueba completa una prueba de velocidad, casi todos los reactivos completados sern correctos. Si se examina la confiabilidad usando una divisin mitad pares-mitad no nes, y si quienes respondieron la prueba completaron los reactivos en orden, la estarn cerca de tener el mismo nmero de reactivos impares y pares correctos. Puede esperar se que una persona que completa 82 reactivos obtenga aproximadamente 41 reactivos nones y 41 reactivos pares correctos. Una persona que completa 61 reactivos puede obtener 31 reactivos nones y 30 pares correctos. Cuando se correlaciona el nmero de reactivos nones y pares correctos a lo largo de un grupo de personas que respondieron la prueba, la correlacin estar cerca de 1.00, un valor de aspecto impresionante que no nos dice nada sobre la consistencia de la respuesta. Un coeficiente de confiabilidad de Kuder-Richardson producira un coeficiente similar. Recurdese que la confiabilidad KR-20 se basa en la proporcin de quienes responden correcto (p) y la proporcin de quienes responden incorrecto (q) en cada reactivo. En el caso de una prueba de veloci dad, es concebible que p sera igual a 1.00 y q sera igual a 0 para muchos de los reactivos. Hacia el final de la prueba, cuando muchos reactivos ni siquiera seran intentados debido al lmite de tiempo impuesto, p podra ser igual a 0 y q podra ser igual a 1.00. Para muchos de los reactivos, si no es que para la mayora, entonces, el producto de pq sera igual o aproximado a 0. Cuando se sustituye 0 en la frmula KR-20 paraX pq, el coeficiente de confiabilidad es 1.0 (un coeficiente insignificante en este caso). Pruebas con base en un criterio Una prueba con base en un criterio est diseada para proporcionar un indicio de la posicin de quien responde la prueba con base en algn criterio como un objetivo educativo o vocacional. A diferencia de las pruebas con refe rencia a una norma, las pruebas con base en un criterio tienden a contener material que se ha dominado en forma jerrquica; los aspirantes a pilotos dominan habilida des en tierra antes de intentar dominar habilidades de vuelo. Las puntuaciones en pruebas con base en un criterio tienden a interpretarse en funcin de aprobar o repro bar (o, quiz de manera ms precisa, dominar o fallar) y cualquier escrutinio del des empeo en reactivos individuales tiende a darse con propsitos de diagnstico (y remedio). Las tcnicas tradicionales para estimar la confiabilidad emplean medidas basadas en las puntuaciones totales de la prueba. En la confiabilidad de prueba y posprueba, una estimacin de confiabilidad se basa en la correlacin entre las puntua ciones totales en dos aplicaciones de la misma prueba. En la confiabilidad de formas alternas, una estimacin de confiabilidad se basa en la correlacin entre las dos pun tuaciones totales en las dos formas. En la confiabilidad de divisin por mitades, una

Captulo 5: Confiabilidad

173

estimacin de confiabilidad se basa en la correlacin entre las puntuaciones en dos mitades de la prueba y luego se ajusta usando la frmula de Spearman-Brown para obtener una estimacin de confiabilidad de la prueba entera. Estos procedimientos tradicionales para estimar la confiabilidad son inapropiados para ser usados con prue bas con referencia a un criterio. Para entender por qu, recurdese que la confiabili dad se define como la proporcin de la varianza total ( a 2) atribuible a la varianza verdadera (cr2). La varianza total en una distribucin de puntuaciones de una prueba es igual a la suma de la varianza verdadera ms la varianza del error (cr^):

Una medida de confiabilidad, por consiguiente, depende de la variabilidad de las puntuaciones de la prueba: lo diferentes que son las puntuaciones entre s. En la prue ba con referencia a un criterio y en particular en las pruebas de dominio, las diferen cias individuales entre los examinados en las puntuaciones de prueba totales pueden ser mnimas; la cuestin clave no son las puntuaciones de la prueba en comparacin con las puntuaciones de prueba de otro, sino tan slo si se ha obtenido alguna puntua cin criterio. Conforme disminuyen las diferencias individuales (y la variabilidad), una medida tradicional de confiabilidad tambin disminuira, sin importar la estabi lidad del desempeo individual. Por consiguiente, las formas tradicionales de esti mar la confiabilidad no siempre son apropiadas para pruebas con referencia a un criterio, aunque puede haber casos en los que pueden adoptarse estimaciones tradi cionales (como cuando se usa la misma prueba en diferentes etapas en algn progra ma, capacitacin, terapia o cosas por el estilo, y la variabilidad en las puntuaciones podra esperarse de manera razonable; vase Ebel, 1973)7 Antes de pasar a la exposicin de las alternativas para el modelo de puntuacin verdadera, lase acerca de una aplicacin a la vida real de los tipos de coeficientes de confiabilidad que hemos comentado hasta este punto en la seccin de Psicometra coti diana de este captulo.

Alternativas para el modelo de puntuacin real


Hasta ahora, y a lo largo de este libro a menos que se especifique de alguna otra manera, el modelo que hemos asumido ser operativo es el modelo de puntuacin real o clsico, el modelo ms usado y aceptado en la literatura psicomtrica actual. Desde el punto de vista histrico, el modelo de puntuacin real de la confiabilidad de la medicin disfrutaba de un reinado de aceptacin casi indiscutible desde principios de la dcada de 1900 hasta la dcada de 1940. La dcada de 1950 vio el desarrollo de un modelo terico alternativo, uno conocido originalmente como "teora del muestreo de dominio" y como "teora de la generalizacin" en una de sus muchas formas mo dificadas. Como fue enunciada por Tryon (1957), la teora del muestreo de dominio se rebela contra el concepto de una puntuacin verdadera existente con respecto a la medicin de constructos psicolgicos (en la misma forma en que podra existir una puntuacin verdadera con respecto a la medicin en las ciencias fsicas). Mientras que aquellos que suscriben la teora de la puntuacin verdadera buscan estimar la porcin de una puntuacin de una prueba que es atribuible al error, los defensores de la teora
7 Las tcnicas estadsticas aplicables a la evaluacin de la confiabilidad de las pruebas con referencia a un criterio se exponen con ms detalle en otra parte (por ejemplo, Hambleton y Jurgensen, 1990; Hambleton y Novick, 1973; Lord, 1978; Millman, 1974,1979; Panell y Laabs, 1979; Subkoviak, 1980).

174

Parte 2: La ciencia de la medicin psicolgica

del muestreo de dominio buscan estimar la extensin en que fuentes especficas de variacin bajo condiciones definidas estn contribuyendo a la puntuacin de la prue ba. En el ltimo modelo, la confiabilidad de una prueba es concebida como una medi da objetiva de con cunta precisin evala la puntuacin de la prueba el dominio del que la prueba extrae una muestra (Thorndike, 1985). Un dominio de comportamiento, o el universo de reactivos que podran medir de manera concebible ese comporta miento, puede considerarse un constructo hipottico: uno que comparte ciertas carac tersticas con la muestra de reactivos que forman la prueba (y es medido por sta). En teora, se considera que los reactivos en el dominio tienen las mismas medias y varianzas que aquellos en la prueba que son una muestra del dominio. De los tres tipos de estimaciones de confiabilidad, las medidas de consistencia interna quiz son las ms compatibles con la teora del muestreo de dominio. La teora de la generalizacin puede verse como una extensin de la teora de la puntuacin verdadera en la que el concepto de un universo de puntuaciones remplaza al de una puntuacin verdadera (Shavelson et al., 1989). Desarrollada por Lee J. Cronbach (1970) y sus colegas (Cronbach et al., 1972), esta teora se basa en la idea de que las puntuaciones de prueba de una persona varan de una prueba a otra debido a variables en la situacin de prueba. En lugar de concebir toda la variabilidad en las puntuaciones de una persona como error, Cronbach alienta a los elaboradores de pruebas e investiga dores a describir los detalles de la situacin de prueba particular o universo que condujo a una puntuacin de prueba especfica. Este universo se describe en funcin de sus facetas, las cuales incluyen aspectos como el nmero de reactivos en la prueba, la canti dad de capacitacin que han tenido los evaluadores y el propsito de la aplicacin de la prueba. De acuerdo con la teora de la generalizacin, debido a las mismas condiciones exactas de todas las facetas en el universo, se obtendra la misma puntuacin exacta en la prueba. Esta puntuacin de prueba es la puntuacin universo y es, como lo seal Cronbach, anloga a la puntuacin verdadera en el modelo de puntuacin verdadera.
"Cul es la capacidad de mecanografa de M ary?" Esto debe interpretarse como, "C ul sera la puntuacin de M ary si se recopilara una gran cantidad de mediciones y se prom ediaran?" La puntuacin de prueba particular que obtuvo M ary es slo una de un universo de observaciones posibles, en cualquiera de las cuales el investigador estara dispuesto a basar su conclusin o decisin. Si una de estas puntuaciones es tan aceptable com o la siguiente, entonces la media, llamada la puntuacin universo y sim bolizada aqu con M (media para la persona p), sera la declaracin ms apropiada del desempeo de M ary en el tipo de situacin que representa la prueba. El universo es una coleccin de medidas posibles "d e la misma clase", pero los lmites de la coleccin estn determinados por el propsito del investigador. Si ste necesita conocer la capacidad de mecanografa de M ary el 5 de m ayo (por ejemplo, de modo que pueda trazar una curva de aprendizaje que incluya un punto para ese da), el universo incluira observaciones en ese da y slo en ese da. Es probable que desee generalizar respecto a aprobaciones, examinadores y evaluadores; es decir, le gustara conocer la capacidad de M ary el 5 de m ayo sin referencia a cualquier aprobacin, exam inador o evaluador particular... La persona tendr de ordinario una puntuacin universo diferente para cada univer so. La puntuacin universo de M ary que abarca las pruebas del 5 de m ayo no concor dar a la perfeccin con su puntuacin universo para el mes de m ayo completo... Algunos examinadores llaman al promedio de una gran cantidad de observaciones comparables "puntuacin verdadera"; por ejemplo, "la velocidad de mecanografa verdadera de M ary en pruebas de tres m inutos". En lugar de ello, hablamos de una "puntuacin universo" para enfatizar que la puntuacin que se desea depende del

Captulo 5: Confiabilidad

175

PSICOMETRA

COTIDIANA

La defensa de la confiabilidad y la prueba del alcohmetro

llcohmetro" es el nombre genrico de cantidad de tipos diferentes de instrumentos usados por los organismos de aplicacin de la ley para determinar si un sospechoso, generalmente el operador de un vehculo de motor, est ebrio desde el punto de vista legal. Se requiere que el conductor sople en un tubo conectado al alcohmetro. Entonces la muestra de aliento se mezcla con una sustancia qumica que se agrega a la mquina para cada prueba nueva. La mezcla resultante es analizada en forma automtica para determinar el contenido de alcohol en el aliento. El valor para el contenido de alcohol en el aliento es convertido luego en un valor para el nivel de alcohol en la sangre. Si quien es sometido a la prueba ser considera do ebrio desde el punto de vista legal variar de un estado a otro como una funcin de la legislacin especfica en los libros respecto al nivel de alcohol en la sangre necesario para ser declarado intoxicado. En el estado de Nueva Jersey, el nivel de alcohol en la sangre requerido para ser declarado ebrio desde el punto de vista legal es una dcima de 1% (.10%). Los conducto res en Nueva Jersey encontrados culpables por un primer delito de conducir en estado de ebriedad enfrentan multas que ascienden a ms o menos 3 500 dlares, detencin obligatoria en un Centro de Recursos para Conductores Intoxicados, suspensin de los privilegios de conducir conduccin por un mnimo de seis meses y un mximo de 30 das de encarcelamiento. Dos modelos del alcohmetro (el modelo 900 y el modelo 900A fabricados por National

Draeger, Inc.) se han usado en Nueva Jersey desde la dcada de 1950. La confiabilidad y repeticin de la prueba bien documentada respecto a los alcohmetros 900 y 900A indica que los instrumentos tienen un margen de error de alrededor de una centsima de punto porcentual. Esto significa que una administracin de la prueba a una persona que en realidad tena un nivel de alcohol en la sangre de .10% (una "puntuacin verdadera", si se quiere) podra producir una puntuacin de prueba cualquiera desde una tan baja de .09% hasta una tan alta de .11 %. Un conductor en el estado de Nueva Jersey que fue encontrado culpable de conducir en estado de ebriedad apel la decisin con fundamento en la confiabilidad y repeticin de la prueba del alcohmetro. El alcohmetro haba indicado que el nivel de alcohol en la sangre del conductor era de .10%. El conductor argumentaba que la ley no tomaba en cuenta el margen de error inherente en el instrumento de medicin. Sin embargo, la Suprema Corte estatal fall contra el conductor, encontrando que la legislatura debe haber tomado en consideracin dicho error cuando redact la ley. Otra cuestin relacionada con el uso de alcohmetros tiene que ver con el lugar y el momento en que son aplicados. En algunos estados, la prueba se aplica generalmente en las estaciones de polica, no en la escena del arresto. Una vez fueron contratados testigos expertos de parte de los acusados para calcular cul era el nivel de alcohol en la sangre de los acusados en el momento real

universo que se est considerando. Para cualquier medida hay muchas "puntuacio nes verdaderas", cada una correspondiente a un universo diferente. Cuando usamos una sola observacin como si representara el universo, estamos gene ralizando. Generalizamos por medio de evaluadores, de selecciones mecanografiadas, quiz a travs de das. Si las puntuaciones observadas de un procedimiento concuerdan en form a estrecha con la puntuacin universo, podemos decir que la observacin es "precisa" o "confiable" o "generalizable". Y en vista de que las observaciones concuerdan luego tambin entre s, decimos que son "consistentes" y "tienen poca varianza del error". Tener tantos trminos es confuso, pero no en forma tan seria. El trmino usado con ms frecuencia en la literatura es "confiabilidad". El autor prefiere "genera lizacin" debido a que el trmino implica de inmediato "generalizacin a qu?"... H ay un grado diferente de generalizacin para cada universo. Los mtodos de anlisis ms antiguos no separan las fuentes de variacin. Se ocupan de una sola fuente de variacin, o dejan dos o ms fuentes enredadas. (Cronbach, 1970, pp. 153-154)

Cmo pueden aplicarse estas ideas? Cronbach y sus colegas sugirieron que las pruebas sean elaboradas con la ayuda de un estudio de generalizacin seguido por un

176

Parte 2: La ciencia de la medicin psicolgica

del arresto. Trabajando en retrospectiva desde el momento en que se aplic la prueba, y suponiendo valores para variables como lo que haba bebido el acusado y cundo, as como el peso del acusado, pudieron calcular un nivel de alcohol en la sangre en el momento del arresto. Si ese nivel era inferior que el nivel requerido para ser declarado ebrio desde el punto de vista legal, el caso podra haber sido rechazado. Sin embargo, en algunos estados, como Nueva Jersey, esta defensa no sera considerada. En estos estados, los tribunales superiores han fallado que debido a que estaba enterada de que las pruebas con el alcohmetro no seran aplicadas en la escena del arresto, la legislatura haba pretendido que el nivel de alcohol en la sangre medido se aplicara en el momento de su aplicacin en la estacin de polica. Un problema final relacionado con la confiabilidad que es relevante para el uso de alcohmetros tiene que ver con la confiabilidad entre evaluadores. Cuando se usan los modelos 900 y 900A, el oficial de polica que realiz el arresto tambin registra el nivel de alcohol en la sangre medido. Aunque la gran mayora de oficiales de polica son honestos en el momento de registrarlo, hay un potencial para el abuso. Un oficial de polica que deseara salvar las apariencias en el arresto de un conductor ebrio, o incluso un oficial de polica que tan slo deseara aumentar un expediente de arrestos de conductores ebrios, podra registrar un valor del alcohmetro incorrecto para asegurar

Una sospechosa a la que se le aplica una prueba con el alcohmetro

una condena. En 1993, un oficial de polica en el condado de Camden, Nueva Jersey, fue condenado y enviado a prisin por registrar lecturas incorrectas del alcohmetro (Romano, 1994).

estudio de decisin. Un estudio de generalizacin analiza qu tan generalizables son las puntuaciones de una prueba particular si la prueba es aplicada en situaciones diferen tes. Planteado en el lenguaje de la teora de la generalizacin, un estudio de generaliza cin analiza cunto impacto tienen diferentes facetas del universo en la puntuacin de la prueba. La puntuacin de la prueba es afectada por una aplicacin grupal en opo sicin a una aplicacin individual? La puntuacin de la prueba es afectada por la hora del da en que se aplic? La influencia de facetas particulares en la puntuacin de la prueba se representa con coeficientes de generalizacin. Estos coeficientes son similares a los coeficientes de confiabilidad bajo el modelo de puntuacin verdadera. Despus de que se realiza el estudio de generalizacin, Cronbach et al. recomen daron que los elaboradores de pruebas hicieran un estudio de decisin, el cual impli ca la aplicacin de informacin del estudio de generalizacin. En el estudio de decisin, los elaboradores analizan la utilidad de las puntuaciones de prueba para ayudar al administrador de la prueba a tomar decisiones. En la prctica, las puntuaciones de prueba se usan para guiar una variedad de decisiones, desde colocar a un nio en educacin especial hasta contratar empleados nuevos y dar de alta del hospital a pa

Captulo 5: Confiabilidad

177

cientes mentales. El estudio de decisin est diseado para indicar al administrador de la prueba cmo deberan emplearse las puntuaciones de prueba y qu tan fiables son esas puntuaciones como base para las decisiones, dependiendo del contexto de su uso. Por qu es tan importante esto? Cronbach (1970) lo explic:
La decisin de que un estudiante ha completado un curso o que un paciente est listo para la terminacin de la terapia no debe ser influida en forma seria por errores alea torios, variaciones temporales en el desempeo o la eleccin de preguntas del exam i nador. Una decisin favorable errnea puede ser irreversible y puede daar a la persona o a la comunidad. Aun cuando sea reversible, una decisin desfavorable errnea es injusta, trastorna la moral de la persona y quiz retarda su desarrollo. La investiga cin, tambin, requiere una medicin fiable. Un experimento no es muy informativo si una diferencia observada pudiera explicarse por variacin aleatoria. Es probable que la varianza de error grande enmascare un resultado importante desde el punto de vista cientfico. Tomar una medida mejor incrementa la sensibilidad de un experim en to en la misma forma en que lo hace el incremento en el nmero de sujetos, (p. 152)

La generalizacin no ha remplazado al modelo de puntuacin verdadera. Aun as, su atractivo sigue siendo fuerte, como lo evidencia un libro reciente para nefitos (Shavelson y Webb, 1991) y una variedad de artculos de investigacin que emplean tcnicas de generalizacin (Marcoulides, 1994; McKenzie et al., 1993; Shrout, 1993; Suen et al., 1993). En su atractivo est inherente su mensaje de que la confiabilidad de una prueba no reside dentro de la misma prueba. Ms bien, la confiabilidad de una prueba es con mucho una funcin de las circunstancias bajo las cuales se elabora, aplica e interpreta la prueba.

Confiabilidad y puntuaciones individuales


El coeficiente de confiabilidad ayuda al elaborador de la prueba a construir un instru mento de medicin adecuado y al administrador a seleccionar una prueba adecuada. Sin embargo, la utilidad del coeficiente de confiabilidad no termina con la construc cin y seleccin de la prueba. Al emplear el coeficiente de confiabilidad en la frmula para el error estndar de medicin, el administrador de la prueba ahora tiene otra estadstica descriptiva relevante para la interpretacin de la prueba, sta til para describir la cantidad de error en una prueba o una medida.

El error de medicin estndar


La desviacin estndar de una distribucin normal desde el punto de vista terico de puntuaciones de prueba obtenidas por una persona en pruebas equivalentes es el error estndar de medicin, abreviado SEM o SEm (por sus siglas en ingls) tambin conocido como el error estndar de una puntuacin y denotado por el smbolo < x m eas, el error estndar de medicin es un ndice del grado en que las puntuaciones individua les de uno varan a lo largo de pruebas que se supone son paralelas. De acuerdo con el modelo de puntuacin verdadera, una puntuacin de prueba obtenida representa un punto en la distribucin de puntuaciones terica que podra haber obtenido quien responde la prueba. Adems, el administrador de la prueba no tiene forma de conocer la puntuacin verdadera de quien la responde. Sin embargo, si se conoce (o puede calcularse) la desviacin estndar para la distribucin de puntuaciones de prueba y si se conoce (o puede calcularse) una estimacin de la confiabilidad de la prueba, puede determinarse una estimacin del error estndar de una puntuacin particular (es de cir, el error estndar de medicin) con la siguiente frmula:

178

Parte 2: La ciencia de la medicin psicolgica

donde crm eas es igual al error estndar de medicin, < x es igual a la desviacin estndar de las puntuaciones de prueba por el grupo de personas que la respondieron y r es igual al coeficiente de confiabilidad de la prueba. El error estndar de medicin nos permite estimar el rango en que es probable que exista la puntuacin verdadera, con un nivel de confianza especfico. Si, por ejemplo, una prueba de ortografa tiene un coeficiente de confiabilidad de .84 y una desviacin estndar de 10, entonces: crm e as = 1 0 V i _ 84 = 4 x Para usar el error estndar de medicin para estimar el rango de la puntuacin verdadera, hacemos una suposicin: si el individuo fuera a presentar una gran canti dad de pruebas equivalentes, las puntuaciones en esas pruebas tenderan a estar dis tribuidas de manera noimal con la puntuacin verdadera del individuo como la media. Debido a que el error estndar de medicin funciona como una desviacin estndar en este contexto, podemos emplearlo para predecir qu sucedera si un individuo presentara pruebas equivalentes adicionales: Se esperara que aproximadamente el 68% (en realidad, 68.26%) de las puntuaciones ocurriera dentro de 1 a m e a s de la ipuntuacin verdadera. Se esperara que aproximadamente el 95% (en realidad, 95.44%) de las puntuaciones ocurriera dentro de 2crm eas de la puntuacin verdadera. Se esperara que aproximadamente el 99% (en realidad, 99.74%) de las puntuaciones ocurriera dentro de 3 a m e as de la *puntuacin verdadera.

Por supuesto, no conocemos la puntuacin verdadera para ningn individuo que responda la prueba, as que debemos estimarla. La mejor estimacin disponible res pecto a la puntuacin verdadera del individuo en la prueba es la puntuacin de prue ba ya obtenida. Por tanto, si un estudiante logr una puntuacin de 50 en una prueba de ortografa, y si la prueba tena un error estndar de medicin de 4, entonces usan do 50 como el punto estimado, podra ser 68% (en realidad, 68.26%) seguros de que la puntuacin verdadera cae dentro de 50 lo-m eas (o entre 46 y 54, incluyendo 46 y 54). 95% (en realidad, 95.44%) seguros de que la puntuacin verdadera cae dentro de 50 2crm eas (o entre 42 y 58, incluyendo 42 y 58). 99% (en realidad, 99.74%) seguros de que la puntuacin verdadera cae dentro de 50 3crm eas (o entre 38 y 62, incluyendo 38 y 62).

El error estndar de medicin, como el coeficiente de confiabilidad, es una forma de expresar la confiabilidad de la prueba. Si la desviacin estndar de una prueba se mantiene constante, entre menor sea la < rm eas, ser ms confiable la prueba; conforme se incrementa r, la a m eas disminuye. Por ejemplo, cuando un coeficiente de confiabili dad es igual a .64 y s es igual a 15, el error de mediacin estndar es igual a 9:

Con un coeficiente de confiabilidad igual a .96 y a todava igual a 15, el error estndar de medicin disminuye a 3

Captulo 5: Confiabilidad

179

^m e a s = 15V r T 96 = 3
En la prctica, el error estndar de medicin se usa con ms frecuencia en la inter pretacin de puntuaciones de prueba individuales. Por ejemplo, las pruebas de inteli gencia se aplican como parte de la evaluacin de individuos para determinar retraso mental. Uno de los criterios para el retraso mental es una puntuacin de CI de 70 o menor (cuando la media es 100 y la desviacin estndar es 15) en una prueba de inte ligencia aplicada en forma individual (American Psychiatric Association, 1994). Una pregunta que podra plantearse sobre estas pruebas es cmo deberan tratarse las puntuaciones que se encuentran cerca del valor limtrofe de 70. De manera especfica, qu tan arriba de 70 debe estar una puntuacin para concluir con confianza que es improbable que el individuo tenga retardo? 72 est claramente encima del rango de retraso, de modo que si la persona respondiera una forma paralela de la prueba, po dramos estar seguros de que la segunda puntuacin estara por arriba de 70? Qu hay de una puntuacin de 75? Una puntuacin de 79? Para responder estas interrogantes es til una estimacin de la cantidad de error en una puntuacin de prueba observada. El error estndar de medicin proporciona dicha estimacin. Adems, el error estndar de la estimacin es til para establecer lo que se ha llamado intervalo de confianza; es decir, un rango o banda de puntuaciones de prueba que es probable que contengan la puntuacin verdadera. Considrese en este contexto la Escala Wechsler de Inteligencia para Adultos-Tercera Edicin (Wechsler Adult Intelligence Scale-III; WAIS-III), una prueba diseada para medir la inteligencia de los adultos. El manual tcnico para esta prueba proporciona una gran cantidad de informacin relevante para la confiabilidad de la prueba en conjunto, as como infor macin ms especfica relacionada con la confiabilidad para cada una de sus subpruebas. Como se reporta en el manual, la desviacin estndar es 3 para las puntuaciones en escala de subprueba, y 15 para el CI y las puntuaciones del ndice. A lo largo de todos los grupos de edad en la muestra normativa, el coeficiente de confiabilidad promedio para el CI de la Escala Completa (Full Scale IQ; FSIQ) es .98 y el error estndar promedio de medicin para el FSIQ es 2.3. El manual tambin proporciona informacin mucho ms especfica, incluyendo datos del error estndar de medicin por subprueba individual y grupo de edad. Conociendo la puntuacin FSIQ de un individuo que res pondi la prueba y su edad podemos calcular un intervalo de confianza. Por ejemplo, supngase que una persona de 22 aos de edad respondi la prueba y obtuvo un FSIQ en la WAIS-III de 75. El usuario de la prueba puede estar seguro en un 95% de que el FSIQ verdadero de esta persona cae en el rango de 70 a 80. Esto se debe a que el interva lo de confianza del 95% se establece tomando la puntuacin observada de 75, ms o menos 1.96 multiplicado por el error estndar de medicin. Como se reporta en la pgina 54 del manual de la WAIS-III, el error estndar de medicin de la FSIQ para un individuo de 22 aos de edad que responda la prueba es 2.37. Con esta informacin a la mano, el intervalo de confianza del 95% se calcula como sigue: 75 + 1.96crm e as = 75 1.96(2.37) = 75 4.645 ' ' El intervalo calculado de 4.645 se redondea al nmero entero ms cercano, 5. Por con siguiente, podemos estar seguros en un 95% que la FSIQ verdadera de esta persona que respondi la WAIS-III se encuentra en alguna parte dentro del rango de la puntua cin observada de 75 ms o menos 5, o en alguna parte dentro del rango de 70 a 80. El error estndar de medicin puede ser usado para establecer el intervalo de confianza para una puntuacin particular o para determinar si una puntuacin es

180

Parte 2 : La ciencia de la medicin psicolgica

diferente de manera significativa de un criterio (como la puntuacin limtrofe de 70 descrita antes). El error estndar de medicin no puede emplearse para comparar puntuaciones. Para llevar a cabo esta clase de comparaciones, contine leyendo.

El error estndar de la diferencia entre dos puntuaciones


El error relacionado con cualquier cantidad de variables posibles en operacin en una situacin de prueba (como el muestreo de reactivos, el estado fsico o mental de quien responde la prueba y el ambiente de la prueba) puede contribuir a un cambio en una aplicacin lograda en la misma prueba, o en una prueba paralela, de una administra cin de la prueba a la siguiente. La cantidad de error en una puntuacin de prueba especfica est expresada en el error estndar de medicin. Pero las puntuaciones pue den cambiar de una prueba a la siguiente por razones distintas al error. Las diferencias verdaderas en la caracterstica que se va a medir tambin pueden afectar a las puntuaciones de la prueba. Estas diferencias pueden ser de gran inters, como en el caso del funcionario de personal que debe decidir a cul de muchos aspi rantes contratar. En efecto, puede contarse con tales diferencias, como en el caso de un investigador de psicoterapia que espera demostrar la efectividad de un enfoque particular de la terapia. Las comparaciones entre puntuaciones se llevan a cabo usan do el error estndar de la diferencia, una medida estadstica que puede ayudar a un administrador de la prueba a determinar qu tan grande debera ser una diferencia antes de que sea considerada estadsticamente significativa. Como es probable que haya aprendido en su curso de estadstica, la costumbre en el campo de la psicologa dicta que si la probabilidad es mayor que el 5% de que la diferencia haya ocurrido al azar, entonces en la prctica se supone que no hubo diferencia. Una norma ms rigu rosa es el estndar del 1%; con este criterio, no se considerara que existe alguna dife rencia significativa desde el punto de vista estadstico a menos que la diferencia observada pudiera haber ocurrido slo por azar menos de una vez en un ciento. El error estndar de la diferencia entre dos puntuaciones puede ser la herramien ta estadstica apropiada para abordar tres tipos de interrogantes: 1. 2. 3. Cmo se compara el desempeo de este individuo en la prueba 1 con su desempeo en la prueba 2? Cmo se compara el desempeo de este individuo en la prueba 1 con el desempeo de alguien ms en la prueba 1? Cmo se compara el desempeo de este individuo en la prueba 1 con el desempeo de alguien ms en la prueba 2?

Como podra esperarse, cuando se comparan puntuaciones obtenidas en pruebas diferentes, es esencial que las puntuaciones sean convertidas a la misma escala. La frmula para el error estndar de la diferencia entre dos puntuaciones es
d iff= V ^ 2m eas l + cr2m eas2

donde a m es el error estndar de la diferencia entre dos puntuaciones, cr 2m eas, es el error estndar de medicin al cuadrado para la prueba 1 y cr 2m ea.2es el error estndar de medicin al cuadrado para la prueba 2. Si sustituimos los coeficientes de confiabi lidad para los errores estndares de medicin de las puntuaciones separadas, la fr mula se vuelve
7d , f f = o ' V ' 2 - r 1 - r 7

Captulo 5: Confiabilidad

181

donde rx es el coeficiente de confiabilidad de la prueba 1, r2 es el coeficiente de confia bilidad de la prueba 2 y cr es la desviacin estndar; ambas pruebas tienen la misma desviacin estndar, debido a que tendran que haber estado en la misma escala (o haberse convertido a la misma escala) antes de que se pudiera hacer la comparacin. El error estndar de la diferencia entre dos puntuaciones ser mayor que el error estndar de medicin para cualquier puntuacin sola debido a que el primero es afecta do por el error de medicin en ambas puntuaciones. Esto tambin tiene sentido: si dos puntuaciones contienen cada una error, de tal manera que en cada caso la puntuacin verdadera podra ser superior o inferior, desearamos que las dos puntuaciones estu vieran ms separadas antes de concluir que hay una diferencia significativa entre ellas. El valor obtenido cuando se calcula el error estndar de la diferencia se usa en forma muy parecida a la del error estndar de la media. Si deseamos estar seguros en un 95% de que las dos puntuaciones son diferentes, desearamos que estuvieran separadas por dos errores estndar de la diferencia. Una separacin de slo un error estndar de la diferencia nos dara una confianza del 68% de que las dos puntuacio nes verdaderas son diferentes. Como una ilustracin del uso del error estndar de la diferencia entre dos pun tuaciones, considrese la situacin de un gerente de personal corporativo que est buscando una persona muy responsable para el puesto de vicepresidente de seguri dad. El funcionario de personal en esta situacin hipottica decide usar una nueva prueba publicada llamada "Prueba de Disposicin para la Seguridad" (PDS) para se leccionar aspirantes para el puesto. Despus de colocar un anuncio en la seccin de empleos del peridico local, el funcionario de personal examina a 100 aspirantes para el puesto, usando la PDS. El funcionario de personal reduce la bsqueda del vicepresi dente a los dos que hayan obtenido las puntuaciones ms altas en la PDS: Moe, quien obtuvo una puntuacin de 125, y Larry, quien obtuvo una puntuacin de 134. Supo niendo que la confiabilidad medida de esta prueba es de .92 y su desviacin estndar es de 14, el funcionario de personal debera concluir que Larry se desempe de manera significativa mejor que Moe? Para responder esta pregunta, primero calcula remos el error estndar de la diferencia: crd iff = 14 V 2 - ^ 92^ 92 = 14V6 = 5.6 Ntese que en esta aplicacin de la frmula, los dos coeficientes de confiabilidad de la prueba son iguales debido a que las dos puntuaciones que se estn comparando se derivaron de la misma prueba. Qu significa este error estndar de la diferencia? Para cualquier error estndar de la diferencia, podra ser 68% seguros de que dos puntuaciones que difieren por una a d iff representan diferencias de puntuacin verdadera. 95% seguros de que dos puntuaciones que difieren por dos crd iff representan diferencias de puntuacin verdadera. 99.7% seguros de que dos puntuaciones que difieren por tres crd ff representan diferencias de puntuacin verdadera.

Aplicando esta informacin al error estndar de la diferencia que se acaba de calcular para la "Prueba de Disposicin para la Seguridad", vemos que el funcionario de personal puede estar

182

Parte 2: La ciencia de la medicin psicolgica

68% seguro de que dos puntuaciones que difieren por 5.6 representan diferencias de puntuacin verdadera. 95% seguro de que dos puntuaciones que difieren por 11.2 representan diferencias de puntuacin verdadera. 99.7% seguro de que dos puntuaciones que difieren por 16.8 representan diferencias de puntuacin verdadera.

La diferencia entre las puntuaciones de Larry y Moe es slo de 9 puntos, no es una diferencia lo bastante grande para que el funcionario de personal concluya con una confianza del 95% que los dos individuos en realidad tienen puntuaciones verda deras que difieren en esta prueba. Planteado de otra forma, si Larry y Moe presenta ran una forma paralela de la "Prueba de Disposicin para la Seguridad", el funcionario de personal no podra estar seguro al 95% de que, en la siguiente prueba, Larry supe rara de nuevo a Moe. El funcionario de personal en este ejemplo tendra que recurrir a otros medios para decidir si Moe, Larry o alguien ms sera el mejor candidato para el puesto. Como una nota final al ejemplo anterior, supngase que Larry obtuvo el empleo principalmente con base en los datos de nuestra hipottica PDS. Y supngase adems que pronto se hace demasiado evidente que Larry result ser sin lugar a dudas el peor vicepresidente de seguridad absoluto que haya visto la compaa. Larry pasaba gran parte de su tiempo jugndoles bromas a sus colegas funcionarios corporativos y dedi caba muchas de sus horas de descanso dedicado a su pasatiempo favorito: sentarse al pie del astabandera. El funcionario de personal podra tener entonces muy buenas razones para cuestionar qu tan bien haba medido en realidad la disposicin para la seguridad el instrumento llamado "Prueba de Disposicin para la Seguridad". O, puesto de otra manera, el funcionario de personal podra cuestionar la validez de la prueba. No es una coincidencia que el tema de la validez de la prueba se aborde en el siguiente captulo.

Captulo 5: Confiabilidad

183

Você também pode gostar