La Fiabilidad de Los Test Y Escalas

LA FIABILIDAD DE LOS TEST Y ESCALAS Recordemos que la validez se refera al significado que podemos atribuir.
Es decir, estar seguro de que se mide lo que se dice medir, pero NO hay que entenderlo como una caracterstica del instrumento. Con una validez alta podemos garantizar el significado de las puntuaciones de los sujetos. Por tanto si cambio de muestra puede cambiar mi fiabilidad y mi validez, porque cambio de sujetos. Hay que intentar que las muestras sean heterogneas. CONCEPTOS PRELIMINARES DE FIABILIDAD. La fiabilidad es una caracterstica de los resultados, de unas puntuaciones obtenidas en una muestra determinada. Un mismo instrumento puede medir bien a los sujetos de una muestra, con mucha precisin y mal, con un margen de error grande, a los sujetos de otra muestra. En principio la fiabilidad expresa el grado de precisin en la medida. Con una fiabilidad alta los sujetos en ocasiones sucesivas quedaran ordenados de manera semejante. Ej. Si tiene una actitud favorable hacia la homosexualidad no puede a veces ser desfavorable. Otro concepto es el de consistencia o predictibilidad. Un test es fiable si sabemos de antemano como va a contestar un sujeto, y lo sabemos porque lo hemos comprobado en muchas ocasiones. Errores sistemticos: son los que siempre ocurren. Ej. A cada sujeto se le dan dos puntos mas Estn relacionados con la validez. Errores aleatorios: los que ocurren al azar. Relacionados con la fiabilidad. ENFOQUES DE LA FIABILIDAD. 1. Como formas paralelas. Son dos versiones del mismo test: los tems son distintos pero se pretende medir lo mismo. Se espera que un sujeto saque en ambos test las mismas puntuaciones verdaderas. La puntuacin emprica se divide en la puntuacin verdadera y en los errores (modelo lineal de Spearman). Condiciones para que sean formas paralelas: 1 Las puntuacin empricas pueden ser diferentes pero las verdaderas son siempre iguales. 2 La dispersin de los errores o la varianza error debe ser la misma en ambos test. Indicador de equivalencia. Puede ser un indicador de equivalencia entre los dos test: si la correlacin es alta, las dos formas del mismo test dan resultados parecidos, es decir, ambas son intercambiables. Si la correlacin es baja, miden cosas distintas. Confirmacin adicional.
Una confirmacin adicional para ver que son formas paralelas es comprobar si la correlacin media Inter tem dentro de cada forma es de magnitud similar y tambin la correlacin de los tems de una forma con los de la otra versin. 2. Estabilidad Temporal (Test Retest) Los sujetos responden dos veces al mismo test dejando un intervalo de tiempo entre ambas. Se refiere a que si el test se aplica hoy o dentro de un tiempo, siga siendo valido y fiable, es decir, que se encuentre una relacin entre lo que se obtiene hoy y lo que se obtiene mas adelante. Indicador de estabilidad. Es un indicador de estabilidad o de no ambigedad en la medida en que en ambas ocasiones los resultados son parecidos. 3. Consistencia Interna. Expresa hasta que punto las respuestas son suficientemente coherentes y relacionadas para concluir que todos los tems miden lo mismo y son sumables en una puntuacin nica que representa o mide un rasgo (recordemos que estamos en la escala tipo Lickert y que para sumar tems deben medir lo mismo). Podemos hallarla de dos maneras: Procedimiento de las dos mitades: mediante a) la formula de Spearman Brown, b) Flanagan, c) de Cronbach. Es habitual dividir el test en tems pares e impares, pero puede dividirse en dos mitades cualesquiera, teniendo ambas el mismo numero de tems. Si emparejamos los tems segn contenido de manera que cada mitad del test conste de tems muy parecidos, obtendremos una estimacin ms alta de la fiabilidad. Cuando la mitad de los tems son positivos y la otra negativos es til que las dos mitades estn compuestas una por tems positivos y otra por los negativos. Una correlacin entre los dos subtest en torno a 0,50 o mayor indica suficiente coherencia entre los dos tipos de tems y no se manifiesta aquiescencia. Se parte el test en dos mitades, y para decir que son formas paralelas tienen que tener: a) la misma media, b) la misma varianza. Y si los correlaciono me dara la fiabilidad de una parte o de otra (son la misma) y con el coeficiente de Spearman Brown hallamos la fiabilidad del conjunto. R12 = correlacin entre las dos mitades del test Esta formula calcula la fiabilidad de todo el test. Supone que las dos mitades tienen medias y varianzas idnticas, por lo que sobreestima la fiabilidad. Procedimiento informativo de cada tem: cuando parto el test en tantas partes como tems hay. Podemos usar el de Cronbach (para tems continuos) y la KuderRichardson (para tems dicotmicos). Son preferibles a los mtodos de las dos mitades porque equivalen a la fiabilidad media que obtendramos 2
dividiendo un test en todas sus posibles dos mitades. SUPUESTOS DE LA TEORIA CLASICA 1 La media emprica es igual a la media verdadera mas los errores. X = V + E 2 La media de los errores tiene que ser 0, es decir aleatorios. 3 No tiene que haber relacin entre la puntuacin verdadera y los errores, porque sino serian sistemticos. 4 La correlacin entre los errores de dos test paralelos tiene que ser 0 porque sino serian sistemticos. COEFICIENTES DE CONSISTENCIA INTERNA La varianza de las puntuaciones totales de un test es:
= Varianza total: expresa todo lo que hay de diferente en las puntuaciones totales. La varianza ser mayor si los sujetos difieren mucho entre si y estar asociada a mayor fiabilidad.
= Varianza verdadera: expresa lo que hay de diferente debido a que los sujetos son distintos en lo que pretendemos medir, es decir, lo que hay de diferente debido a lo que los tems tienen en comn.
= Varianza debida a errores de medicin: debida a que los tems miden en parte cosas distintas. Puede haber ms fuentes de error pero controlamos la debida a falta de homogeneidad. La fiabilidad es la proporcin de varianza verdadera, es decir la fiabilidad es igual a la varianza debida a lo que hay de coherente en las respuestas entre la varianza debida tanto a lo que hay de coherente como de no coherente en las respuestas y su formula bsica es: REQUISITOS PARA UNA FIABILIDAD ALTA. 1 Tendremos una fiabilidad alta cuando haya diferencias en las respuestas a los tems, es decir, cuando los tems discriminan. Si un tem no esta relacionado con los dems puede ser que no este midiendo lo mismo y que no sea discriminante. 2 Y tambin cuando las respuestas de los tems estn relacionadas entre si, entonces habr consistencia interna. Esto es que los sujetos tienden a puntuar alto en todos o bajo en todos. Con respuestas diferentes y adems coherentes, los sujetos quedan ms diversificados, mejor clasificados por sus puntuaciones totales y esto se refleja en una mayor varianza. La fiabilidad viene a expresar la capacidad del instrumento para discriminar, para diferenciar a los sujetos a travs de sus respuestas en todos los tems. FORMULAS DE KUDER RICHARDSON 20 Y DE CRONBACH Se trata de la misma formula, una expresada para tems dicotmicos y otra para tems continuos.
El denominador es la varianza de las puntuaciones totales del test. El numerador es la varianza verdadera, o la suma de covarianzas de los tems. Si los tems no discriminan sus desviaciones tpicas sern pequeas, bajara el numerador y bajara la fiabilidad. Si las desviaciones tpicas son grandes pero los tems no estn relacionados bajara la fiabilidad, porque esa no relacin entre los tems hace que las puntuaciones totales estn menos diferenciadas. Coeficiente de Cronbach. K = numero de tems
= suma de las varianzas de los tems
= varianza de los totales. Formula Kuder Richardson. FACTORES QUE INCIDEN EN LA MAGNITUD DEL COEFICIENTE DE FIABILIDAD. Los coeficientes de fiabilidad tienden a aumentar cuando: La muestra es heterogenea: es ms fcil clasificar a los sujetos cuando son distintos. La muestra es grande: es ms probable que haya sujetos muy distintos. Las respuestas a los tems son ms de dos: mayor probabilidad de que las respuestas difieran mas, de que se manifiesten las diferencias que de hecho existen. Cuando los tems son muchos: hay ms oportunidad de que los sujetos queden ms diferenciados en la puntuacin total. Si queremos aumentar la fiabilidad del test podemos aumentar el numero de tems siempre que sean buenos y relacionados. Pero la relacin longitud fiabilidad no es lineal (porque sino seria infinita), la relacin que hay entre ambas muestra un efecto techo. En test cortos no muy fiables si aumentamos el numero de tems aumentara mucho la fiabilidad, sin embargo en test largos pasa lo contrario, la fiabilidad aumenta poco por el efecto techo. Para aumentar los tems existen unas formulas (Pg. 9) La formulacin de los tems es muy semejante: si hay diferencias entre los sujetos, aparecern en todos los tems y subirn sus intercorrelaciones. INTERPRETACION DE LOS COEFICIENTES DE CONSISTENCIA INTERNA. Expresa la proporcin de varianza debida a lo que los tems tienen de relacionado. Un coeficiente de 0,70 indica el 70% de la varianza se debe a lo que los tems tienen en comn, y un 30% se debe a errores de medicin. 4
Son indicadores de homogeneidad de los tems, de que todos midan lo mismo. La homogeneidad conceptual se interpreta como descriptor del rasgo que suponemos presente en todos los tems. Son una estimacin del coeficiente de correlacin que podemos esperar con un test similar, con el mismo nmero y tipo de tems. De un universo de posibles tems hemos escogido una muestra de tems. Si la fiabilidad es alta, con otra muestra de tems de la misma poblacin de tems obtendramos unos resultados semejantes. La fiabilidad nos dice si un test discrimina adecuadamente, si clasifica bien a los sujetos, si detecta bien las diferencias en aquello que es comn a todos lo tems. La raz cuadrada de un coeficiente de fiabilidad equivale al coeficiente de correlacin entre las puntuaciones obtenidas y las puntuaciones verdaderas, a estos e le llama ndice de precisin. Una fiabilidad de 0,75 indicara una correlacin de 0,86 (= ). Este ndice expresa el valor mximo que puede alcanzar el coeficiente de fiabilidad. El error tpico es la oscilacin probable de las puntuaciones si los sujetos hubieran respondido a una serie de test paralelos. A mayor fiabilidad bajara la magnitud del error probable. CUANDO UN COEFICIENTE DE FIABILIAD ES SUFICIENTEMENTE ALTO. Tabla 3 Cuando baja la fiabilidad sube el error tpico, que con una forma paralela del mismo test podra ser distinta. Los valores del coeficiente de fiabilidad oscilan entre 0 y 1. UTILIDAD DE LOS COEFICIENTES DE FIABILIDAD. 1 En principio confirman que todos los tems miden lo mismo y se utilizan como un control de calidad. 2 Permiten calcular el error tpico de las puntuaciones individuales, es decir, entre que valores se encontrara nuestra puntuacin verdadera, entendiendo por ello la que tendramos si passemos varios test. 3 Permiten estimar los coeficientes de correlacin que hubiramos obtenido entre dos variables si su fiabilidad fuera perfecta (se denominan corregidos por atenuacin). Los coeficientes no dependen exclusivamente de la redaccin de los tems, de la complejidad o simplicidad de la definicin del rasgo que queremos medir y adems influyen en la fiabilidad caractersticas de la muestra. Por que un coeficiente alto no expresa necesariamente que los tems son suficientemente homogneos. 1 La consistencia interna expresa una relacin de hecho, estadstica, entre los tems pero no supone necesariamente una coherencia conceptual. 2 Una fiabilidad alta puede deberse a un numero grande de tems que en ocasiones no se prestan a una interpretacin clara. Una fiabilidad alta se puede conseguir con muchos tems con relaciones bajas entre si y tambin con dos bloques de tems con claras correlaciones entre los tems dentro de cada bloque, pero con poca o nula relacin con los tems del otro bloque. 3 Puede deberse tambin a una concepcin del rasgo muy limitada, con tems de contenido casi idntico.
Error tpico de la medida. Es de utilidad en interpretaciones individuales. Viene a ser la desviacin tpica de las puntuaciones verdaderas, e indica el margen de error o variacin de las puntuaciones individuales. El mejor uso del coeficiente de fiabilidad es utilizarlo para calcular el error tpico cuando interese situar a casa uno en su banda de posibles probables resultados. El error tpico se interpreta como cualquier desviacin tpica e indica la variabilidad probable de las puntuaciones obtenidas, observadas Las puntuaciones verdaderas. Es la media ms probable que un sujeto hubiera obtenido si le hubiramos medido repetidas veces en el mismo rasgo. Las puntuaciones verdaderas tienden a ser menores que las obtenidas cuando estas son superiores a la media y mayores cuando son inferiores a la media. La puntuacin verdadera exacta no la sabemos pero podemos estimar entre que limites se encuentra. Correlacin corregida por atenuacin. La correlacin calculada entre dos variables queda siempre disminuida por los errores de medicin, por su no perfecta fiabilidad. Esta correlacin corregida por atenuacin es la que hubiramos obtenido si hubisemos podido suprimir los errores de medicin en las dos variables. Conociendo la fiabilidad de las dos variables podemos estimar la verdadera relacin: rxx y ryy son coeficientes de fiabilidad. CUANDO TENEMOS COEFICIENTES DE FIABILIDAD BAJOS. 1 Puede ser debido a una inadecuada formulacin de los tems. Puede que los sujetos entiendan los tems de una manera distinta a como lo pretende el autor del instrumento. La coherencia conceptual prevista la comprobamos con la coherencia que de hecho encontramos en las respuestas; y si no entienden el significado previsto habr que eliminarlos. 2 Homogeneidad de la muestra. A veces la causa es que apenas hay diferencias entre los sujetos. Y si no hay diferencias tampoco habr relacin clara y verificada entre las respuestas. 3 Definicin compleja del rasgo medido. Una fiabilidad baja con una muestra heterogenea puede significar una concepcin del rasgo excesivamente compleja.
Los rasgos definidos de manera compleja pueden tener tems poco relacionados entre si. 4 Utilidad del error tpico cuando la fiabilidad es baja. Con coeficientes bajos siempre es conveniente utilizar el error tpico, sobre todo cuando se trata de tomar decisiones sobre sujetos. FORMULAS QUE RELACIONAN FIABILIDAD CON NMERO DE ITEMS Si queremos saber en cuanto aumentara la fiabilidad si aumentamos el numero de tems multiplicando el numero de tems inicial, tenemos la formula de Spearman Brown : rxx es el coeficiente de fiabilidad conocido. Rxx es el nuevo coeficiente de fiabilidad estimado. n es el numero de formas paralelas que alargo en el test inicial. Ejemplo: tenemos un test inicial de 20 tems con una fiabilidad de 0,42, y le vamos a aadir otros 20 tems. 20 tems rxx = 0,42 40 tems rxy NO podramos hacer una regla de tres porque eso supondra una relacin lineal, que ya hemos dicho que no existe entre longitud del test y fiabilidad, pues sino aumentara hasta el infinito. En este ejemplo n (numero de formas paralelas) no es 20 porque eso supondra que tendramos 400 tems en vez de 40. El test inicial de 20 tems tiene 1 forma paralela, as que si ahora aado otros 20 tems aado otra forma paralela, n = 2. Cuando ya tenemos 40 tems y 2 formas paralelas se le llama forma alargada del test. Si tenemos una fiabilidad conocida y queremos llegar a otra ms alta, en cuantos tems tendramos que alargar el test? rnn es la fiabilidad deseada. r11 es la fiabilidad obtenida con el nmero original de tems. Ejemplo del ejercicio 7: Si tenemos una fiabilidad de 0,70 y queremos llegar a una fiabilidad de 0,90, sustituiramos en la formula y nos dara n = 3, 86 formas paralelas. Ahora en este caso si se podra utilizar la regla de tres. 40 tems 1 forma paralela X tems n 1 = 2,86 formas paralelas Y el resultado seria 115 tems que vamos a aadir.. OJO!: no confundirnos al poner n = 3,86 que ha sido lo que nos ha dado en la formula, porque hay que 7
restarle la forma paralela que ya tenamos en el test inicial. Si no la restamos nos saldran 154 tems que son el total, no los que hemos aadido (115). Los casos que hemos visto siempre nos salen nmeros redondos pero puede suceder que no lo sean, en cualquier caso el procedimiento seria el mismo: Inicial 15 tems 1 forma paralela Aado 10 tems n 1 = 0,66 (sale de una regla de tres) Final 25 tems n = 1,66 forma paralela. TEMA V. INTRODUCCION A LOS METODOS NO PARAMTRICOS: Los mtodos no paramtricos no suponen condiciones previas en la poblacin. Se han hecho especialmente populares como alternativa los mtodos paramtricos cuando los datos no se ajustan a los supuestos tericos de dichos mtodos. Son relativamente sencillos y especialmente aptos para muestras pequeas. I. LOS SUPUESTOS DE LOS METODOS PARAMTRICOS: EN RELACION AL TIPO DE ESCALA O NIVEL DE MEDIDA: Lo que supone es que la escala utilizada es de intervalo, es decir, que hay una unidad propiamente dicha aunque el punto cero sea arbitrario. El problema de la unidad esta relacionado con las escalas de medida. En principio, el nivel de medida condiciona las operaciones matemticas permisibles. Los nmeros pueden significar un criterio de clasificacin: En este caso no son nmeros en sentido propio. Se trata de las denominadas escalas nominales. En estos casos podemos contar cuantos elementos hay en cada categora de clasificacin, pero los nmeros con los que designamos los grupos no expresan necesariamente ni orden ni cantidad. Los nmeros pueden significar orden: En este caso tenemos escalas ordinales. Podemos ordenar los sujetos u objetos de ms a menos, pero no hay una unidad en sentido propio. Los nmeros pueden significar cantidad o distancia: Aqu disponemos de una unidad en sentido propio (4 es el doble que 2) se trata de las escalas de intervalo (y que si tienen un punto cero absoluto se denominan escalas de razn). Cuando disponemos de una unidad podemos hacer los operaciones aritmticas habituales. Si se da una correspondencia suficiente entre los modelos matemticos y los datos observados se denomina isomorfismo. El investigador Stevens plante el problema de la utilizacin de mtodos paramtricos con medidas que, en sentido estricto, solo son ordinales y no disponen de una unidad. Justificacin de la suposicin de una unidad en los datos de que disponemos: 8
Las razones aducidas para actuar de este modo son de dos tipos: Unas consideraciones son de corte ms terico: Suponemos que las escalas que utilizamos son de intervalo aunque imperfectas; las variables subyacentes o rasgos los conceptualizamos como continuos y con distribucin normal. No se trata de escalas literalmente de intervalo pero se aproximan lo suficiente como para tratar los datos como si lo fueran. Otras razones son de tipo puramente experimental: Los datos tericamente ordinales funcionan bien como si se tratara de escalas de intervalo. Podemos suponer en la practica que, por ejemplo, entre poco y algo hay la misma distancia que entre algo y bastante como si hubiera una unidad, por lo que podemos asignar a esas respuestas nmeros consecutivos. Estas y parecidas razones hacen que el punto de vista dominante hoy da es que la distincin entre escalas ordinales y de intervalo es irrelevante para determinar cual es el mtodo de anlisis apropiado para comprobar hiptesis estadsticas. As, las pruebas paramtricas se consideran legitimas con medidas ordinales. EN RELACION A LAS CARACTERISTICAS DE LAS POBLACIONES: Se supone: Una distribucin normal. Homogeneidad de varianzas. Esta suficientemente probado que en la mayora de las situaciones la violacin de estos supuestos no afecta al poder (de rechazar la hiptesis nula cuando es falsa) de las pruebas paramtricas. II. CUANDO ES PREFERIBLE UTILIZAR LOS METODOS NO PARAMETRICOS: Los mtodos no paramtricos son una alternativa preferible cuando se dan estas dos circunstancias: Cuando no se pueda presumir la normalidad en la poblacin: cuando muestras pequeas tienen una distribucin obviamente muy alejada de la distribucin normal. El supuesto de normalidad en la poblacin se puede asegurar mejor cuidando la calidad del instrumento. Lo que ocurre es que a veces la calidad del instrumento no es modificable o simplemente se trata de estudios improvisados en los que no se puede o no interesa invertir tiempo en el instrumento. Con muestras pequeas de tamao claramente desigual y con varianzas obviamente muy desiguales. Independientemente de los problemas de los mtodos paramtricos, esta bien demostrada la calidad de los mtodos no paramtricos. Aun as, si los mtodos alternativos paramtricos se pueden utilizar son en principio preferibles porque en ellos se utiliza toda la informacin disponible (no solamente el orden). La perdida de informacin es mayor en la medida en que aumenta el numero de sujetos. III. METODOS NO PARAMTRICOS MAS UTILIZADOS: Los mtodos no paramtricos podemos dividirlos en dos grandes grupos segn se trate de datos nominales 9
(sujetos u observaciones clasificados en categoras) u ordinales (lo que conocemos y utilizamos de cada observacin es su rango o numero de orden). 1. METODOS APROPIADOS PARA DATOS NOMINALES: Clasificaciones: En esta categora entran todas las variantes del ji cuadrado. Estos mtodos deben utilizarse junto con los coeficientes de asociacin correspondientes (como el coeficiente , el coeficiente de contingencia,...etc) Con frecuencia mtodos que requieren mtodos ordinales desembocan en la distribucin de ji cuadrado (sobre todo al aumentar el tamao de la muestra) o simplemente se utiliza el orden para dicotomizar las puntuaciones y aplicar despus el ji cuadrado convencional (como en la prueba de la mediana). Para muestras independientes y muy pequeas, que se pueden disponer en cuadros de 2x2, y en las que por el bajo numero de sujetos el ji cuadrado convencional no es aplicable, tenemos la prueba exacta de Fhiser. Para dos muestras relacionadas, tambin dispuestas en cuadros de 2x2, es muy til la prueba de McNemar para detectar cambios: los sujetos se clasifican segn sus respuestas, 1 0, antes y despus. Lo que se compara es la proporcin de unos antes y despus. Para muestras muy pequeas divididas solo en dos categoras (equivale al contraste entre proporciones) es muy til la aplicacin directa de la distribucin binomial (solo requiere consultar tablas). La distribucin binomial es tambin aplicable a muestras grandes, pero en este caso la distribucin pasa a ser normal y estamos en el caso habitual de diferencias entre proporciones. Algunos mtodos que requieren datos ordinales terminan en la distribucin nominal, como la prueba de los signos para verificar cambios; numero de sujetos con cambio positivo y numero de sujetos con cambio negativo. 2. METODOS ORDINALES EN LOS QUE SE UTILIZAN RANGOS: En estos mtodos se sustituye la puntuacin directa por su rango o numero de orden y se opera con estos rangos. Aunque es cierto que existen algunos de ellos en los que no se utilizan sino que se supone que la variable es ordinal y continua. Los mtodos en los que se utilizan los rangos tienen en principio una ventaja obvia, y es que no se ven afectados por sujetos con puntuaciones muy extremas y atpicas. 2.1. Cuando Tenemos Solamente Dos Muestras: La U de MannWhitney para comparar dos muestras independientes: Es la alternativa ms utilizada a la t de Student para muestras independientes. Comprueba si dos distribuciones son distintas. La T de Wilcoxon para dos muestras relacionadas: Es tambin la alternativa ,ms utilizada a la t de Student para muestras relacionadas. Se utiliza para detectar cambios o en diseos de sujetos igualados. Para comprobar cambios (muestras relacionadas) es tambin popular la prueba de los signos, que solo requiere datos ordinales y no utilizan los rangos. Otros mtodos no paramtricos de inters suponen variables al menos ordinales y continuas aunque no se utilicen los rangos, como sucede en:
10
La prueba de KolmogorovSmirnov para una muestra o para dos muestras independientes: no se utilizan rangos sino frecuencias acumuladas, pero se supone, al menos, una escala ordinal. Cuando se trata de dos muestras lo que se detecta con estas pruebas es si las muestras tienen distribuciones distintas. Aplicada a una sola muestra, esta prueba es especialmente til, como prueba de bondad de ajuste, para verificar si la distribucin observada se aparta de una distribucin hipottica que suele ser la distribucin normal. La prueba de las rachas de WaldWolfowitz, semejante a la prueba de KolmogorovSmirnov, nos permite determinar si las dos muestras pertenecen a poblaciones distintas en tendencia central o dispersin. 2.2 Cuando Tenemos Mas De Dos Muestras: Cuando tenemos mas de dos muestras, estamos ante las alternativas no paramtricas al anlisis de varianza. Para mas de dos muestras independientes: La H de KruskalWallis: es una alternativa al anlisis de varianza ms sencillo: Anova AEFCA. Cuando el supuesto de homogeneidad de varianzas no es sostenible, permite poner a prueba la hiptesis de que varias medias proceden de la misma poblacin. Si hay rangos repetidos es ms difcil rechazar la hiptesis nula pero el mismo procedimiento incluye los ajustes necesarios. La prueba de Jonckheere comprueba si se da una tendencia significativa a aumentar de menos a mas, entre varias muestras independientes. Para mas de dos muestras relacionadas: La prueba de Friedman: Es tambin una alternativa no paramtrica del anlisis de varianza convencional de varias muestras relacionadas: Anova AEFMR. En este anlisis de varianza parametrico disponemos, como calculo complementario, de los coeficientes de fiabilidad. De manera anloga, como complemento de la prueba de Friedman se puede utilizar el coeficiente W de Kendall, denominado coeficiente de concordancia, porque suele utilizarse para comprobar el grado de coincidencia entre varios evaluadores que ordenan a los mismos sujetos u objetos. A partir del valor de W se puede calcular rpidamente el valor medio de la correlacin entre las columnas y la fiabilidad de las filas (sujetos) al ordenar a las columnas. Este tipo de clculos son de inters precisamente para verificar el grado de concordancia, unanimidad,... etc. Para mas de dos muestras relacionadas y cuando la variable dependiente es dicotmica contamos con la prueba Q de Conchran (una extensin de la prueba de McNemar), que nos dice si las diferencias en las condiciones (columnas) tiene un efecto significativo en las respuestas de los sujetos (filas). La prueba de tendencia L de Page, que puede considerarse como una extensin de la prueba de Friedman, se utiliza para comprobar si en una serie de puntuaciones se da una tendencia a aumentar o disminuir. IV. LOS METODOS NO PARAMETRICOS MS COMUNES: Si categorizamos las muestras segn sean dos o ms de dos, e independientes o relacionadas, los mtodos no paramtricos posiblemente mas utilizados son: 11
PSICOMETRIA: I. ANALISIS DE ITEMS EN LAS PRUEBAS OBJETIVAS: 1. EL CONTEXTO: LAS PRUEBAS OBJETIVAS: Al estudiar el anlisis de tems de las pruebas objetivas, hay que tener en cuenta todo el contexto. Las pruebas objetivos (tipotest) pueden ser muy cmodas fundamentalmente porque: Las pruebas objetivas se pueden corregir con lectura ptica, la tarea es mecnica, simple,...,etc. Con las pruebas objetivas es mas sencillo establecer criterios de clasifican y tambin pueden justificarse mejor estos criterios. En las pruebas objetivas la correccin s es objetiva, pero tanto la formulacin de las preguntas como donde se pone el mnimo para el apto son decisiones subjetivas del autor. Su frecuente mala calidad se debe sobre todo a: No es tan fcil redactar buenas preguntas objetivas. No es frecuente planificar estas pruebas aunque sea de manera muy elemental, puede por lo tanto haber mas preguntas de lo que es fcil preguntar y no tanto de lo mas importante. Una manera de mejorar la calidad de estas preguntas objetivas es analizarlas. Este tipo de pruebas se prestan a hacer una serie de anlisis de inters que pueden referirse: A toda la muestra. A cada pregunta en particular. 2. UTILIDAD DEL ANALISIS DE LOS ITEMS: Analizar las pruebas objetivas puede ser de inters porque: Sirve para ir mejorando su calidad: la informacin que nos dan este tipo de anlisis nos permite ir mejorando las pruebas sucesivas que vallamos haciendo. Esta informacin que puede ser muy especifica puede ayudar a caer en la cuenta de errores generalizados, a entender puntos difciles, a condicionar un estudio posterior de mas calidad,...,etc. Tambin nos aportan datos que pueden influir indirectamente en nuestros criterios de calificacin: podemos descubrir preguntas ambiguas, con dos respuestas correctas o con la clave de correccin equivocada,...,etc. Por otra parte todos estos anlisis son fcilmente programables, y si utilizamos una hoja de respuestas de lectura ptica y un programa adecuado de ordenador casi sin darnos cuenta podemos acumular una informacin muy til. 1. ANALISIS ESTADISTICOS CONVENCIONALES: 1. ANALISIS REFERIDOS A TODA LA PRUEBA: EL COEFICIENTE DE FIABILIDAD: Este coeficiente indica en que medida en pruebas semejantes los sujetos habran quedado ordenados de manera parecida. Dos factores influyen en la magnitud de este coeficiente.
12
La homogeneidad de los tems: En la medida en que los tems midan lo mismo la fiabilidad ser mayor; con preguntas muy distintas y poco relacionadas la fiabilidad ser menor. Homogeneidad de la muestra o diferencias entre los sujetos: Si los sujetos tienen resultados muy parecidos la fiabilidad tender a bajar; no se puede clasificar u ordenar bien a sujetos muy semejantes. Fundamentalmente la fiabilidad depende de las diferencias entre los sujetos por lo que se puede cuestionar la fiabilidad de un test o de una prueba objetiva como indicador necesario de su calidad; si todos saben todo o casi todo o casi nada. Un coeficiente de fiabilidad alto es claramente deseable cuando las diferencias entre los sujetos son legitimas y esperadas; y esto es lo que suele suceder en los test psicolgicos. No hay que olvidar que una fiabilidad alta no es sinnimo sin mas de calidad porque puede faltar lo que es mas importante, la validez. EL ERROR TIPICO DE LAS PUNTUACIONES INDIVIDUALES: El error tpico se deriva del coeficiente de fiabilidad y viene a indicar el margen probable de oscilacin de las puntuaciones de unas ocasiones a otras en exmenes hipotticamente semejantes. Puede servir para relativizar los resultados individuales. Equivale a una desviacin tpica y se interpreta de manera semejante. 2. ANALISIS DE CADA PREGUNTA O DE CADA ALTERNATIVA: LA CORRELACION ITEMTOTAL O INDICE DE HOMOGENEIDAD CORREGIDO: Se trata de un dato de cada e indica en que medida cada uno de ellos discrimina, es decir, diferencia a los que saben mas de los que saben menos. Se trata de la correlacin de cada pregunta con la suma de todas las dems. Lo que expresa esta correlacin es en que medida el responder correctamente a un tem est relacionado con puntuar alto en todo el test. Una correlacin positiva: quiere decir que puntuar bien en esa pregunta esta relacionado con puntuar bien en el conjunto de la prueba. Una correlacin prxima a 0: quiere decir que responder bien a eso pregunta no tiene que ver con estar bien en el conjunto del test. Una correlacin negativa: quiere decir que responder bien a esa pregunta esta relacionado con estar mas bien mal en el conjunto de la prueba. LA CORRELACION DE CADA ALTERNATIVA CON EL TOTAL: Es la correlacin entre escoger cada una de las alternativas ( tanto la verdadera como las falsas) y el total del test. Lo que podemos esperar es que el escoger una alternativa falsa correlacione negativamente con el total. 2. ANALISIS DE LAS DIVERSAS ALTERNATIVAS: TABULACION DE LAS RESPUESTAS: Este anlisis, se limita a la mera tabulacin de las respuestas. Se trata de organizar las respuestas de manera que permitan una reflexin rpida. El proceso es el siguiente: Se ordenan los sujetos de mas a menos segn su puntuacin total en la prueba y se seleccionan el 25% con 13
puntuacin total mas alta (grupo superior) y el 25% con puntuacin total mas baja (grupo inferior). Se tabulan las respuestas de estos dos grupos en cada tem, de manera que se pueda ver cuantos de cada grupo, superior e inferior, han escogido cada opcin. Cuadro 1 En el supuesto numerador tenemos el numero de alumnos del grupo superior que ha escogido cada opcin, y debajo el numero de alumnos del grupo inferior que ha escogido esa misma opcin; la respuesta correcta esta sealada con un asterisco. 3. INDICES DE DIFICULTAD Y DISCRIMINACION: 1. PARA CADA ITEM: Estos ndices no se calculan para toda la muestra sino para el 25% con una puntuacin total mas alta en todo el test y para el 25% con una puntuacin total mas baja. El numero de sujetos entre ambos grupos es por lo tanto el mismo; solo se analiza el 50% de la muestra. Este tipo de anlisis es anlogo al que se hace cuando se construye una escala de actitudes. SIMBOLOS UTILIZADOS: N: Numero de sujetos en uno de los dos grupos (los dos grupos tienen idntico numero de sujetos). N + N: Numero total de sujetos analizados. INDICE DE DIFICULTAD: Indica la proporcin de aciertos en la muestra de alumnos que estamos utilizando. Es la media de ste 50% de sujetos analizados. El trmino de dificultad se presta a equvocos: in ndice mayor indica un pregunta mas fcil. Las preguntas que discriminan mucho tienden a ser de dificultad media (responden bien la mitad de los sujetos analizados). Df = 0.50 (AS = N; AI = 0) INDICES DE DISCRIMINACION: Los ndices de discriminacin expresan en que medida cada pregunta o tem diferencia a los que mas saben de los que menos saben Indice de discriminacin 1: Depende del grado de dificultad del tem. Es la diferencia entre dos proporciones, los acertantes del grupo superior menos los acertantes del grupo inferior. Es el ndice probablemente mas utilizado. Expresa hasta que punto la pregunta discrimina, establece diferencias, contribuye a situar a un sujeto en el grupo superior e inferior. A mayor diferencia, en numero de acertantes entre los grupos superior e inferior, el tem es mas discriminante, contribuye mas a situar a un sujeto entre los primeros o entre los ltimos. 14
AS: Numero de acertantes en el grupo superior AI: Numero de acertantes en el grupo inferior.
Equivale a una estimacin de la correlacin itemtotal y puede interpretarse de la misma manera. Los valores extremos que puede alcanzar son 0 y 1. Si todos responden correctamente (pregunta muy fcil), tendremos que: Dc1=0. (AS = AI = N) Si todos se equivocan (pregunta muy difcil) tendremos que: Dc1=0. (AS = AI = 0) Es decir, las preguntas muy fciles y muy difciles no discriminan, no establecen diferencias; nos dicen que todos saben o no saben una pregunta, pero no quien sabe mas y quien menos. Estas preguntas no contribuyen a la fiabilidad del test, pero eso no quiere decir necesariamente que sean malas preguntas. Si todos y solos los del grupo superior responden correctamente, tendremos que: Dc1=1. (AS = N; AI = 0) Si todos y solos los del grupo inferior responden correctamente, tendremos que: Dc1= 1. (AS = 0; AI = N) Las preguntas con discriminacin negativa favorecen al grupo inferior y en principio deberan ser revisadas (mal formuladas, ambiguas, error en la clave de correccin,...,etc.). Una limitacin de este ndice es que el valor mximo de 1 solo se alcanza cuando aciertan todos los del grupo superior y se equivocan todos los del inferior. Puede haber preguntas que discriminen bien pero que sean difciles y fallen algunos del grupo superior. Puede ocurrir que discriminen bien pero que sean fciles y las acierten algunos del grupo inferior. Por estas razones algunos refieren al otro ndice de discriminacin. El indice maximo de dificultad cuando aciertan mas de la mitad es el que hubiera habido manteniendo el mismo numero de aciertos y que ninguno del grupo superior hubiera fallado. El valor maximo de discriminacin manteniendo los 12 aciertos es que el hubieramos obtenido si AS = 10 (todos los del grupo superior aciertan) y los dos aciertos restantes se los dejamos al grupo inferior. El indice maximo de discriminacin cuando han acertado menos de la mitad es el que hubieramos obtenido si todos los acertantes pertenecieran al grupo superior. Indice de discriminacin 2. Indica la proporcion de aciertos en el grupo superior con respecto al numero total de acertantes. Es satisfactorio si es superior a o,50: mas de la mitad de los acertantes pertenecen al grupo que sabe mas. Este indice es independiente del grado de dificultad de la pregunta. Llega a 1 si todos los acertantes, aunque sean pocos, pertenecen al grupo superior. 15
Nos dice cuanto discrimina el item, tanto si es facil como si es muy difcil. 1 Una pregunta muy facil, con N =10 en casa grupo. La aciertan 10 del superior y 9 del inferior. El Dc1 diria que apenas discrimina, que es muy facil. El Dc2 diria que aunque es muy facil, de fallar alguien esta pregunta pertenece al grupo de los que menos saben. 2 Una pregunta muy difcil. El Dc1 dice que discrimina muy poco porque es muy difcil. El Dc2 dice que la discriminacin es perfecta, que de saberla alguien, este perteneceria al grupo superior. Este indice es util para comparar la dificultad de varios test, sobre todo si tienen un numero distinto de tems. El numero de tems es la diferencia maxima posible, la que habria entre un sujeto que hubiera respondido bien a todos y el que no hubiera respondido a ninguno. Valoracin de estos indices. Describen como ha funcionado una pregunta en una situacin dada, pero no hacen juicios sobre la calidad de la pregunta. Las preguntas muy discriminantes nos indican donde falla los que tienen malos resultados sobre todo. La discriminacin supoen diferencias y el que haya diferencias no es necesariamente un buen resultado. En examenes amplios la no discriminacin puede indicar que no se detectan diferencias que de hecho existen. En el conjunto del examen y para poder calificar con cierto matiz debe haber preguntas de dificultad media que discriminen bien. Las preguntas muy discriminantes (nunca seran las mas difciles) son utiles en examenes de segunda convocatoria, prescindiendo de lo muy facil y de lo muy difcil. Para extrapolar los resultados harian falta muestras grandes, N=400, sin embargo los indices obtenidos con grupos pequeos, si se mantiene constante el tipo de muestra, dan lo que se puede esperar en grupos similares. Estos indices describen como han funcionado los tems, y son utiles para evaluar las preguntas, sugerir que se puede revisar pero malas preguntas pueden tener indicen que podrian considerarse optimos. Es peligroso interpretar estos indices como indicadores automaticos de la calidad de una pregunta. El analisis de las diversas alternativas, comprobando cuantos eligen cada una, es util para ir mejorando las preguntas. PSICOMETRIA: I. GUIA PARA CONSTRUIR ESCALAS DE ACTITUDES: POR QUE CONSTRUIMOS UNA ESCALA EN VEZ DE LIMITARNOS A UNA SOLA PREGUNTA?: Construimos escalas de actitudes para medir determinados rasgos; entendiendo por medir, el apreciar 16
cuantitativamente si un sujeto tiene poco o mucho del rasgo en cuestin, o ver donde se sita un sujeto en un continuo de menos a mas. A veces el medir actitudes con una sola pregunta es muy til como medida complementaria de instrumentos mas complejos. Sin embargo, puede ser conveniente el disponer de varios indicadores de una misma actitud que van a ser sumados despus como indicador de esta actitud o variable. Tenemos varias razones para construir escalas o disponer de varios indicadores del mismo rasgo: Con una serie de tems describimos y medimos mejor constructos relativamente complejos. Una nica pregunta simplifica frecuentemente en exceso el concepto que vamos a medir. En conjunto una medida formada por varios tems es mas valida, no solamente porque describen mejor un constructo complejo, sino porque una nica pregunta puede ser de hecho poco afortunada, o ser mal entendida por muchos sujetos. Una muestra relativamente amplia de preguntas constituye una mejor base para formarnos un juicio mas preciso y fundado sobre como cmo est una persona en un rasgo concreto. Este tipo de razones tiene mas peso cuando se van a tomar decisiones sobre los sujetos o interesa un buen diagnostico individual. Aumenta la fiabilidad de la medida y se minimizan las limitaciones de cada tem en particular, merecen mas confianza varias preguntas que una sola. En un sentido mas psicometrico, si disponemos de una serie de tems podemos calcular el coeficiente de fiabilidad. Una razn de peso para sumar varios indicadores del mismo rasgo es que las diferencias entre los sujetos van a quedar mas ntidas, va a ser mas fcil clasificarlos y, en definitiva, va a aumentar la varianza. Diferenciamos mejor a las personas en un determinado rasgo si disponemos de varios indicadores y consecuentemente detectaremos mejor las relaciones de ese rasgo con otras variables. De los diversos tipos de escalas nos limitaremos aqu a tratar las denominadas escalas tipo Likert en las que la suma de una serie de respuestas a tems supuestamente homogneos sita al sujeto en la variable medida. 1. PROCESO DE CONSTRUCCION DE UNA ESCALA DE ACTITUDES: El proceso se puede describir de varias maneras, pero bsicamente se puede concretar en los pasos siguientes: 1. DEFINICION DE LA ACTITUD QUE SE DESEA MEDIR: El primer paso es siempre clarificar el rasgo que se desea medir; una definicin o explicacin previa da coherencia al resto del proceso. Puede ayudar el hacer previamente una descripcin de la persona que supuestamente tenga de manera clara la actitud que se desea medir. No hay que olvidar que las actitudes, como cualquier otro rasgo que queramos medir, se pueden concebir en diversos grados de abstraccin, y pueden ser muy genricos o muy especficos. Puede ayudar tambin revisar otros instrumentos ya hechos. 2. REDACCION DE LOS ITEMS: Pueden redactarse de diversas maneras pero, en general, y tratndose de escalas de actitudes, suelen formularse en forma de opiniones con las que se puede estar o no estar de acuerdo. 17
Los tems deben tener las siguientes caractersticas: Deben ser relevantes: claramente relacionados con la actitud que se desea medir. Deben ser opiniones con las que se pueda estar o no estar de acuerdo. Deben redactarse con claridad, de manera que todos los entiendan de la misma manera. Por esta razn: Hay que tener cuidado con expresiones como no, nunca, etc. que pueden crear confusin en la respuesta. Deben contener una nica idea, pues cuando hay mas de una idea se puede estar de acuerdo con una o con otra. Una misma idea se puede formular de mas de una manera para comprobar despus que formulacin es mas eficaz. Deben ser discriminantes, es decir, se deben redactar de tal manera que previsiblemente unos sujetos estarn de acuerdo y otros no, o no tanto. Para medir debemos encontrar diferencias; tenemos mas garanta de que los tems miden lo mismo si simultneamente diferencian a los mismos sujetos. Cabe formular tems repetitivos, la misma idea dicha de diversas maneras. No obstante, aunque con tems muy similares se consiguen fcilmente coeficientes de fiabilidad altos, el constructo queda expresado de una manera muy simple. Es preferible redactar los tems en las dos direcciones positiva y negativa, es decir, que unas veces el estar de acuerdo manifiesta una actitud favorable y otras manifieste una actitud desfavorable; eso si, sin introducir palabras negativas como no o nunca que se prestan a confusiones al responder. Esta redaccin bipolar tiene varias ventajas: Obliga a una definicin previa mas matizada del rasgo o constructo. Requiere una atencin mayor por parte del que responde. Permite comprobar la coherencia de las respuestas, verificando si hay contradicciones sistemticas. Si hay un numero aproximado de tems positivos y negativos, y sumamos a cada sujeto sus puntuaciones a los dos tipos de tems, podemos calcular la correlacin entre los dos totales parciales como si se tratara de dos subescalas. Esta correlacin debe alcanzar un valor de 0.50 o mas, y mostrar en este caso una coherencia global en las respuestas. Comprobar la coherencia es prcticamente lo mismo que comprobar que no se da la aquiescencia o tendencia a mostrar acuerdo casi con cualquier afirmacin, incluso con afirmaciones que se contradicen. Cuando se de esta aquiescencia suele deberse a la ambigedad en la redaccin o falta de claridad de los tems. La irrelevancia o ambigedad puede sospecharse cuando demasiados sujetos escogen la respuesta central o los tems no discriminan. La no discriminacin puede indicar tambin que un tem no mide lo mismo que los dems o que los sujetos lo entienden de otra manera. Si un tem discrimina en sentido contrario puede haber un error en la clave de correccin. Sobre el numero inicial de tems que deben redactarse: no hay un numero optimo, pero a mayor numero inicial de tems, mayor probabilidad de encontrar en el anlisis un conjunto de tems definitivos con una fiabilidad suficiente. A mayor numero de tems buenos tambin ser mayor la fiabilidad. 3. REDACCION Y NUMERO DE RESPUESTAS: Redaccin de las respuestas: Las respuestas mas habituales en las escalas de actitudes suelen expresar el grado de acuerdo con el contenido del item, pero puede haber otras mas apropiadas como grado de inters, de importancia,...,etc. 18
Cuadro 1 Caben otros formatos en las respuestas como utilizar nmeros especificando con palabras el significado de los extremos (muy de acuerdo o muy en desacuerdo). O con letras. En general parece preferible el empleo de letras o palabras, al menos si se juzga que los nmeros pueden condicionar la respuesta. Las repuestas en trminos de frecuencia estn muy avaladas por la investigacin cientfica. Cuadro 2 Numero de respuestas: El numero habitual de repuestas es de cinco. En general, aunque no sucede siempre, a mayor numero de respuestas en los tems, suele haber en toda la escala una mayor fiabilidad, con tal de que el numero de respuestas no supere la capacidad de discriminacin de los que responden: el numero mximo se suele situar entre seis y siete respuestas y el mnimo en tres. Numero par o impar de respuestas: Lo mas claro es que son preferibles tres respuestas a dos, ya que la fiabilidad es casi siempre mayor. El incluir un numero par de categoras tiene la ventaja de que siempre cabe la posibilidad de agruparlas en dos categoras, de acuerdo y en desacuerdo, y se elimina adems la posibilidad de que los sujetos se evadan escogiendo la respuesta central. 4. PREPARAR LA CLAVE DE CORRECCION: Las respuestas se codifican siempre con nmeros ntegros sucesivos. En principio es preferible evitar el 0 y comenzar a partir de 1. La clave en nmeros debe hacerse de acuerdo con el sentido del tem, de manera que la respuesta mas favorable a la actitud tenga el numero mayor. Cuadro 3 5. PREPARAR PREGUNTAS O INSTRUMENTOS ADICIONALES: Adems de la escala que se esta construyendo se deben preparar otras preguntas, o incluso otras escalas o instrumentos que puedan estar ya hechos, y que los sujetos respondern al mismo tiempo, para recoger datos adicionales. Estos nuevos datos o preguntas tienen que ver con la verificacin de la validez del instrumento. El obtener datos adicionales de inters es importante por varias razones: Buscar mas datos hipotticamente relacionados con lo que queremos medir contribuye a que nos hagamos una idea mas clara del rasgo o actitud que nos interesa medir. Recoger datos adicionales al mismo tiempo que se prueba el instrumento en una primera muestra supone un considerable ahorro de tiempo y esfuerzo. Las relaciones que vamos encontrando con otras variables se pueden incorporar de alguna manera al proceso de construccin del instrumento, en el sentido de que nos pueden sugerir ideas validas como criterio en la misma seleccin de los tems, en la bsqueda de muestras determinadas,...,etc. El pensar en otros datos tiene que ver con la comprobacin de la validez de nuestro instrumento y de los datos que con l recojamos. 19
Comprobar la validez de un instrumento tiene que ver con la comprobacin o confirmacin del significado de lo que medimos, y tambin de su utilidad. Es importante tener desde el principio una idea clara no solamente del rasgo que queremos medir, sino tambin con que otros rasgos puede estar relacionado ese rasgo, a que grupos puede diferenciar,...,etc. Estos datos adicionales son bsicamente de dos tipos: Datos cesales o sociolgicos: Como edad, sexo, ocupacin o curso, estado civil, etc. Estos datos servirn para describir la muestra y para hacer anlisis adicionales. Datos de otro tipo: Como pueden ser preguntas relacionadas con lo que se pretende medir, u otros test o escalas que pueden estar relacionados con la variable que estamos midiendo. 6. OBTENER DATOS DE UNA MUESTRA: Una vez preparada la versin inicial del instrumento, se recogen las respuestas de una muestra para poder hacer los anlisis correspondientes, sobre todo el anlisis de tems y el calculo de la fiabilidad; estos anlisis nos van a permitir dar forma al instrumento definitivo. El tipo de muestra elegido debe ser semejante al tipo de poblacin con el que se va a utilizar despus. A mayor heterogeneidad en la muestra obtendremos con mayor facilidad una fiabilidad alta. Sobre el numero de sujetos necesario; para que los anlisis tengan suficiente consistencia y sean extrapolables a muestras semejantes, conviene que haya al menos 5 sujetos por tem inicial. Si se piensa hacer despus una anlisis factorial debe haber unos 10 sujetos por tem; en cualquier caso no deben ser menos de 200. 7. ANALISIS DE ITEMS Y COMPROBACION DE LA FIABILIDAD: En primer lugar y una vez obtenidos los datos calculamos: La media y la desviacin tpica de los totales: cada sujeto tiene un total que es la suma de todas sus respuestas a los tems. La media y la desviacin de cada tem. A continuacin llevaremos a cabo el anlisis de tems y calcularemos la fiabilidad. anlisis de tems Tenemos que comprobar si cada tem mide lo mismo que los dems, y por tanto es sumable en una puntuacin total que supuestamente mide el rasgo y que es la que despus interpretamos y utilizamos. Lo que queremos comprobar es si las respuestas tienden a covariar, es decir, si los sujetos tienden a responder de manera que podamos deducir que todos los tems expresan el mismo rasgo. En definitiva comprobamos si los tems tienden a diferenciar a los sujetos, si discriminan adecuadamente. Los procedimientos que podemos utilizar son dos: 1. Correlacin temtotal Se trata de la correlacin de cada tem con la suma de todos los dems o correlacin de cada tem con el total menos el tem. Lo que deseamos comprobar es en que medida el puntuar alto en un tem supone el hecho de obtener un total alto en el resto de la escala. 20
Estos coeficientes deben ser al menos estadsticamente significativos o distintos de cero. Los tems con una mayor correlacin con el total son los que tienen mas en comn y por tanto podemos pensar que miden lo mismo que los dems. Los tems con correlaciones no significativas o muy bajas los eliminaremos de nuestra escala. Cuando se calcula la correlacin con el total, hay una formula que convierte esta correlacin temtotal en la correlacin temtotal menos tem, que es la que nos interesa. Hay programas de ordenador que dan rutinariamente para cada tem la correlacin temtotal, pero hay que tener presentes otras consideraciones: Es cuestionable seguir mecnicamente procedimientos automticos; el constructor del instrumento debe intervenir con sus propios criterios sobre lo que quiere medir y sobre las caractersticas del instrumento. Esos programas nos dan la fiabilidad si suprimimos tems de uno en uno, y normalmente no interesa ir eliminando tems as, sino en bloques escogidos con algn criterio. Es normal que varios subconjuntos de tems tengan una fiabilidad idntica o similar, por lo que habr que acudir a otros criterios en la seleccin definitiva de los tems. 2. Contraste de medias en cada tem de los dos grupos con puntuaciones mayores y menores en el total de la escala. El procedimiento anterior es muy laborioso si no se hace con ordenador; un procedimiento mas sencillo, y que aporta una informacin semejante, es comparar en cada tem el 25% con una puntuacin total mas alta con el 25% con puntuacin total mas baja. Para esto: Ordenamos a los sujetos de mas a menos, segn el total obtenido en toda la escala, y seleccionamos dos subgrupos: grupo superior ! el 25% con total mas alto, y grupo inferior ! el 25% con puntuacin total mas bajo. El 50% central no entra en este anlisis. Calculamos la media y la desviacin tpica en cada tem de cada uno de los dos grupos, superior e inferior. Contrastamos las medias de estos dos grupos mediante la T de student. Lo que esperamos es que el grupo superior tenga una media significativamente mas alta en cada tem que el grupo inferior. Podremos concluir que los tems que simultneamente diferencian a los mismos sujetos estn midiendo lo mismo. Prescindiremos de los tems que no discriminan y nos quedaremos con los mas discriminantes; Siempre hay tems mejores que otros en trminos relativos. En la eleccin definitiva de los tems pueden intervenir adems otros criterios. Ej. de este procedimiento: En este ejemplo: El tem n 1 discrimina bien, el valor de t nos muestra que la diferencia entre los grupos superior e inferior, es muy superior a lo puramente aleatorio; este tem habra que retenerlo. El tem n 2 discrimina poco, la diferencia no es significativa y habr que eliminarlo de la escala definitiva. El tem n 3 tiene discriminacin negativa, los del grupo inferior superan a los del grupo superior; claramente este tem no es sumable con los dems, no mide lo mismo y hay que rechazarlo. En este caso tambin puede suceder que este mal la clave de correccin. Con cualquiera de los dos procedimientos obtenemos un dato sobre la calidad del tem; ambos tipos de informacin nos dicen si podemos considerar que el tem discrimina adecuadamente y consecuentemente si 21
podemos considerar que mide lo mismo que los dems. Cul de los dos anlisis es preferible? Los dos aportan informacin semejante; prcticamente con los dos se llega a la misma seleccin de items. Comprobacin de la fiabilidad y seleccin de los tems definitivos Despus del anlisis de tems calculamos la fiabilidad (consistencia interna). La formula mas apropiada es el coefiente de Cronbach. k ! numero de tems 2i ! suma de las varianzas de todos los tems 2t ! varianza de las puntuaciones totales Lo que vamos a hacer es calcular la fiabilidad con distintos subconjuntos de tems para quedarnos finalmente con la seleccin de tems que mas nos convenza como versin definitiva de nuestro instrumento. El proceso es el siguiente: En primer lugar calculamos la fiabilidad de la escala inicial con todos los tems. en segundo lugar: eliminamos los tems que con mas claridad no son discriminativos. recontamos a los sujetos su nueva puntuacin total. volvemos a calcular la fiabilidad de la nueva versin de la escala mas reducida Vamos repitiendo el proceso del paso anterior, calculando la fiabilidad cada vez con menos tems, hasta que la fiabilidad empieza a bajar. Nos quedamos en principio con la versin de la escala que tiene una fiabilidad optima. *Los tems los vamos suprimiendo de uno en uno, o en pequeos bloques. Para calcular estos coeficientes de fiabilidad necesitamos estos datos: En numero de tems, que ira variando cada vez segn vamos eliminando algunos. La varianza de cada tem en toda la muestra, que debe estar calculada previamente; es suman las varianzas de los tems que componen cada versin de la escala pues la suma de las varianzas de los tems entra en la formula del coeficiente de fiabilidad. La varianza de los totales, a cada sujeto hay que recontarle su nueva puntuacin segn se van eliminando tems. Se estos nuevos totales se calcula la varianza. Una manera de ir controlando el proceso es preparar un cuadro en el que se van viendo las sucesivas versiones de la escala segn se va calculando la fiabilidad con unos tems y otros. En la tabla vamos colocando los datos que intervienen en la formula (la media de los totales no es necesaria para calcular la fiabilidad, pero conviene ponerla como dato descriptivo de inters) El rigor metodolgico no tiene que ser siempre el mismo, con tal de garantizar siempre un rigor suficiente. 22
Si pretendemos construir un instrumento de una calidad superior, el proceso no tiene que ser automtico. Tambin tienen su lugar nuestras propias ideas sobre lo que queremos medir. En principio deben eliminarse aquellos tems que hacen que la fiabilidad sea menor, pero a veces eliminando un tem apenas baja la fiabilidad y si no lo eliminamos la escala puede quedar menos coherente con otros criterios. Otras veces entre los tems que contribuyen a una mejor fiabilidad hay alguno que, una vez eliminados otros previamente, puede tener poco sentido porque desequilibra el significado... y puede ser mejor eliminarlo tambin. El que la fiabilidad vare en el tercer decimal importa poco. Tambin puede suceder que con menos tems obtengamos una fiabilidad igual o semejante que con un numero mayor de tems. Como estamos tratando el anlisis de tems y de la fiabilidad como criterio de calidad, no debemos olvidar que en general a mayor numero de tems tendremos una mayor fiabilidad, y que con mas respuestas en los tems tambin aumenta la fiabilidad. Tambin se puede hacer el procedimiento inverso, y a veces es preferible. Se hace siguiendo estos pasos: Calculamos la fiabilidad con el subconjunto de tems que ms discriminan. Aadimos unos pocos tems, los ms discriminantes de los que nos quedan y volvemos a calcular la fiabilidad. Damos la tarea por terminada cuando la fiabilidad empieza a bajar. Con este procedimiento nos quedara una escala ms breve. Una alternativa mas sencilla al calculo del coeficiente es utilizar alguna de las formulas basadas en la particin del test o la escala en dos mitades. Pero en principio, es preferible utilizar las formulas del coeficiente . OTRAS CONSIDERACIONES EN TORNO A LA ELECCIN DE LOS ITEMS DEFINITIVOS Las soluciones automticas que nos puede dar un programa de ordenador no son necesariamente las mejores. El valor de t tiene que ser significativo y alto, pero adems hay que tener en cuenta otros criterios en la eleccin de los tems. Equilibrio entre tems positivos y negativos Podemos incorporar un numero mas o menos igual de tems positivos y negativos. Porque con tems en las dos direcciones se controlan mejor las respuestas aquiescentes, y adems el constructo suele quedar mejor expresado. Si tenemos un numero de tems aproximadamente idntico en ambas direcciones, es til calcular a cada sujeto dos puntuaciones parciales sumando por separado ambos tipos de tems, y calcular despus la correlacin entre estas dos subescalas o totales parciales; si esta correlacin es del orden de .50 tenemos una garanta razonable de que ambos tipos de tems miden lo mismo y que no esta operando la aquiescencia. Cuidar mas la representatividad del contenido de las formulaciones de los tems El la seleccin definitiva de los tems podemos buscar una homogeneidad conceptual mas ntida. Quizs veamos, por ejemplo, que al eliminar dos tems que discriminan poco, nos sobra un tercer tem que si 23
discrimina y que incluye la misma idea que los dos eliminados, pero el conjunto de la escala puede quedar muy desequilibrado en cuanto al significado global. Todo esto puede depender de apreciaciones personales; siempre hay que tener claro que es importante la interpretabilidad de los datos en funcin de un rasgo o actitud bien definida. Incluir de manera equilibrada aspectos distintos (subescalas) del mismo rasgo general Tambin nos puede interesar que estn representadas con idntico numero de tems ideas que reflejan matices distintos dentro de un rasgo general. En ocasiones un instrumento adems de medir un rasgo general, se puede subdividir en subescalas para medir por separado aspectos distintos. En este caso tanto las subescalas como la escala formada por todos los tems, deben tener una fiabilidad aceptable. Este tipo de escalas suelen denominarse escalas factoriales. Incorporacin de nuevos tems Cuando con pocos tems, que en principio nos convencen porque expresan bien lo que deseamos medir, no alcanzamos una fiabilidad adecuada, podemos acudir a las formulas que nos dicen cuantos tems del mismo estilo deberamos aadir para alcanzar una fiabilidad determinada. Tambin puede suceder que algunos de los tems eliminados en el anlisis, simplemente estn mal formulados y haya que hacer una redaccin nueva. Preparacin de dos versiones, corta y larga, de la misma escala Con frecuencia podemos observar que un numero reducido de tems nos da una fiabilidad aceptable. Puede ser interesante hacer dos versiones, una larga o normal y la otra breve, quizs con una fiabilidad menor, pero apta para muchos de los usos de estos instrumentos. Explicacin o redefinicin del rasgo medido por nuestro instrumento A veces, y a al vista de los tems de la escala definitiva, habr que redefinir lo que pretendemos medir o al menos explicarlo adecuadamente aunque se mantenga el nombre del instrumento. Los trminos para designar los rasgos suelen ser muy genricos, y de hecho instrumentos con el mismo nombre pueden no coincidir en lo que miden, que debe ser definido con unos limites mas ajustados. COMPROBACIN DE LA VALIDEZ Y OTROS ANLISIS POSTERIORES Una vez que tenemos ya la versin definitiva de la escala, se hacen los dems anlisis segn los datos de que dispongamos. Se pueden calcular datos descriptivos de las diversas submuestras si las hay. Podemos construir baremos o normas de interpretacin. Se pueden comprobar diferencias entre grupos, correlaciones con otras variables... segn los datos que hayamos obtenido simultneamente; o podemos pasar la escala a muestras nuevas obteniendo a la vez otros datos que nos permitan hacer mas anlisis. Podemos comprobar de manera mas especifica y planificada la validez del nuevo instrumento con los datos obtenidos simultneamente. La confirmacin de la validez mas que un calculo es un proceso. Este es un resumen de lo que entendemos por validez y los modos de comprobarla:
24
Con los estudios de validacin pretendemos dos finalidades: Confirmar el significado previsto de la variable (de la actitud o rasgo) que pretendemos medir. comprobar la utilidad practica del instrumento confirmacin del significado pretendido (validez de constructo) Los anlisis pueden tener dos enfoques bsicos, como son: 1 los estudios correlacionales y 2 las comparaciones entre grupos. Anlisis correlacionales Podemos distinguir tres estrategias basadas en estudios correlacionales. 1. relacin con otros modos de medir el mismo rango Comprobamos la relacin entre nuestro instrumento y otros modos de medir el mismo rasgo. Otros modos de medir lo mismo pueden ser: Una pregunta amplia y sigue una descripcin del modelo que supuestamente tiene el rasgo en grado alto. Otro mini test de pocos tems que mas o menos mida lo mismo, por Ej. 1. desde otra perspectiva 2. con un instrumento que mide el mismo rasgo pero construido con una tcnica distinta Otra escala o test de otro autor y que supuestamente compruebe lo mismo. Si es posible, se puede comprobar la relacin entre autoevaluacion y heteroevaluacion. Estos nuevos instrumentos tienen un valor complementario, pueden ser muy breves y tambin pueden ser simples preguntas. 2. Comprobacin de relaciones esperadas (positivas o negativas) con otros rasgos podemos comprobar tambin la relacin entre lo que mide nuestro instrumento y otros rasgos o caractersticas distintas con las que esperamos que haya relacin: Una lista de adjetivos o rasgos autodescriptivos que podran equivaler a una serie de test de personalidad; Tambin se pueden sumar adjetivos que reflejen mas o menos el mismo rasgo. Test de personalidad Preguntas sueltas sobre diversos temas, otras actitudes, preferencias... que como hiptesis puedan tener relacin con la actitud medida. 3. Comprobar que no existe relacin donde no esperamos que la haya Esta no relacin nos ayuda a distinguir unos rasgos de otros, sobre todo cuando pertenecen al mismo mbito conceptual y es fcil confundirlos. La no relacin no hay que entenderla de manera literal; Puede tratarse de relaciones, incluso estadsticamente significativas, pero menores que con otros rasgos, y de acuerdo con un razonamiento plausible.
25
Comparaciones entre grupos Consiste en comparar grupos supuestamente distintos en aquello que estamos midiendo. Todas las comparaciones entre grupos equivalen a anlisis correlacionales: nos da lo mismo por ejemplo, preguntarnos si los nios superan a las nias en la actitud A, que preguntarnos si el sexo esta relacionado o tiene que ver con la actitud A. No solo hay una obvia relacin conceptual entre las dos preguntas, sino que mediante las formulas oportunas podemos transformar un valor de la t se Student en un coeficiente de correlacion. Aun as nuestras preguntas espontneas son unas veces en trminos de relacin, y otras en trminos de diferencias; Ambos enfoques nos ayudan a formular hiptesis que podemos intentar confirmar, y adems los procedimientos de anlisis son en principio distintos aunque en ultima instancia aporten la misma informacin. Al preparar nuestro instrumento de recogida de datos, debemos pensar que preguntas podemos hacer que identifiquen a los sujetos segn grupos de pertenencia o segn caractersticas personales de inters que permitan subdividir la muestra en subgrupos. El anlisis estadstico ser un contraste de medias, o anlisis de varianza si las muestras son mas de dos. Confirmacin de la utilidad del instrumento (validez predictiva) En este caso verificamos, por ejemplo si existen correlaciones apreciables con determinados criterios, se trata de validez predictiva en sentido amplio. Esta comprobacin de la utilidad tambin aporta datos a la comprobacin del significado. Se trata de calcular coeficientes de correlacin entre el instrumento y determinados criterios. Estos son los coeficientes que suelen denominarse coeficientes de validez. PSICOMETRIA: I. GUIA PARA CONSTRUIR ESCALAS DE ACTITUDES: POR QUE CONSTRUIMOS UNA ESCALA EN VEZ DE LIMITARNOS A UNA SOLA PREGUNTA?: Construimos escalas de actitudes para medir determinados rasgos; entendiendo por medir, el apreciar cuantitativamente si un sujeto tiene poco o mucho del rasgo en cuestin, o ver donde se sita un sujeto en un continuo de menos a mas. A veces el medir actitudes con una sola pregunta es muy til como medida complementaria de instrumentos mas complejos. Sin embargo, puede ser conveniente el disponer de varios indicadores de una misma actitud que van a ser sumados despus como indicador de esta actitud o variable. Tenemos varias razones para construir escalas o disponer de varios indicadores del mismo rasgo: Con una serie de tems describimos y medimos mejor constructos relativamente complejos. Una nica pregunta simplifica frecuentemente en exceso el concepto que vamos a medir. En conjunto una medida formada por varios tems es mas valida, no solamente porque describen mejor un constructo complejo, sino porque una nica pregunta puede ser de hecho poco afortunada, o ser mal entendida por muchos sujetos. Una muestra relativamente amplia de preguntas constituye una mejor base para formarnos un juicio mas preciso y fundado sobre como cmo est una persona en un rasgo concreto.
26
Este tipo de razones tiene mas peso cuando se vana tomar decisiones sobre los sujetos o interesa un buen diagnostico individual. Aumenta la fiabilidad de la medida y se minimizan las limitaciones de cada tem en particular, merecen mas confianza varias preguntas que una sola. En un sentido mas psicometrico, si disponemos de una serie de tems podemos calcular el coeficiente de fiabilidad. Una razn de peso para sumar varios indicadores del mismo rasgo es que las diferencias entre los sujetos van a quedar mas ntidas, va a ser mas fcil clasificarlos y, en definitiva, va a aumentar la varianza. Diferenciamos mejor a las personas en un determinado rasgo si disponemos de varios indicadores y consecuentemente detectaremos mejor las relaciones de ese rasgo con otras variables. De los diversos tipos de escalas nos limitaremos aqu a tratar las denominadas escalas tipo Likert en las que la suma de una serie de respuestas a tems supuestamente homogneos sita al sujeto en la variable medida. 1. PROCESO DE CONSTRUCCION DE UNA ESCALA DE ACTITUDES: El proceso se puede describir de varias maneras, pero bsicamente se puede concretar en los pasos siguientes: 1. DEFINICION DE LA ACTITUD QUE SE DESEA MEDIR: El primer paso es siempre clarificar el rasgo que se desea medir; una definicin o explicacin previa da coherencia al resto del proceso. Puede ayudar el hacer previamente una descripcin de la persona que supuestamente tenga de manera clara la actitud que se desea medir. No hay que olvidar que las actitudes, como cualquier otro rasgo que queramos medir, se pueden concebir en diversos grados de abstraccin, y pueden ser muy genricos o muy especficos. Puede ayudar tambin revisar otros instrumentos ya hechos. 2. REDACCION DE LOS ITEMS: Pueden redactarse de diversas maneras pero, en general, y tratndose de escalas de actitudes, suelen formularse en forma de opiniones con las que se puede estar o no estar de acuerdo. Los tems deben tener las siguientes caractersticas: Deben ser relevantes: claramente relacionados con la actitud que se desea medir. Deben ser opiniones con las que se pueda estar o no estar de acuerdo. Deben redactarse con claridad, de manera que todos los entiendan de la misma manera. Por esta razn: Hay que tener cuidado con expresiones como no, nunca, etc. que pueden crear confusin en la respuesta. Deben contener una nica idea, pues cuando hay mas de una idea se puede estar de acuerdo con una o con otra. Una misma idea se puede formular de mas de una manera para comprobar despus que formulacin es mas eficaz. Deben ser discriminantes, es decir, se deben redactar de tal manera que previsiblemente unos sujetos estarn de acuerdo y otros no, o no tanto. Para medir debemos encontrar diferencias; tenemos mas garanta de que los tems miden lo mismo si simultneamente diferencian a los mismos sujetos. 27
Cabe formular tems repetitivos, la misma idea dicha de diversas maneras. No obstante, aunque con tems muy similares se consiguen fcilmente coeficientes de fiabilidad altos, el constructo queda expresado de una manera muy simple. Es preferible redactar los tems en las dos direcciones positiva y negativa, es decir, que unas veces el estar de acuerdo manifiesta una actitud favorable y otras manifieste una actitud desfavorable; eso si, sin introducir palabras negativas como no o nunca que se prestan a confusiones al responder. Esta redaccin bipolar tiene varias ventajas: Obliga a una definicin previa mas matizada del rasgo o constructo. Requiere una atencin mayor por parte del que responde. Permite comprobar la coherencia de las respuestas, verificando si hay contradicciones sistemticas. Si hay un numero aproximado de tems positivos y negativos, y sumamos a cada sujeto sus puntuaciones a los dos tipos de tems, podemos calcular la correlacin entre los dos totales parciales como si se tratara de dos subescalas. Esta correlacin debe alcanzar un valor de 0.50 o mas, y mostrar en este caso una coherencia global en las respuestas. Comprobar la coherencia es prcticamente lo mismo que comprobar que no se da la aquiescencia o tendencia a mostrar acuerdo casi con cualquier afirmacin, incluso con afirmaciones que se contradicen. Cuando se de esta aquiescencia suele deberse a la ambigedad en la redaccin o falta de claridad de los tems. La irrelevancia o ambigedad puede sospecharse cuando demasiados sujetos escogen la respuesta central o los tems no discriminan. La no discriminacin puede indicar tambin que un tem no mide lo mismo que los dems o que los sujetos lo entienden de otra manera. Si un tem discrimina en sentido contrario puede haber un error en la clave de correccin. Sobre el numero inicial de tems que deben redactarse: no hay un numero optimo, pero a mayor numero inicial de tems, mayor probabilidad de encontrar en el anlisis un conjunto de tems definitivos con una fiabilidad suficiente. A mayor numero de tems buenos tambin ser mayor la fiabilidad. 3. REDACCION Y NUMERO DE RESPUESTAS: Redaccion de las respuestas: Las respuestas mas habituales en las escalas de actitudes suelen expresar el grado de acuerdo con el contenido del item, pero puede haber otras mas apropiadas como grado de interes, de imprtancia,...,etc. Cuadro 1 Caben otros fomatos en las respuestas como utilizar numeros especificando con palabras el significado de los extremos (muy de acuerdo o muy en desacuerdo). O con letras. En genreral parece preferible el empleo de letras o palabras, al menos si se juzga que los numeros pueden condicionar la respuesta. Las repuestas en terminos de fracuencia estan muy avaladas por la investigacion cientifica. Cuadro 2 Numero de respuestas: El numero habitual de repuestas es de cinco. En general, aunque no sucede siempre, a mayor numero de respuestas en los items, suele haber en toda la escala una mayor fiabilidad, con tal de que el numero de 28
respuestas no supere la capacidad de discriminacion de los que responden: el numero maximo se suele situar entre seis y siete respuestas y el minimo en tres. Numero par o impar de rspuestas: Lo mas claro es que son preferibles tres respuestas a dos, ya que la fiabilidad es casi siempre mayor. El incluir un numero par de categorias tiene la ventaja de que siempre cabe la posibilidad de agruparlas en dos categorias, de acuerdo y en desacuerdo, y se elimina ademas la posibilidad de que los sujetos se evadan escogiendo la respuesta central. 4. PREPARAR LA CLAVE DE CORRECCION: Las respuestas se codifican siempre con numeros integros sucesivos. En principio es preferible evitar el 0 y comnezar a partir de 1. La clave en numeros debe hacerse de acuerdo con el snetido del item, de manera que la respuesta mas favorable a la actitud tenga el numero mayor. Cuadro 3 5. PREPARAR PREGUNTAS O INSTRUMENTOS ADICIONALES: Ademas de la escala que se esta construyendo se deben preparar otras preguntas, o incluso otras escalas o instrumentos que puedan estar ya hechos, y quie los sujetos responderan al mismo tiempo, para recoger datos adicionales. Estos nuevos datos o preguntas tienen que ver con la verificacion de la validez del instrumento. El obtener datos adicionales de interes es importante por varias razones: Buscar mas datos hipoteticamente relacionados con lo que queremos medir contribuye a que nos hagamos una idea mas clara del rasgo o actitud que nos interesa medir. Recoger datos adicionales al mismo tiempo que se prueba el instrumento en una primera muestra supone un considerable ahorro de tiempo y esfuerzo. Las relaciones que vamos encontrando con otras variables se pueden incorporar de alguna manera al proceso de construccion del instrumento, en el sentido de que nos pueden sugerir ideas validas como criterio en la misma seleccin de los items, en la busqueda de muestras determinadas,...,etc. El pensar en otros datos tiene que ver con la comprobacion de la validez de nuestro instrumento y de los datos que con l recogamos. Comprobar la validez de un instrumento tiene que ver con la comprobacion o confirmacion del significado de lo que medimos, y tambien de su utilidad. Es importante tener desde el principio una idea clara no solamente del rasgo que queremos medir, sino tambien con que otros rasgos puede estar relacionado ese rasgo, a que grupos pede diferenciar,...,etc. Estos datos adicionales son basicamente de dos tipos: Datos cesales o sociologicos: Como edad, sexo, ocupacion o curso, estado civil, etc. Estos datos serviran para describir la muestra y para hacer analisis adicionales. Datos de otro tipo: Como pueden ser preguntas relacionadas con lo que se pretende medir, u otros test o escalas que pueden estar relacionados con la variable que estamos midiendo.
29
6. OBTENER DATOS DE UNA MUESTRA: Una vez preparada la version inicial del instrumento, se recogen las respuestas de una muestra para poder hacer los analisis correspondientes, sobre todo el analisis de items y el calculo de la fiabilidad; estos analisis nos van a permitir dar forma al instrumento definitivo. El tipo de muestra elegido debe ser semejante al tipo de poblacion con el que se va a utilizar despues. A mayor heterogeneidad en la muestra obtendremos con mayor facilidad una fiabilidad alta. Sobre el numero de sujetos necesario; para que los analisis tengan suficiente consistencia y sean extrapolables a muestras semejantes, conviene que haya al menos 5 sujetos por item inicial. Si se piensa hacer despues una analisis factorial debe haber unos 10 sujetos por item; en cualquier caso no deben ser menos de 200. 7. ANALISIS DE ITEMS Y COMPROBACION DE LA FIABILIDAD: En primer lugar y una vez obtenidos los datos calculamos: La media y la desviacion tipica de los totales: cada sujeto tiene un total que es la suma de todas sus respuestas a los items. La media y la desviacion de cada item. A continuacion llevaremos a cabo el analisis de items y calcularemos la fiabilidad. EJERCICIO DE FIABILIDAD (tipo examen) tem 1 2,42 0,99 0,20 tem 2 2,38 0,84 0,49 tem 3 2,74 1,09 0,32 tem 4 2,18 1,18 0,28
Media Desviacin Hc
Covarianzas entre tems. tem 1 0,97 0,22 0,14 0,13 tem 2 0,71 0,52 0,48 tem 3 tem 4
tem 1 tem 2 tem 3 tem 4
1,18 0,25
1,40
Se trata de una prueba de rendimiento ptimo? No es una prueba de rendimiento ptimo porque las medias exceden a la unidad y en estas pruebas el rango es entre 0 y 1. Y la desviacin tpica entre 0 y 0,5. En que tem los sujetos contestan de manera mas parecida? El de la desviacin tpica ms pequea: tem 2. Interpreta la media del tem 3. Si fuese una prueba de rendimiento ptimo tendramos que decir que es el ndice de dificultad. 30
Pero como es una prueba de rendimiento tpico solo decimos que es la media mayor. Hay algn tem mal cuantificado? Para esto miramos el Hc, que es el que relaciona el tem con todos los dems. El 0,20 del tem 1 quiere decir que cuando todos puntan alto, este punta bajo, con lo cual esta mal cuantificado. Cul es el tem que menos relaciona? El tem 1 (no por ser negativo sino por el numero) por ser el mas bajo, y luego tambin lo comprobamos en las covarianzas. Eliminar el menos discriminativo y hallar la media del nuevo test. Quitamos el tem 2. Para tener la media total, voy sacando la de la media del tem 1, del tem 3 y la del 4, y la suma de ambas es la total. La varianza seria: S2 = Eliminar el tem que menos contribuye a la consistencia interna y luego calcular el ndice de consistencia interna. Eliminamos el tem 1, por ser el Hc mas bajo. Y como nos piden consistencia hallaramos el de Cronbach.
k es el nmero de tems.
se suman las varianzas del tem 2, 3, 4 (los que NO quitamos).
0,71 = Covarianza del 23 = 0,52 ++
31
1,18 = Covarianza del 24 = 0,48 ++ 1,40 = Covarianza del 34 = 0,25 EJERCICIO 3 Rxx= es la fiabilidad por el procedimiento de las dos mitades para los 6 tems. Una correlacin de 0,51 es moderadamente significativa, la coherencia entre ambas partes es moderada. El 51% de las diferencias encontradas quedan explicadas por el verdadero nivel de rasgo. EJERCICIO 4
se halla sumando el tem 2, 3, 4 (X = X2 + X3 + X4 = 4, 7, 3, 5, 6, 11, 8, 4) de ah se halla la varianza, que en este caso es 6. Interpretacin: el 78% de las diferencias encontradas se explican por el verdadero nivel de rasgo. O bien, el 78% de las diferencias encontradas se explican por lo que los sujetos tienen de comn y adems distinguen las diferencias. EJERCICIO 7 Si tenemos una fiabilidad de 0,70 y queremos llegar a una fiabilidad de 0,90, sustituiramos en la formula y nos dara n = 3, 86 formas paralelas. rnn es la fiabilidad deseada. r11 es la fiabilidad obtenida con el nmero original de tems. Ahora en este caso si se podra utilizar la regla de tres. 40 tems 1 forma paralela X tems n 1 = 2,86 formas paralelas Y el resultado seria 115 tems que vamos a aadir...
32
OJO!: no confundirnos al poner n = 3,86 que ha sido lo que nos ha dado en la formula, porque hay que restarle la forma paralela que ya tenamos en el test inicial. Si no la restamos nos saldran 154 tems que son el total, no los que hemos aadido (115). EJERCICIO 9 N = 4 quiere decir que he aadido 3 formas paralelas a la inicial. Cuando duplico el nmero de tems incremento un 0,17 de fiabilidad. La siguiente vez (de n =2 a n=3) incremento un 0,10. La prxima vez (de n=3 a n=4) incremento un 0,12. Esto nos indica que es incorrecto, porque la fiabilidad aumenta pero por el efecto techo no puede ser mayor que la fiabilidad anterior. El incremento debera ser 0,6, con una fiabilidad de 0,73. A EF CA V.D: criminalidad operativizada en numero actos delictivos. V.I: Tipos de ciudad, operativizada en 3 niveles: Centros Industriales, C. Comerciales, C. Polticos. Ho: no existen diferencias estadsticamente significativas en los promedios de criminalidad en funcin del tipo de ciudad.
Clculos previos. Media 6,625 5,5 3,5 Desviacin 1,218 1,5 1,5 Varianza 1,484 2,25 2,25
A1 A2 A3
meter todas las medias y hallar la desviacin.
meter todos los datos y hallar la desviacin.
Anova A EF CA F 33
Origen de la Variacin
Suma de cuadrados
Grados de libertad
Cuadrados medios (Varianza) SC/GL 20,04 2,279
CM entre CM dentro
(numerador de la (denominador de varianza) la varianza) ENTRE DENTRO TOTAL. 40,08 47,872 87,936 2 21 23
8,793
0,05= 3,47 Si nuestra F > F tablas R Ho p < F2, 21 0,01 = 5,78 DECISION Con una F2, 21 = 8,793; p < 0,01 Rechazo Hiptesis Nula. CONCLUSION. Existen diferencias estadsticamente significativas en los promedios de criminalidad en funcin del tipo de ciudad. 2. INDICE DE ASOCIACION. SCentre (K 1) SCdentro = 0,39 SCtotal + SCdentro El 39 % de la variabilidad encontrada en la criminalidad es atribuible al tipo de ciudad. Tiene una relevancia grande. 0,001 Baja 0,06 Media 0,14 Grande 3. CONTRASTE DE TUKEY. 0,05 = 3,58 DHS = q 0,01 = 4,64 DHS0,05 =
DHS0,01 = 34
A1 A2 A1 A3 A2 A3
M1 M2 1,125 3,125 2
P P>0,05 P<0,01 P<0,05
NO SI SI
Rechazo si (M1M2) > DHS Existen diferencias estadsticamente significativas entre todos los promedios de los diferentes niveles de la variable dependiente, menos en el del grupo A1 A2, dndose las diferencias mas pronunciadas en funcin de pertenecer al grupo A1 A3. 4. CONCLUSION. Con una F 2, 21 =8,793; P< 0,01 vemos que existen diferencias estadsticamente significativas en los promedios de criminalidad en funcin del tipo de centro. Mas en concreto esas diferencias se localizan entre los centros industrial y poltico (M1 M3 = 3,125 P< 0,01) Centros industriales (M = 6,625) y centros industriales (M = 5,5) no difieren, a pesar de tener un ndice de criminalidad mas altamente significativo que el poltico. Adems un 39% de la variabilidad encontrada en la criminalidad es atribuible al tipo de ciudad, teniendo una relevancia grande. ANOVA AB EF CA V.D: conducta motora infantil, operativizada en muero de bolas metidas en una caja en 4 minutos. V.I: privacion social; operativizada en 4 niveles: 10, 20, 40 y 60 minutos. Magnitud del reforzador; operativizada en 2 niveles: con o sin esfuerzo. Ho Factor A: no existen diferencias estadisticamente significativas en los promedios en la conducta motora infantil en funcion de la magnitud del reforzador.
Ho Factor B: no existen diferencias estadsticamente significativas en los promedios en la conducta motora infantil en funcion del tiempo de privacin social.
Ho Interaccion: no existen diferencias estadsticamente significativas en los promedios en la conducta motora infantil en funcion de las distintas combinaciones entre privacin social y magnitud del refuerzo. Calculos Previos. Con media 3,25 Refuerzo desviacin 1,639 Sin media 1,5 Refuerzo desviacin 0,5
10
varianza 2,687
varianza 0,25 35
min 20 min 40 min 60 min
4,5 7 8
1,118 1 0,707
1,25 1 0,5
3 5,5 9,75
0,707 0,5 0,433
0,5 0,25 0,1875
Mb1=2,375 Sb1 = 0,569 Mb2= 3,75 Sb2 = 0,2055 Mb3 = 6,25 Sb3 = 0,25 Mb4= 8,875 Sb4 = 0,137 Ma1= 5,687 S= 2,228 Ma2= 4,93 S = 3,1715 Ej. La Mb1 se halla metiendo las medias de la 1 fila, se suman y se halla su media La Ma2 se halla metiendo las medias de la 1 columna y hallando su media. La Sb1 se halla metiendo las desviaciones de la 1 fila y hallando su desviacin. La Sa1 se halla metiendo las puntuaciones individuales (enunciado del ejercicio) de la 1 columna (con refuerzo) y hallando la desviacin. M factor A: 5, 3085 se meten las 2 medias de A y se halla la media. S factor A: 0, 3785 se meten las 2 medias de A y se halla la desviacion. S2 factor A: 0, 1432 se meten las 2 medias de A, se halla la desviacin y se eleva. M factor B: 5,3125 Se meten las 4 medias y se halla la media. S factor B: 2,481 Se meten las 4 medias de B y se halla la desviacin. S2factor B: 6,16 Se meten las 4 medias de B, se halla la desviacion y se eleva. Mtotal: 5,3125 meter todas las puntuaciones individuales y hallar la media. Stotal: 2,7662 meter todas las puntuaciones y hallar la desviacion. S2total: 7,6523 elevar al cuadrado la desviacion de los totales. 36
S2AxB: 6,824 se meten las 8 medias de cada celda (3,25, 4, 5, 7, 8, 1,5, 3, 5,5, 9,75) y se halla la varianza. Meter la desviacin de las celdas y luego hallar el sumatorio al cuadrado. n = numero de puntuaciones en cada celda. A: numero de niveles del factor A. B: numero de niveles del factor B. Anova AB EF CA Suma de cuadrados Origen de la Variacin Factor A Factor B Interaccin Error TOTAL Grados de libertad Cuadrados medios (Varianza) SC/GL 1,527 197,12 5,555 0,8694 CM dentro 4,087 59,52 4,99 F CM entre P (probabilidad) >0,05 A <0,01 R <0,01 R
(numerador de la (denominador de varianza) la varianza) 4,5824 197,12 16,665 25,2128 244,87 3 1 3 24 31
0,05 = 4,86 0,05 = 3,01 F1, 24 F3, 24 0,01 = 7,82 0,01 = 4,72 Existen diferencias estadsticamente significativas en la conducta motora infantil en funcion de la privacin social. F1, 24 = 59, 52 p < 0,01 Sin embargo no existen diferencias estadsticamente significativas en la conducta motora infantil en funcion del tiempo de privacin social. F3, 24 = 4,087 p > 0,05 INDICE DE ASOCIACION. Se halla de los factores que hemos rechazado la Hiptesis Nula. SCB (B 1) CMerror = 0,7986 SCtotal + CMerror El 79,86% de la variabilidad encontrada en la conducta motora infantil esta asociada a la privacion social. SCAB (A 1) (B1) CMerror = 0,057 SCtotal + CMerror 37
El 5,7% de la variabilidad encontrada viene explicada por las diferentes combinaciones de reforzador y privacin social. 0,001 es bajo. 0,06 media 0,14 alta Y el coeficiente eta es < 0,05 pequea y < que 0,10 grande CONTRASTE DE TUKEY. Hallamos el de factor B porque hemos rechazado Hiptesis Nula y tenemos varios niveles. En el factor A no hace falta porque solo tenemos 2 niveles. 0,05 = 3,90 DHS = q 4, 24 0,01 = 4,41 El 4 de la q se refiere a que hay 4 niveles en el factor B. DHS0,05 =
DHS0,01 =
12 13 14 23 24 34
M1 M2 1,375 3,875 6,5 2,5 5,125 2,625
P P>0,05 P<0,01 P<0,01 P<0,05 P<0,01 p<0,01
NO SI SI Si Si Si
Rechazo si (M1M2) > DHS Se encuentran diferencias estadisticamente significativas en todos menos en el de 10 y 20 minutos. GRAFICO DE LAS MEDIAS. Se meten las medias de las celdillas. En los primeros momentos (10 20 min) la conducta motora aumenta, mas si tiene refuerzo, pero llegado a 40 60 minutos los que tienen refuerzo disminuyen y los otros aumentan. Si son lneas paralelas no hay interaccin. 38
Si no son paralelas hay interaccin. Cuando las lneas se cruzan la interaccin es NO ordinal Y cuando las lneas no paralelas no las veo cruzarse la interaccin es ordinal. INTERPRETACION Y CONCLUSION. Ho Factor A: no existen diferencias estadisticamente significativas en los promedios en la conducta motora infantil en funcion de la magnitud del reforzador. Ho Factor B: no existen diferencias estadsticamente significativas en los promedios en la conducta motora infantil en funcion del tiempo de privacin social. Ho Interaccion: no existen diferencias estadsticamente significativas en los promedios en la conducta motora infantil en funcion de las distintas combinaciones entre privacin social y magnitud del refuerzo. Decisiones. F1, 24 = 59, 52 p < 0,01 Como se observa en los datos hemos rechazado la hiptesis nula relacionada con la privacion social, lo que significa que existen diferencias estadsticamente significativas en la conducta motora infantil en funcion del tiempo de privacin social. Tras hallar la diferencia honestamente significativa podemos afirmar que esas diferencias estadsticamente significativas se dan entre todos los grupos, excepto en el de 10 20 minutos. F3, 24 = 4,087 p > 0,05 Sin embargo hemos aceptado la hiptesis nula relacionada con la magnitud del refuerzo, lo que indica que no existen diferencias estadsticamente significativas en la conducta motora infantil en funcion del tiempo de privacin social. Ademas al estar operativizada en dos niveles (con reforzador, sin reforzador) no ha sido necesario realizar contrastes posteriores. F3, 24 = 4,087 p > 0,05 De igual manera hemos rechazado la hiptesis nula de la interaccion, lo que quiere decir que existen diferencias estadsticamente significativas en la conducta motora en funcion de las distintas combinaciones entre magnitud del esfuerzo y privacin social. Mas concretamente podemos afirmar que el 79% de la variabilidad encontrada en la variable dependiente, que en este caso es la conducta motora, viene explicada por el tiempo de privacin social en que se mantiene al nio (0,7986), siendo un porcentaje alto, porque excede al 14%. Y un 5,7% de dicha variabilidad por la interaccion entre la privacin social y la magnitud del refuerzo. ANOVA A EF MR Ho Filas: no existen diferencias estadsticamente significativas en los promedios de los alumnos. Ho Columnas: no existen diferencias estadsticamente significativas en los promedios en la manera de evaluar de los profesores. Clculos previos: 39
Columnas. media 5,71 4,714 5,857 5,857 5,142 5,714 desviacin 2,11 2,05 1,958 1,641 2,294 1,979 varianza 4,49 4,20 3,836 2,693 5,265 3,918
A B C D E F M columnas: 5,499
S m columnas: 0,426 se meten todas las medias y se halla la desviacin. S2 M columnas: 0,1817 hallar la desviacin tipica de todas las medias y luego al cuadrado. Filas. El total de las filas es la suma de las puntuaciones de cada sujeto. Media 2,833 5,5 7 2,83 6,83 5,166 7,66 Desviacion 0,687 0,957 0,816 1,343 1,572 1,213 0,94 Varianza 0,472 0,916 0,666 1,805 2,472 1,472 0,888
1 2 3 4 5 6 7 M filas: 5,402
S m filas: 1,811 se meten todas las medias y se halla la desviacin. S2 M filas: 3,281 se eleva al cuadrado la desviacin. M total: 5,404 S total: 2,127 meter todos los datos y hallar la desviacin. S2total:4,526 meter todos los datos y hallar la varianza. Anova A EF MR meto las medias de las columns al cuadrado y hallo el sumatorio. meto las varianzas y hallo el sumatorio meto las medias de las columnas, hallo la media y lo elevo al cuadradp.
40
aplico la formula meto los totales de las filas y hallo la varianza meto las medias de las columnas y hallo la varianza. SCT = Suma de cuadrados Origen de la Variacin Filas 137,802 (alumnos). Columnas (Profesores) Interaccin Variabilidad TOTAL. 7,6314 44,6586 190,092 6 5 30 41 22,967 1,5263 1,4886 15,428 0,88 < 0,01 R > 0,05 A Grados de libertad Cuadrados medios (Varianza) SC/GL CM dentro F CM entre P (probabilidad)
(numerador de la (denominador de varianza) la varianza)
0,05 = 2,53 0,05 = 2,42 F5, 30 F 6, 30 0,01 = 3,70 0,01 = 3,47 A la vista de los datos concluimos que no existen diferencias estadsticamente significativas entre los profesores a la hora de clasificar a los candidatos. Hemos aceptado la hiptesis nula de las columnas. F5, 30= 1,025 p > 0,05 Son los sujetos los que son diferentes entre si. Es decir existen diferencias estadsticamente significativas entre los candidatos. Hemos rechazado la Ho de las filas; incluso con los grados de libertad mas conservadores (1, n1; 4,08, 7,31) F 6, 30 = 15,428 p < 0,01 2. Calcula el coeficiente de fiabilidad que tenga mas sentido calcular de acuerdo con los resultados obtenidos. Interpretacin. Cuando se rechaza la Ho de las Columnas es conveniente hallar el coeficiente de fiabilidad de las filas. Y cuando se rechaza la Ho de las filas hay que hallar el coeficiente de fiabilidad de las columnas para ver en que grado las columnas son consistentes.
41
Como hemos podido comprobar mediante el anlisis de varianza no existen diferencias estadsticamente significativas entre los profesores a la hora de clasificar a los candidatos. A travs del coeficiente fiabilidad y una vez cuantificado su grado de unanimidad, podemos afirmar que tienen un grado de consistencia de en torno al 14% Fiabilidad en los test y escalas. 54 X=V+E
r11= r11= =
ndice de precisin =
XV =
Rxx=
42
AS AI Dc1= N AS + AI Df= N +N AS + AI Df= N +N Dc2=
Indice dificultad para todo el test =
Indice discriminacion para todo el test =
K 2i = 1 k 1 2t
43

La Fiabilidad de Los Test Y Escalas

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

La Fiabilidad de Los Test Y Escalas

Enviado por

Direitos autorais:

Formatos disponíveis

LA FIABILIDAD DE LOS TEST Y ESCALAS Recordemos que la validez se refera al significado que podemos atribuir.

= suma de las varianzas de los tems

tem 1 tem 2 tem 3 tem 4

se suman las varianzas del tem 2, 3, 4 (los que NO quitamos).

0,71 = Covarianza del 23 = 0,52 ++

meter todas las medias y hallar la desviacin.

meter todos los datos y hallar la desviacin.

Cuadrados medios (Varianza) SC/GL 20,04 2,279

P P>0,05 P<0,01 P<0,05

min 20 min 40 min 60 min

0,707 0,5 0,433

0,5 0,25 0,1875

(numerador de la (denominador de varianza) la varianza) 4,5824 197,12 16,665 25,2128 244,87 3 1 3 24 31

M1 M2 1,375 3,875 6,5 2,5 5,125 2,625

P P>0,05 P<0,01 P<0,01 P<0,05 P<0,01 p<0,01

(numerador de la (denominador de varianza) la varianza)

AS AI Dc1= N AS + AI Df= N +N AS + AI Df= N +N Dc2=

Indice dificultad para todo el test =

Indice discriminacion para todo el test =

Você também pode gostar