Você está na página 1de 5

confiabilidad y error de medición

confiabilidad

es un índice de la calidad de las técnicas de evaluación. su indagacion está a cargo de quien elabora o adapta el instrumento en
cuestión.
la teoría clásica de los tests (TCT) es útil para describir la influencia de los errores de medida en las puntuaciones observadas u
obtenidas a través de instrumentos y sus relaciones con las puntuaciones verdaderas. se basa en el Modelo Lineal de Spearman,
desarrollado principios de siglo XX.
si se acepta la posibilidad de medir en psicología, es necesario, según la TCT, asumir dos supuestos:
1-existen puntajes verdaderos, que reflejan puntualmente la realidad, que miden de modo exacto, sin error.
2-siempre que se realizan mediciones pueden cometerse errores.
la puntuación verdadera se define como lo que queda de la puntuación observada u obtenida a través de un test, una vez eliminados
los errores de medida.
en psicología el puntaje verdadero no puede ser completamente calculado, dado su carácter ideal. por esta razón, el objetivo de los
estudios que se realizan sobre la precisión de las puntuaciones obtenidas a través de instrumentos, es controlar y calcular el margen de
error.

tipos de error

errores sistemáticos (validez)

las fuentes de errores sistemáticos son aquellas que desplazan las puntuaciones, en cierta dirección general, de una puntuación
sistemáticamente elevada o baja. son errores constantes. x ejemplo, la balanza mal calibrada. el error sistemático, a pesar de introducir
diferencias en el resultado de la medición, no cambia la variabilidad (la distribución de las puntuaciones de un grupo de sujetos en la
variable que se está evaluando). los instrumentos que conllevan este tipo de error sistemático sobreestiman o subestiman, según el
caso, el atributo evaluado (peso, en este ej.).
los errores sistemáticos pueden ser detectados a través del análisis de la validez.

errores no sistemáticos (confiabilidad)

son generados por las variaciones cuya causa es el azar.


dichas fuentes de error pueden haber sido generadas en la etapa de construcción de la técnica, en la administración, en la puntuación o
en la interpretación de los resultados arrojados por la misma.
una de las posibles fuentes de este tipo de error, durante la construcción de la técnica, es el muestreo de contenido (dependiendo de
los ítems incluidos en la técnica).
las fuentes de error que pueden ocurrir durante la administración de la técnica son aquellos que tienen cierta influencia en cambios
azarosos en la atención o motivación del sujeto examinado, como las condiciones ambientales, el examinador, su estilo, su
comportamiento. la subjetividad del evaluador no debe estar implicada en la puntuación. se deben analizar muy bien las instrucciones
para evaluar la técnica y la claridad de los criterios de evaluación. los resultados podrían variar según el examinador que le ha tocado
en suerte al sujeto.

confiabilidad de las puntuaciones

es un concepto análogo al de precisión.


la confiabilidad de una técnica psicométrica no se dirime en términos de confiable o no confiable. hay diferentes tipos y grados de
confiabilidad.

repaso de conceptos estadísticos relacionados

varianza y desvío estándar

la variabilidad que encontramos en el conjunto de puntuaciones obtenidas puede expresarse como su varianza que se simboliza
como s^2 (s al cuadrado), siendo la raíz cuadrada de ésta el llamado desvío estándar cuya notación es la letra s.
cualquier condición que se es relevante para el propósito de la prueba es considerada varianza de error.

coeficiente de correlación
se calcula partir de las puntuaciones obtenidas en una muestra en dos variables.

coeficiente de correlación interpretación


+1.00 correlación positiva perfecta
+0.90 correlacion positiva muy fuerte
+0.75 correlación positiva considerable
+0.50 correlación positiva media
+0.10 correlación positiva débil
0.0 no existe correlación alguna entre las variables
-0.10 correlación negativa débil
-0.50 correlación negativa media
-0.75 correlación negativa considerable
-0.90 correlación negativa muy fuerte
-1.00 correlación negativa perfecta

el coeficiente de confiabilidad

es un número cuyo valor mínimo es 0, lo cual estaría indicando la inexistencia de varianza verdadera ya que toda es varianza de
error, y su valor máximo es igual a 1, lo cual estaría indicando que no hay error, todo es varianza verdadera.
la dificultad principal para calcular la confiabilidad, es decir, calcular esta proporción, es que el único dato que se puede obtener de los
resultados de la medición corresponde la varianza total, mientras que tanto la varianza verdadera como la de error son incógnitas. por
tal motivo, a esta forma de calcular la confiabilidad se la denomina forma teórica, y al coeficiente obtenido de esta manera se lo
llama coeficiente de confiabilidad teórica, ya que de los tres datos de la fórmula hay dos que son desconocidos.

procedimientos empíricos para estimar el coeficiente de confiabilidad. tipos de confiabilidad

si se realizan dos mediciones con el mismo instrumento a una muestra de sujetos, en forma sucesiva o simultánea, y si además se
supone que el constructo que se quiere evaluar no varió entre las dos mediciones, el conjunto de las discrepancias de los resultados
entre la primera y segunda medición va representar en alguna medida el error de medición, lo cual es el primer paso para hallar la
varianza de error. análogamente las consistencias entre la primera y segunda medición llevadas a cabo con el instrumento se van a
representar la varianza verdadera.
existen diferentes métodos que permiten calcular empíricamente coeficiente de confiabilidad.
a partir de la implementación de estos métodos empíricos, se obtiene un coeficiente de confiabilidad. algunos son más sensibles a la
consistencia entre los items, otros a la estabilidad temporal del puntaje, o a la confiabilidad del evaluador, entre otras alternativas.

métodos que requieren una sola aplicación:


división por mitades
formas paralelas (sin intervalo)
fórmulas Kuder-Richardson
coeficiente alfa de Cronbach
confiabilidad entre evaluadores

métodos que requieren repetidas aplicaciones:


test-retest
formas paralelas (con intervalo)

en todos los procedimientos es necesario disponer de al menos dos conjuntos de medidas paralelas de los mismos sujetos, para luego
calcular entre ellas el coeficiente de confiabilidad de las técnicas. interesa analizar la variabilidad de las puntuaciones obtenidas por
una muestra de sujetos (y no el puntaje obtenido por un solo sujeto), la dispersión de los puntajes.
el coeficiente de correlación indica la consistencia entre los puntajes obtenidos en ambas medidas, esto es justamente lo necesario
para analizar la confiabilidad de las puntuaciones.
el coeficiente hallado será un valor entre 1 y 0. cuanto más cercano a cero sea ese valor. indicará más discrepancia (presencia de
errores) entre las dos mediciones, es decir menos confiabilidad del instrumento (el error lo afecta en gran medida).

cuando en el coeficiente de correlación de pearson r xy se utiliza una sola variable como en el caso del cálculo de la confiabilidad, es
natural cambiar sus índices xy, por xx, ya que no existen dos variables sino una variable x quedando entonces la notación r xx. dada la
frecuencia de utilización del cálculo de la confiabilidad a partir del coeficiente de correlación de pearson, se utilizan ambos como
sinónimos (correlación de pearson y coeficiente de confiabilidad), aunque en términos conceptuales no lo sean.
Coeficiente r de Pearson Lectura de la correlación hallada Lectura del coeficiente de
confiabilidad
+1.00 correlación positiva perfecta Nunca se llega a este valor,
ninguna técnica arroja puntajes
perfectos.
+0.90 correlacion positiva muy fuerte Técnica muy confiable
+0.75 correlación positiva considerable Adecuada
+0.50 correlación positiva media Regular (no cumple requisitos
científicos)
+0.10 correlación positiva débil Baja confiabilidad
0.0 No existe correlación alguna Medición contaminada de
entre las variables. error. No confiable.

métodos basados en medidas repetidas

consiste en usar el mismo instrumento en la muestra de sujetos en dos momentos, es decir, con un lapso de tiempo entre ambas
administraciones. con estos métodos se estima el coeficiente de confiabilidad que permite medir la estabilidad de las puntuaciones
obtenidas por la técnica de evaluación bajo estudio.

test-retest:
la fuente de falta de confiabilidad que identifica el método test-retest son las fluctuaciones temporales aleatorias, que influyen tanto en
las condiciones de administración como en las condiciones de los examinados.
en este procedimiento empírico es fundamental la determinación de la extensión del intervalo de tiempo entre una ministración y otra,
ambas realizadas en la misma muestra de sujetos.
cuanto mayor tiempo pase entre la primera administración y la segunda, el coeficiente de correlación será menor; y cuanto más breve
sea el intervalo, la estabilidad temporal de los puntajes será de menor alcance.
etapas:
1-aplicar y evaluar la técnica a una muestra de sujetos
2-lapso de tiempo (justificado)
3-aplicar y evaluar la técnica a la misma muestra de sujetos
4-calcular la correlación r entre las puntuaciones obtenidas en ambas ocasiones
5-interpretar el coeficiente hallado (estabilidad temporal de las puntuaciones)
en los estudios de confiabilidad se tiene como objetivo calcular, valorar, la estabilidad temporal de las puntuaciones de la técnica, su
permeabilidad a cambios sutiles, y por lo tanto se espera que la intervención de factores fortuitos aleatorios (aprendizajes, olvidos,
cambios emocionales esporádicos de los sujetos) entre la primera aplicación y la segunda, influyan los menos posible en las
puntuaciones del instrumento , o sea que el instrumento capte características constantes, estables, de los sujetos.

formas paralelas alternativas (con intervalo):


la evaluación de la variable no conserva las mismas características cuando un test es administrado en una segunda oportunidad, ya que
las respuestas a algunos ítems pueden verse afectadas por factores tales como la experiencia previa con los reactivos del instrumento,
la falta de novedad, la memoria, la fatiga o la falta de motivación.
el procedimiento de las formas paralelas con intervalo de tiempo es una buena alternativa cuando no se puede aplicar el método test
retest por el efecto que el aprendizaje y la memoria tendrían sobre los resultados en la segunda administración. se procede entonces a
elaborar formas equivalentes y se les aplica a los mismos sujetos en dos oportunidades, con un intervalo de tiempo entre ambas
administraciones. en este método es tan importante como en el de test-retest justificar el lapso de tiempo.
ambas versiones deben partir de un fundamento común, tener un contenido y un grado de dificultad similar, sin ser iguales.
también deben ser equivalentes tanto las medias y las varianzas de las puntuaciones que arrojan como los índices de dificultad y
discriminación de los ítems.
en síntesis, este procedimiento controla dos fuentes de falta de confiabilidad: las fluctuaciones temporales aleatorias, al igual que es
método anterior de test-retest, y además la inconsistencia de las respuestas a diferentes muestras de ítems.
etapas:
1-administrar una forma del test a una muestra de sujetos
2-lapso de tiempo (justificado)
3-administrar la forma paralela de la técnica a la misma muestra de sujetos
4-calcular la correlación r entre las puntuaciones obtenidas con una forma y con la otra
5-interpretar el coeficiente hallado (estabilidad temporal de las puntuaciones y muestreo de contenido)

métodos basados en una sola aplicación del test

son los más utilizados por los autores y adaptadores de las técnicas psicométricas.

división por mitades:


tiene como objetivos el escrutinio de los ítems que conforman la prueba y el análisis de las relaciones entre ellos. el procedimiento
empírico aporta información para estimar el grado de consistencia interna del instrumento. es decir, este método controla, o identifica,
la inconsistencia de la muestra de ítems, el muestreo de contenido.
existen diversas formas adecuadas para lograr dos mitades homogeneas: azar, pares e impares, por contenidos. a su vez, las mitades
deben ser similares en cuanto a formato, número de ítems, y estadísticos (medias, varianzas, e índices de dificultad y discriminación),
en síntesis, deben ser homogéneas.
etapas:
1-administrar el test a una muestra de sujetos
2-dividir el conjunto de ítems en dos mitades homogéneas
3-calcular la correlación r entre las puntuaciones obtenidas en las dos mitades en las que ha quedado dividida la técnica
4-ajustar la confiabilidad de la mitad de la prueba usando la fórmula de Spearman-Brown
5-interpretar el coeficiente hallado (consistencia de las respuestas a lo largo del test)

la fórmula de Spearman-Brown se utiliza para estimar la confiabilidad del instrumento cuando este se ha alargado o acortado en
cualquier cantidad de ítems. kopitz, en el libro Test Gestáltico Visomotor para niños, descarta el método de la división por mitades,
porque es imposible dividir en dos mitades homogéneas las 9 tarjetas que conforman esta prueba. por el contrario, en el estudio de las
propiedades del wisc III, este procedimiento resulta adecuado, ya que los distintos subtests pueden ser divididos en dos mitades
homogeneas. ¿por qué se estudiaron con este método sólo algunos subtests y no el wisc completo? el wisc III es un instrumento
heterogeneo, mide diversos atributos y factores, por lo tanto sería imposible dividirlo en dos mitades
homogeneas. Claves y Búsquedas de símbolos son pruebas de velocidad. luego la correlación entre la mitad de los ítems pares y la
mitad de ítems impares va ser perfecta (+1) pero al mismo tiempo espuria, ya que no aportaría información sobre la confiabilidad de
las puntuaciones. este procedimiento y otros similares a él, es inapropiado para valorar la confiabilidad de las pruebas de velocidad.

formas paralelas alternativas (sin intervalo):


se aplican ambas formas, en la misma sesión, a la misma muestra de sujetos, una después de la otra. controla específicamente si
razones azarosas en la selección de los ítems de cada una de las formas han influido en la muestra de sujetos de tal manera que los
mismos contesten mejor en una forma específica del test que en la otra, y esto obviamente no en función de variaciones verdaderas del
constructo a evaluar, sino tan sólo debido a los ítems particulares que le tocaron en suerte, o sea por el azar, por la influencia de
errores aleatorios. identifica la presencia de inconsistencias en las respuestas a diferentes muestras de ítems.

etapas:
1-aplicar las dos formas a una muestra de sujetos
2-calcular la correlación r entre las puntuaciones obtenidas por la misma muestra en una y otra forma
3-interpretar el coeficiente hallado (consistencia de las puntuaciones)
pueden ser afectadas por la fatiga y/o la falta de motivación por parte de los sujetos.

fórmulas kunder-richardson:
se trata de índices útiles para evaluar la homogeneidad del test. estas fórmulas que permiten calcular el grado de correlación entre
todos los ítems de una escala. la kr20 es la estadística seleccionada cuando se desea determinar la consistencia entre items
dicotómicos, sobre todo aquellos ítems que pueden ser calificados como correctos e incorrectos. la inconsistencia entre los ítems
puede estar influida por el muestreo de contenido o por la heterogeneidad del atributo evaluado.
etapas:
1-aplicar y evaluar la técnica a una muestra de sujetos
2-calcular el coeficiente kr-20 entre los ítems
3-interpretar el coeficiente hallado (consistencia, homogeneidad)

coeficiente alfa de cronbach:


puede ser utilizado en reactivos no dicotómicos, o sea en ítems que incluyen un rango de alternativas posibles para que sujeto los
responda. por ejemplo, las escalas likert. se trata de un método para identificar inconsistencia entre los ítems de una técnica.
etapas:
1-aplicar la técnica a una muestra de sujetos
2-calcular el coeficiente alfa entre las puntuaciones obtenidas en los distintos items
3-interpretar el coeficiente hallado

ej., Milion, para el inventario de estilos de personalidad en sujetos adultos, informa un resultado igual a 0,775 en la
escala Innovación. en la actualidad, el coeficiente final debe ser acompañado por el rango de los coeficientes parciales. así, en el
MIPS arrojó el valor mínimo igual a 0,69 y el valor máximo igual a 0,85, en la escala analizada.

confiabilidad entre evaluadores:


este método identifica las fluctuaciones en las puntuaciones según el evaluador.
etapas:
1-aplicar la técnica a una muestra de sujetos
2-evaluar las técnicas administradas (evaluador A)
3-evaluar las técnicas administradas (evaluador b)
4-calcular la correlación r entre los puntajes asignados por el evaluador A y por el evaluador B

5-interpretar el coeficiente hallado

cuando el elaborador o un adaptador de una técnica calcula un índice bajo de confiabilidad con este método, deberá revisar los
criterios de puntuación e incluir otros que resulten más claros y que permitan por lo tanto tener un coeficiente mayor.
utilidad del coeficiente de confiabilidad: tener criterios de selección entre instrumentos. también, calcular el error de medición de
las puntuaciones obtenidas a través de una técnica e interpretarlas adecuadamente.

error típico de medida. su utilidad

la confiabilidad es importante a la hora de interpretar puntuaciones individuales. se aborda el análisis de la puntuación específica de
un sujeto concreto.
el error que se refiere al componente de la puntuación observada que está evaluando variables improcedentes, condiciones aleatorias y
no permanentes del atributo cuestión.
la confiabilidad se puede definir como la proporción de la varianza verdadera y la total.

niveles de significación de intervalo de confianza

no es posible calcular el error de una determinada medición, ya que no se conoce el valor verdadero. sin embargo, calculando el
desvío estándar de los errores se puede conocer la posibilidad de que el error se encuentre entre dos determinados -y calculables-
valores. a estos dos valores -uno por encima del puntaje obtenido y otro por debajo del mismo- con su correspondiente probabilidad,
se los conoce como intervalo de confianza.

al desvío estándar de terror se lo denomina como error estándar o error típico.


a medida que aumentamos la seguridad, la certeza, la confianza en la evaluación, aumenta también el rango del intervalo, la distancia
entre los puntajes mínimo y máximo del intervalo.

utilidad del error típico de medida

el wisc 3 estima el rendimiento general de un niño o adolescente a través del Cociente Intelectual de la Escala Completa (CIEC)
Verbal (CIV), de Ejecución (CIE) y 4 puntajes índice [comprensión verbal (CV), organización perceptual (OP), ausencia de
distractibilidad (AD) y velocidad de procesamiento (VP).
un nivel de certeza del 99% es muy elevado, teniendo en cuenta el desarrollo actual de las técnicas psicométricas. por lo tanto, el wisc
asume 2 niveles de significación de sus puntuaciones: una que implica un nivel de certeza del 90% y otra del 95%. es frecuente que un
extremo del intervalo tenga una interpretación diagnóstica (CIV 105= Inteligencia Verbal promedio) y el otro una diferente (CIV 116=
Intligencia Verbal media alta), al quedar incluido en la franja de puntaje de corte (CI=110) entre los diagnósticos "Promedio" y
"Rendimiento alto".
este ejemplo permite valorar la importancia de no regirse por la lectura puntal del puntaje obtenido una técnica, ya que el margen de
error puede confundir un diagnóstico. en este caso, como en otros, el análisis cualitativo de las respuestas del niño y su rendimiento en
el resto de la prueba, junto con otros datos, tales como su historia de vida o su contexto, serán decisivos para q el profesional llegue al
diagnóstico pertinente.

Você também pode gostar