Você está na página 1de 50

Confiabilidad

Dependabilidad o consistencia
Coeficiente de confiabilidad
Un ndice de confiabilidad, una proporcin que indica

qu proporcion de la varianza total de las


puntuaciones se debe a la varianza del error.
Proporcion de varianza que es verdadera varianza

Confiabilidad
Se refiere a la consistencia de las puntuaciones

obtenidas por las mismas personas cuando se les


examina en distintas ocasiones con el mismo test, con
conjuntos equivalentes de reactivos, o en otras
condiciones de examinacin.

Confiabilidad
En un sentido mas amplio la confiabilidad indica la

medida en que las diferencias individuales en los


resultados pueden atribuirse a verdaderas diferencias
en las caratersticas evaluadas, y el grado en que
pueden deberse a errores fortuitos.

Confiabilidad
En lo concreto el ndice de confiabilidad de una prueba

es una medida de correlacin de la prueba consigo


misma.
La forma de obtener este ndice puede variar

dependiendo de las caracteristicas de la prueba o de las


condiciones que se desean controlar
Se lo representa como una r11 o rtt

Las puntuaciones que se obtienen de la aplicacin de un


test siempre contienen un cierto error que se conoce
como ERROR DE MEDIDA:

Es la diferencia entre la puntuacin obtenida por el


sujeto en el test y la puntuacin verdadera del mismo
en la caracterstica objeto del test.

Error de Medicin
El error de medicin se refleja en el hecho de que:
Un test pasado a un sujeto en dos ocasiones
diferentes no da lugar a la misma puntuacin;

Dos sujetos con el mismo nivel en la caracterstica


obtengan puntuaciones diferentes en el test;

Dos sujetos con niveles diferentes en la caracterstica


alcancen puntuaciones idnticas en el test.

Segn la TEORA CLSICA DE LOS TESTS la


puntuacin emprica que obtiene un sujeto cuando se
le administra un test X es funcin del:
Nivel real o verdadero en que ese sujeto posee la
caracterstica o rasgo que est evaluando dicho test
(puntuacin verdadera) y
Del error de medida que siempre se introduce en
cualquier proceso de medicin.

Error de Medicin
X = V + E
2o = 2r + 2e

Varianza
momento 1

V
+
ES

Varianza
momento 2

El problema es que NUNCA conocemos la puntuacin


verdadera V. En la ecuacin:
X: V + E
tenemos tres trminos y solo podemos conocer uno de
ellos: la puntuacin emprica X. Cmo solucionar
esto?

Lo que plantea la TCT es que la mejor estimacin


que se puede hacer de LA PUNTUACIN
VERDADERA -V- es la media de las puntuaciones
empricas que se obtendran si se le aplicara dicha
prueba al sujeto en las mismas condiciones un
nmero infinito de veces.

VA es el estimador de la puntuacin verdadera V del sujeto A;

VA = X A =

X
i =1

Ai

X A es la media de los valores obtenidos en la variable X A en las N


veces que sta se ha medido;
X Ai es la puntuacin emprica X obtenida por el sujeto A en la
ocasin i;
N es el nmero de ocasiones que se ha medido al sujeto en el test

El ERROR DE MEDICIN puede estimarse, segn la


Teora clsica de los tets, calculando la variabilidad de
las puntuaciones empricas obtenidas por un sujeto ese
nmero infinito de ocasiones en las que se le ha aplicado
la prueba, es decir, calculando su varianza o su
desviacin tpica conocida como ERROR TPICO DE
MEDICIN:
N

2 e =

( X

Ai

XA

i=1

2 e

e =

(X
i =1

Ai

XA

corresponden respectivamente a los estimadores


de la varianza y la desviacin tpica de los errores de medida.
e

Una medida colectiva del error de medida es el


ERROR ESTANDAR DE MEDICIN, que se obtiene
por cualquiera de estas dos ecuaciones aplicadas
sobre toda la muestra de N sujetos a la que se ha
administrado el test:

e =

i=1

x es la desviacin tpica de las puntuaciones

empricas en el test.

= x 1 rxx
rxx es el coeficiente de confiabilidad del test, es decir,
el cociente entre la varianza de las puntuaciones verdaderas
y la varianza de las puntuaciones empricas.

EEM
Media +/- 1 meas = 68% confianza de que el puntaje

real se encuentra en el rango

Media +/- 2 meas = 95.44% confianza de que el puntaje

real se encuentra en el rango

EEM = 9, Puntaje observado = 100


Intervalo de confianza (68 %) = 91 109.

Estimaciones de la Confiabilidad
Confiabilidad Test-Retest
Confiabilidad por Formas Paralelas
Confiabilidad por mitades
Frmula Spearman-Brown

Estimacin de la Consistencia Interna


Frmulas Kuder-Richardson
Alfa de Cronbach

Medicion de la Confiabilidad entre evaluadores


El estadstico Kappa

Confiabilidad
Fuentes de la varianza de error
Construccion del test

Eleccin de los item / contenidos


Maximizacin de la varianza verdadera

Administracin del test

Medio ambiente (ej. temp)


Administrador del test (ej. acelerado)
Temas a nivel individual (ej. nimo, enfermedades)
Instrucciones (ej. estandarizacion)

Confiabilidad
Puntuacin del test e interpretacin
La forma de observar del evaluador y la interpretacion

de su conducta
Ej. Contacto visual y el tono de voz pueden hacer
ver que se esta agradado
Otras fuentes de error
Error no sistemtico

Ej.
Olvidar, equivocarse, no entender las
instrucciones
Error no sistemtico
Ej. No reportar todas las conductas

Confiabilidad Test Re test


E n q u e m e d i d a s e r e l a c i o n a n d i f e r e n t e s

administraciones del mismo test?


Correlacin
En que medida las respuestas cambian a medida que

pasa el tiempo?
Coeficiente de estabilidad

Mas de 6 meses

Ejemplos de factores que pueden afectar la


confiabilidad
Trauma
Ejercitacin / experiencias/ otras fuentes de
informacin
B u s c a r i n f o r m a c i n c o n o t r o s
administradores
Entrenamiento
Motivacin

Estimacin de la confiabilidad por formas


paralelas y por formas alternativas
Coeficiente de equivalencia
Coeficiente de confiabilidad

Formas paralelas
Las medias y varianzas de los puntajes observados se

esperan iguales.
Las medias de las formas paralelas debieran
correlacionar de la misma forma con el puntaje real
Los puntajes obtenidos debieran correlacionar bien
y de la misma con otras medidas

Estimacin de la confiabilidad por formas


paralelas y por formas alternativas
Formas alternativas
Diferentes formas del test, similares en contenido
y dificultad

Estimacin de la confiabilidad por formas


paralelas y por formas alternativas
Para obtener la estimacion:
Dos administraciones del test con el mismo grupo de

personas
Los puntajes de los test estaran afectados por las

mismas fuentes de error


Ademas, la eleccin de los items
Consistencia Interna

Consistencia Interna
Confiabilidad por mitades
KR-20
Coeficiente Alfa

Confiabilidad por mitades


Es la correlacin entre dos puntuaciones obtenidas de

mitades equivalentes de un mismo test, administrado en


una sola oportunidad.

Util cuando es poco prctico llevar a cabo dos

administraciones, o no se cuenta con dos versiones


del test.

Confiabilidad por mitades


Cmo dividir?
Primera mitad / segunda mitad

Fatiga!

Confiabilidad pares / impares


Dividir por contenido / dificultad

Las inferencias pueden cambiar sustancialmente.

Pasos:
Dividir el test en dos mitades equivalentes
Calcular una r de Pearson entre las mitades
Ajustar la confiabilidad de la mitad del test usando
la frmula de Spearman Brown

Frmula Spearman-Brown
Permite la estimacin de una confiabilidad basndose en

la longitud deseada de un test.

rxx =
nrxy
____________
1+ (n 1) rxy
rxy = estimacion original
n = longitud final de la prueba (cuantas veces mas)

Frmula Spearman-Brown
Ejemplo:
Si la confiabilidad de una prueba compuesta por 20 items

es de 0.70, y se quiere estimar cual seria la confiabilidad


si se suman 40 reactivos mas (un total de 60 items, es
decir, tres veces mas larga):
rxx =

3 (0.7)
____________
1+ (3 1) 0,7

= 0.88

Consistencia Inter-Items
Se refiere al grado de correlacion entre todos los items

de una escala.
Se calcula a partir de una nica administracin
Es una estimacion de la homogeneidad o

Heterogeneidad

Se puede dividir en factores, evaluar despues esos


sub factores, etc.

Homogeneidad/Heterogeneidad

Formula Kuder-Richardson (KR-20)


Si los items de un test son homogneos, la estimacion

por mitades y KR-20 sern similares


Cuando son heterogneas, las estimacin KR-20
producir resultados menores.
KR 20 se utiliza cuando los tems son dicotmicos (ej.

Si/No)

rkr20 = (k/k-1) [1 (pq/2)]

Los pasos a seguir para determinar la


confiabilidad KR-20 son:
1.Encontrar los valores p para cada reactivo,
multiplicarlos por 1-p y sumar los resultados
obtenidos
2.Computar la varianza de las puntuaciones de la
prueba total y dividirla por la suma de los valores
pq
3.Restar de 1 este resultado y multiplicarlo por la
porporcion entre el numero de reactivos de la
prueba y el nmero de reactivos de la prueba
menos 1

Alfa de Cronbach
Cronbach (1951)
Es equivalente al KR-20 pero tambien para items no

dicotmicos
Es la media de todas las posibles divisiones por

mitades

Ra = (k/k-1) [1 ( 2 i/2)]
k: nmero de items
2 : sumatoria de la varianza de los items
2 : varianza de la suma de los items

Alfa de Cronbach
Para variables continuas y discontinuas
Tipicamente va de 0 a 1
Indicador de similaridad

Afectado por el numero de items


>0.90 puede indicar redundancia

Confiabilidad entre jueces


Confiabilidad entre evaluadores, jueces, y/o

observadores, etc
Por que diferentes evaluadores podran

evaluar distinto?
Ej. evaluaciones laborales, prueba de
conduccin
El coeficiente de correlacin es la confiabilidad

entre los evaluadores.

Evaluadores
Evaluador 1
Tomas
Sara
Marco
Luis
Ana
Benjamin

2
3
1
1
3
4

Evaluador 2
Tomas
Sara
Marco
Luis
Ana
Benjamin

4
5
3
3
5
6

Cual sera la correlacin entre estos dos evaluadores?


A quien preferira como evaluador?

Utilizacin e Interpretacin el Coeficiente de


Correlacin
El propsito del coeficiente de correlacin
La naturaleza del test
Homogeneidad versus heterogeneidad de los items

del test
Caractersticas estticas versus dinmicas
Restriccion o inflacin del rango de variabilidad de
puntajes
Test de velocidad versus de potencia
Test basados en criterios
Teoras alternativas a la TCT

El propsito del Coeficiente de Correlacin


Qu tipo de clculo de la confiabilidad debe

utilizarse?

El fin de la medicin

Que tan alta debe ser una correlacion?


Implicaciones

Comprender las fuentes de error, limitaciones, y

otras consideraciones de la medicin .

La Naturaleza del Test


Homogeneidad versus heterogeneidad de los items del

test
El mismo constructo o subfactores

Caractersticas dinmicas versus estticas


Rasgo versus estado

Restriccin o inflacin del rango de puntajes


Ej. Nivel de ejecucin de un trabajo con sujetos ya

contratados

La Naturaleza del Test


Test de velocidad versus potencia
Potencia: items difciles; Velocidad: temes fciles,

pero con tiempo limitado

Test referidos a criterios


El desempeo se evala en relacin a un criterio

Alternativas al modelo clsico de la medicion


(Modelo del puntaje real)
Modelo del puntaje real
Busca estimar la proporcin del puntaje de un test que

es atribuible al error.

Teora del muestreo del dominio


Busca estimar la medida en que fuentes de variacion

especficas, bajo condiciones definidas contribuyen al


puntajes de un test.

Teora del muestreo del dominio


Respresenta una forma un tanto diferente de pensar en

las poblaciones y las muestras.


Dominio Poblacion o universo de todos los items

posibles que miden un concepto o rasgo particular


(tericamente infinito)
Test Una muestra de itemes de ese universo

Teoria del muestreo del dominio


El puntaje verdadero de una persona se obtendra si

contestase todos los items del universo de items.


Solo podemos ver las respuestas a una muestra de los

itemer en el test.
De esta forma, la confiabilidad es la proporcion de la

varianza en el universo explicada por la varianza del test.

Teora del muestreo del dominio


Un universo esta hecho de un gran numero de items

(posiblemente infinito)
As, mientras mas largo es un test, representa de mejor

manera el dominio; por lo tanto los test mas largos


debieran tener mejor confiabilidad.
Tambin, si tomamos multiples muestras aleatorias de la

poblacion obtendremos una distribucion de una muestra


de puntajes que representan la poblacion.

Muestra 1
Debieran
tener las
mismas
Medias,
DS?

Universo
de items
Puntaje
del U=
Puntaje
Verdadero

Muestra 2

Teora de Respuesta al Item


TRI/Teora del rasgo latente
Se enfoca en el grado en que un item particular de un

test es til para evaluar individuos de los que se presume


poseen distintos niveles de un rasgo o habilidad
particular.

Teora de la Generabilizacion
Enfatiza que la confiabilidad no es una funcin del test en

si mismo sino que es funcion de las circunstancias bajo


las que el test es desarrollado, administrado e
interpretado.
El puntaje del universo reemplaza al puntaje real
Detalles de una situacion de test especfica
Ej. Numero de items, grado de entrenamiento,

propsitos del test y de la administracion, etc

Teoria de la Generabilizacion
Mismas condiciones : mismos puntajes
Puntaje del Universo
27
Febrero
21
Febrero

23
Febrero

29
Febrero

4
Junio

En que medida los puntajes son diferentes entre los dias?


Disimilaridad = error = menos generabilizacion de este aspecto

Teoria de la Generabilizacion
Estudios de generabilizacion
Examinan que tan generalizables son los puntajes de

un test particular basndose en la aplicacion en


diferentes situaciones
Que tanto impacto tienen diferentes circunstancias
del universo de circunstancias en los puntajes del
test?
El coeficiente de Generabilidad refleja el influjo de las
diferentes circunstancias en el puntaje del test.

Alcotest
New Jersey
BAL de .10%

Rango de .09-.11%

Momento de la administracion
Immediatamente o en el cuartel?

Multas de velocidad por radar?

Você também pode gostar