Confiabilidad

Confiabilidad
Dependabilidad o consistencia
Coeficiente de confiabilidad
Un ndice de confiabilidad, una proporcin que indica
qu proporcion de la varianza total de las

puntuaciones se debe a la varianza del error.
Proporcion de varianza que es verdadera varianza
Confiabilidad
Se refiere a la consistencia de las puntuaciones
obtenidas por las mismas personas cuando se les

examina en distintas ocasiones con el mismo test, con
conjuntos equivalentes de reactivos, o en otras
condiciones de examinacin.
Confiabilidad
En un sentido mas amplio la confiabilidad indica la
medida en que las diferencias individuales en los

resultados pueden atribuirse a verdaderas diferencias
en las caratersticas evaluadas, y el grado en que
pueden deberse a errores fortuitos.
Confiabilidad
En lo concreto el ndice de confiabilidad de una prueba
es una medida de correlacin de la prueba consigo

misma.
La forma de obtener este ndice puede variar
dependiendo de las caracteristicas de la prueba o de las

condiciones que se desean controlar
Se lo representa como una r11 o rtt
Las puntuaciones que se obtienen de la aplicacin de un

test siempre contienen un cierto error que se conoce
como ERROR DE MEDIDA:
Es la diferencia entre la puntuacin obtenida por el

sujeto en el test y la puntuacin verdadera del mismo
en la caracterstica objeto del test.
Error de Medicin
El error de medicin se refleja en el hecho de que:
Un test pasado a un sujeto en dos ocasiones
diferentes no da lugar a la misma puntuacin;
Dos sujetos con el mismo nivel en la caracterstica

obtengan puntuaciones diferentes en el test;
Dos sujetos con niveles diferentes en la caracterstica

alcancen puntuaciones idnticas en el test.
Segn la TEORA CLSICA DE LOS TESTS la

puntuacin emprica que obtiene un sujeto cuando se
le administra un test X es funcin del:
Nivel real o verdadero en que ese sujeto posee la
caracterstica o rasgo que est evaluando dicho test
(puntuacin verdadera) y
Del error de medida que siempre se introduce en
cualquier proceso de medicin.
Error de Medicin
X = V + E
2o = 2r + 2e
Varianza
momento 1
V
+
ES
Varianza
momento 2
El problema es que NUNCA conocemos la puntuacin

verdadera V. En la ecuacin:
X: V + E
tenemos tres trminos y solo podemos conocer uno de
ellos: la puntuacin emprica X. Cmo solucionar
esto?
Lo que plantea la TCT es que la mejor estimacin

que se puede hacer de LA PUNTUACIN
VERDADERA -V- es la media de las puntuaciones
empricas que se obtendran si se le aplicara dicha
prueba al sujeto en las mismas condiciones un
nmero infinito de veces.
VA es el estimador de la puntuacin verdadera V del sujeto A;
VA = X A =
X
i =1
Ai
X A es la media de los valores obtenidos en la variable X A en las N

veces que sta se ha medido;
X Ai es la puntuacin emprica X obtenida por el sujeto A en la
ocasin i;
N es el nmero de ocasiones que se ha medido al sujeto en el test
El ERROR DE MEDICIN puede estimarse, segn la

Teora clsica de los tets, calculando la variabilidad de
las puntuaciones empricas obtenidas por un sujeto ese
nmero infinito de ocasiones en las que se le ha aplicado
la prueba, es decir, calculando su varianza o su
desviacin tpica conocida como ERROR TPICO DE
MEDICIN:
N
2 e =
( X
Ai
XA
i=1
2 e
e =
(X
i =1
Ai
XA
corresponden respectivamente a los estimadores

de la varianza y la desviacin tpica de los errores de medida.
e
Una medida colectiva del error de medida es el

ERROR ESTANDAR DE MEDICIN, que se obtiene
por cualquiera de estas dos ecuaciones aplicadas
sobre toda la muestra de N sujetos a la que se ha
administrado el test:
e =
i=1
x es la desviacin tpica de las puntuaciones
empricas en el test.
= x 1 rxx
rxx es el coeficiente de confiabilidad del test, es decir,
el cociente entre la varianza de las puntuaciones verdaderas
y la varianza de las puntuaciones empricas.
EEM
Media +/- 1 meas = 68% confianza de que el puntaje
real se encuentra en el rango
Media +/- 2 meas = 95.44% confianza de que el puntaje
real se encuentra en el rango
EEM = 9, Puntaje observado = 100

Intervalo de confianza (68 %) = 91 109.
Estimaciones de la Confiabilidad
Confiabilidad Test-Retest
Confiabilidad por Formas Paralelas
Confiabilidad por mitades
Frmula Spearman-Brown
Estimacin de la Consistencia Interna

Frmulas Kuder-Richardson
Alfa de Cronbach
Medicion de la Confiabilidad entre evaluadores

El estadstico Kappa
Confiabilidad
Fuentes de la varianza de error
Construccion del test
Eleccin de los item / contenidos

Maximizacin de la varianza verdadera
Administracin del test
Medio ambiente (ej. temp)

Administrador del test (ej. acelerado)
Temas a nivel individual (ej. nimo, enfermedades)
Instrucciones (ej. estandarizacion)
Confiabilidad
Puntuacin del test e interpretacin
La forma de observar del evaluador y la interpretacion
de su conducta
Ej. Contacto visual y el tono de voz pueden hacer
ver que se esta agradado
Otras fuentes de error
Error no sistemtico
Ej.
Olvidar, equivocarse, no entender las
instrucciones
Error no sistemtico
Ej. No reportar todas las conductas
Confiabilidad Test Re test

E n q u e m e d i d a s e r e l a c i o n a n d i f e r e n t e s
administraciones del mismo test?

Correlacin
En que medida las respuestas cambian a medida que
pasa el tiempo?
Coeficiente de estabilidad
Mas de 6 meses
Ejemplos de factores que pueden afectar la

confiabilidad
Trauma
Ejercitacin / experiencias/ otras fuentes de
informacin
B u s c a r i n f o r m a c i n c o n o t r o s
administradores
Entrenamiento
Motivacin
Estimacin de la confiabilidad por formas

paralelas y por formas alternativas
Coeficiente de equivalencia
Coeficiente de confiabilidad
Formas paralelas
Las medias y varianzas de los puntajes observados se
esperan iguales.
Las medias de las formas paralelas debieran
correlacionar de la misma forma con el puntaje real
Los puntajes obtenidos debieran correlacionar bien
y de la misma con otras medidas

Formas alternativas
Diferentes formas del test, similares en contenido
y dificultad

Para obtener la estimacion:
Dos administraciones del test con el mismo grupo de
personas
Los puntajes de los test estaran afectados por las
mismas fuentes de error

Ademas, la eleccin de los items
Consistencia Interna
Consistencia Interna
KR-20
Coeficiente Alfa

Es la correlacin entre dos puntuaciones obtenidas de
mitades equivalentes de un mismo test, administrado en

una sola oportunidad.
Util cuando es poco prctico llevar a cabo dos
administraciones, o no se cuenta con dos versiones

del test.

Cmo dividir?
Primera mitad / segunda mitad
Fatiga!
Confiabilidad pares / impares

Dividir por contenido / dificultad
Las inferencias pueden cambiar sustancialmente.
Pasos:
Dividir el test en dos mitades equivalentes
Calcular una r de Pearson entre las mitades
Ajustar la confiabilidad de la mitad del test usando
la frmula de Spearman Brown
Permite la estimacin de una confiabilidad basndose en
la longitud deseada de un test.
rxx =
nrxy
____________
1+ (n 1) rxy
rxy = estimacion original
n = longitud final de la prueba (cuantas veces mas)
Ejemplo:
Si la confiabilidad de una prueba compuesta por 20 items
es de 0.70, y se quiere estimar cual seria la confiabilidad

si se suman 40 reactivos mas (un total de 60 items, es
decir, tres veces mas larga):
rxx =
3 (0.7)
____________
1+ (3 1) 0,7
= 0.88
Consistencia Inter-Items
Se refiere al grado de correlacion entre todos los items
de una escala.
Se calcula a partir de una nica administracin
Es una estimacion de la homogeneidad o
Heterogeneidad
Se puede dividir en factores, evaluar despues esos

sub factores, etc.
Homogeneidad/Heterogeneidad
Formula Kuder-Richardson (KR-20)

Si los items de un test son homogneos, la estimacion
por mitades y KR-20 sern similares

Cuando son heterogneas, las estimacin KR-20
producir resultados menores.
KR 20 se utiliza cuando los tems son dicotmicos (ej.
Si/No)
rkr20 = (k/k-1) [1 (pq/2)]
Los pasos a seguir para determinar la

confiabilidad KR-20 son:
1.Encontrar los valores p para cada reactivo,
multiplicarlos por 1-p y sumar los resultados
obtenidos
2.Computar la varianza de las puntuaciones de la
prueba total y dividirla por la suma de los valores
pq
3.Restar de 1 este resultado y multiplicarlo por la
porporcion entre el numero de reactivos de la
prueba y el nmero de reactivos de la prueba
menos 1
Alfa de Cronbach
Cronbach (1951)
Es equivalente al KR-20 pero tambien para items no
dicotmicos
Es la media de todas las posibles divisiones por
mitades
Ra = (k/k-1) [1 ( 2 i/2)]
k: nmero de items
2 : sumatoria de la varianza de los items
2 : varianza de la suma de los items
Alfa de Cronbach
Para variables continuas y discontinuas
Tipicamente va de 0 a 1
Indicador de similaridad
Afectado por el numero de items

>0.90 puede indicar redundancia
Confiabilidad entre jueces

Confiabilidad entre evaluadores, jueces, y/o
observadores, etc
Por que diferentes evaluadores podran
evaluar distinto?
Ej. evaluaciones laborales, prueba de
conduccin
El coeficiente de correlacin es la confiabilidad
entre los evaluadores.
Evaluadores
Evaluador 1
Tomas
Sara
Marco
Luis
Ana
Benjamin
2
3
1
1
3
4
Evaluador 2
Tomas
Sara
Marco
Luis
Ana
Benjamin
4
5
3
3
5
6
Cual sera la correlacin entre estos dos evaluadores?

A quien preferira como evaluador?
Utilizacin e Interpretacin el Coeficiente de

Correlacin
El propsito del coeficiente de correlacin
La naturaleza del test
Homogeneidad versus heterogeneidad de los items
del test
Caractersticas estticas versus dinmicas
Restriccion o inflacin del rango de variabilidad de
puntajes
Test de velocidad versus de potencia
Test basados en criterios
Teoras alternativas a la TCT
El propsito del Coeficiente de Correlacin

Qu tipo de clculo de la confiabilidad debe
utilizarse?
El fin de la medicin
Que tan alta debe ser una correlacion?

Implicaciones
Comprender las fuentes de error, limitaciones, y
otras consideraciones de la medicin .
La Naturaleza del Test

Homogeneidad versus heterogeneidad de los items del
test
El mismo constructo o subfactores
Caractersticas dinmicas versus estticas

Rasgo versus estado
Restriccin o inflacin del rango de puntajes

Ej. Nivel de ejecucin de un trabajo con sujetos ya
contratados
La Naturaleza del Test

Test de velocidad versus potencia
Potencia: items difciles; Velocidad: temes fciles,
pero con tiempo limitado
Test referidos a criterios

El desempeo se evala en relacin a un criterio
Alternativas al modelo clsico de la medicion

(Modelo del puntaje real)
Modelo del puntaje real
Busca estimar la proporcin del puntaje de un test que
es atribuible al error.
Teora del muestreo del dominio

Busca estimar la medida en que fuentes de variacion
especficas, bajo condiciones definidas contribuyen al

puntajes de un test.

Respresenta una forma un tanto diferente de pensar en
las poblaciones y las muestras.

Dominio Poblacion o universo de todos los items
posibles que miden un concepto o rasgo particular

(tericamente infinito)
Test Una muestra de itemes de ese universo
Teoria del muestreo del dominio

El puntaje verdadero de una persona se obtendra si
contestase todos los items del universo de items.

Solo podemos ver las respuestas a una muestra de los
itemer en el test.
De esta forma, la confiabilidad es la proporcion de la
varianza en el universo explicada por la varianza del test.

Un universo esta hecho de un gran numero de items
(posiblemente infinito)
As, mientras mas largo es un test, representa de mejor
manera el dominio; por lo tanto los test mas largos

debieran tener mejor confiabilidad.
Tambin, si tomamos multiples muestras aleatorias de la
poblacion obtendremos una distribucion de una muestra

de puntajes que representan la poblacion.
Muestra 1
Debieran
tener las
mismas
Medias,
DS?
Universo
de items
Puntaje
del U=
Puntaje
Verdadero
Muestra 2
Teora de Respuesta al Item

TRI/Teora del rasgo latente
Se enfoca en el grado en que un item particular de un
test es til para evaluar individuos de los que se presume

poseen distintos niveles de un rasgo o habilidad
particular.
Teora de la Generabilizacion
Enfatiza que la confiabilidad no es una funcin del test en
si mismo sino que es funcion de las circunstancias bajo

las que el test es desarrollado, administrado e
interpretado.
El puntaje del universo reemplaza al puntaje real
Detalles de una situacion de test especfica
Ej. Numero de items, grado de entrenamiento,
propsitos del test y de la administracion, etc
Teoria de la Generabilizacion
Mismas condiciones : mismos puntajes
Puntaje del Universo
27
Febrero
21
Febrero
23
Febrero
29
Febrero
4
Junio
En que medida los puntajes son diferentes entre los dias?

Disimilaridad = error = menos generabilizacion de este aspecto
Teoria de la Generabilizacion
Estudios de generabilizacion
Examinan que tan generalizables son los puntajes de
un test particular basndose en la aplicacion en

diferentes situaciones
Que tanto impacto tienen diferentes circunstancias
del universo de circunstancias en los puntajes del
test?
El coeficiente de Generabilidad refleja el influjo de las
diferentes circunstancias en el puntaje del test.
Alcotest
New Jersey
BAL de .10%
Rango de .09-.11%
Momento de la administracion
Immediatamente o en el cuartel?
Multas de velocidad por radar?

Confiabilidad

Enviado por

Dados do documento

Descrição original:

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Confiabilidad

Enviado por

Direitos autorais:

Formatos disponíveis

Confiabilidad

qu proporcion de la varianza total de las

obtenidas por las mismas personas cuando se les

medida en que las diferencias individuales en los

es una medida de correlacin de la prueba consigo

dependiendo de las caracteristicas de la prueba o de las

Las puntuaciones que se obtienen de la aplicacin de un

Es la diferencia entre la puntuacin obtenida por el

Dos sujetos con el mismo nivel en la caracterstica

Dos sujetos con niveles diferentes en la caracterstica

Segn la TEORA CLSICA DE LOS TESTS la

El problema es que NUNCA conocemos la puntuacin

Lo que plantea la TCT es que la mejor estimacin

VA es el estimador de la puntuacin verdadera V del sujeto A;

X A es la media de los valores obtenidos en la variable X A en las N

El ERROR DE MEDICIN puede estimarse, segn la

corresponden respectivamente a los estimadores

Una medida colectiva del error de medida es el

x es la desviacin tpica de las puntuaciones

real se encuentra en el rango

Media +/- 2 meas = 95.44% confianza de que el puntaje

real se encuentra en el rango

EEM = 9, Puntaje observado = 100

Estimacin de la Consistencia Interna

Medicion de la Confiabilidad entre evaluadores

Eleccin de los item / contenidos

Administracin del test

Medio ambiente (ej. temp)

Confiabilidad Test Re test

administraciones del mismo test?

Ejemplos de factores que pueden afectar la

Estimacin de la confiabilidad por formas

Estimacin de la confiabilidad por formas

Estimacin de la confiabilidad por formas

mismas fuentes de error

Confiabilidad por mitades

mitades equivalentes de un mismo test, administrado en

Util cuando es poco prctico llevar a cabo dos

administraciones, o no se cuenta con dos versiones

Confiabilidad por mitades

Confiabilidad pares / impares

Las inferencias pueden cambiar sustancialmente.

la longitud deseada de un test.

es de 0.70, y se quiere estimar cual seria la confiabilidad

Se puede dividir en factores, evaluar despues esos

Formula Kuder-Richardson (KR-20)

por mitades y KR-20 sern similares

rkr20 = (k/k-1) [1 (pq/2)]

Los pasos a seguir para determinar la

Afectado por el numero de items

Confiabilidad entre jueces

entre los evaluadores.

Cual sera la correlacin entre estos dos evaluadores?

Utilizacin e Interpretacin el Coeficiente de

El propsito del Coeficiente de Correlacin

Que tan alta debe ser una correlacion?

Comprender las fuentes de error, limitaciones, y

otras consideraciones de la medicin .

La Naturaleza del Test

Caractersticas dinmicas versus estticas

Restriccin o inflacin del rango de puntajes

La Naturaleza del Test

pero con tiempo limitado