Você está na página 1de 14

CONSEPTO DE CONFIABILIDAD La creación de un instrumento de medición, es importante

tomar en cuenta 2 componentes importantes que son la


validez y la confiabilidad; Por ende, la obtención de
confiabilidad es un requisito, más aun si se quiere
considerar válido dicho instrumento. Es por ello que todo
instrumento válido es confiable, no obstante el obtener la
confiabilidad no hace válido un instrumento. Para ejemplar
mejor lo anterior, es útil la siguiente analogía con un blanco
de tiro,
Estimación de la confiabilidad. El coeficiente de confiabilidad es una medida para estimar
la confiabilidad teórica de las puntuaciones obtenidas. Se
entiende como la correlación entre X y X’ obtenidas por el
participante cuando se le proporcionan dos veces la misma
medida. Éste modelo para calcular la confiabilidad de un
instrumento trata de determinar cómo los errores
aleatorios (en la medida) afectan las puntuaciones
obtenidas por el sujeto. Para calcular el coeficiente de
confiabilidad usualmente se utilizan las siguientes
estrategias
ESTIMACION DE LA CONFIABILIDAD Confiabilidad y formas de estimación de la confiabilidad.
*Métodos para determinar la confiabilidad.
- Confiabilidad del Test- Retest
- Coeficientes de correlación
- Kuder -Richardson
- Coeficiente alfa
*Confiabilidad entre calificadores (observadores o jueces)
Confiabilidad
Grado en que un instrumento produce resultados
consistentes y coherentes. Es decir en que su aplicación
repetida al mismo sujeto u objeto produce resultados
iguales. Kerlinger (2002).
Principales fuentes de inestabilidad
(o falta de confiabilidad)
calificación de la prueba
Contenido de la prueba
Muestreo de reactivos o muestras de contenido. El grado en
que la puntuación es afectada sólo por el contenido de la
prueba así como
por la forma en que es manejado dicho contenido
Confiabilidad
En la creación de un instrumento de medición, es importante tomar en cuenta 2
componentes importantes que son la validez y la confiabilidad; Por ende, la obtención de
confiabilidad es un requisito, más aun si se quiere considerar válido dicho instrumento. Es
por ello que todo instrumento válido es confiable, no obstante el obtener la confiabilidad
no hace válido un instrumento. Para ejemplicar mejor lo anterior, es útil la siguiente
analogía con un blanco de tiro.
Estimación empírica del coeficiente de fiabilidad
El coeficiente de confiabilidad es una medida para estimar la confiabilidad teórica de las
puntuaciones obtenidas. Se entiende como la correlación entre X y X’ obtenidas por el
participante cuando se le proporcionan dos veces la misma medida. Éste modelo para
calcular la confiabilidad de un instrumento trata de determinar cómo los errores aleatorios
(en la medida) afectan las puntuaciones obtenidas por el sujeto.
Formas paralelas
Este procedimiento es el que se deriva naturalmente del modelo. Requiere que se utilicen
dos pruebas o instrumentos paralelos, esto es, que midan lo mismo de forma diferente (por
ejemplo, dos Tests que con diferentes preguntas midan un determinado rasgo). Después se
comparan los dos Tests, calculando el coeficiente de correlación de Pearson. Esta
correlación será, como hemos visto en el apartado anterior, el coeficiente de fiabilidad. Si
la correlación es alta, se considera que hay una buena fiabilidad. Al valor obtenido también
se le conoce como coeficiente de equivalencia, en la medida en que supone un indicador
del grado de equivalencia entre las dos formas paralelas de un test.
La dificultad de este procedimiento radica en conseguir que dos instrumentos sean
realmente "paralelos", dada la dificultad que supone realizar dos pruebas que midan
exactamente lo mismo, pero con diferentes ítems. No obstante, en condiciones ideales en
las que se pueda garantizar el paralelismo de ambas formas, este es el método más
recomendable.
Prueba-reprueba
Con este método el coeficiente de fiabilidad se calcula pasando mismo test dos veces a los
mismos sujetos. Se pueden pasar inmediatamente, o dejando un intervalo de tiempo entre
el test y el retest. Después se calcula la correlación de Pearson entre las puntuaciones de
ambas aplicaciones, y el resultado obtenido será el coeficiente de fiabilidad. Se considera
un caso específico de formas paralelas, dado que evidentemente un test es paralelo a sí
mismo. Al resultado obtenido se le denomina coeficiente de estabilidad, al servir de
indicador de hasta qué punto son estables las mediciones realizadas durante la primera
aplicación del test. Las diferencias en los resultados se atribuyen al grado de consistencia
interna o muestreo de los ítems de la prueba en el caso de pasar el retest de forma
inmediata, y se le suman las fluctuaciones en el tiempo en el caso del intervalo temporal.
Dejar transcurrir un espacio de tiempo excesivo entre ambas aplicaciones puede suponer
una amenaza a la validez interna por las posibles influencias externas a la que pueden estar
expuestos los sujetos durante el intervalo, y que pueden afectar a su desempeño en la
segunda aplicación. En el extremo opuesto, una aplicación demasiado apresurada del retest
podría afectar igualmente a la validez interna, en este caso por los posibles efectos del
recuerdo reciente de la primera aplicación. La elección del intervalo de tiempo adecuado
entre ambas aplicaciones dependerá en gran medida del tipo de test, ya que en función de
su formato puede ser más sensible al efecto de una u otra amenaza.
Dos mitades
A diferencia de los anteriores, este método sólo requiere una aplicación del test. Tras
obtener las puntuaciones obtenidas por los sujetos en cada una de las dos mitades en que
se habrá dividido, se procede a calcular la correlación entre las dos puntuaciones. El
resultado obtenido será un indicador de la covariación entre ambas mitades, es decir, de la
consistencia interna del test. La principal dificultad de este sistema es asegurarse de que
ambas mitades sean efectivamente paralelas. Un sistema habitual es dividir el test entre los
ítems pares y los impares; no es recomendable dividirlo sin más por la mitad, dado que
muchos Tests muestran un incremento gradual de la dificultad de sus ítems.
Métodos basados en la consistencia interna
Alfa de Cronbach (1951): El coeficiente alfa (α) es un indicador de la fiabilidad de un test
basado en su grado de consistencia interna. Indica el grado en que los ítems de un test
cavarían.
Coeficientes de Kuder-Richardson (1937): Se trata de dos fórmulas aplicables a sendos casos
particulares de alfa. KR20 se aplica en el caso en que los ítems del test sean dicotómicos, y
KR21, en el caso de que además de ser dicotómicos, tengan la misma dificultad.
Método de Rulon (1939): Una estimación de la fiabilidad de un test a partir de las
puntuaciones obtenidas en sus dos mitades. Considera que la diferencia entre las dos
mitades se debe sólo al error aleatorio.
Método de Guttmann/Flanagan (1945/1937): Otra fórmula basada en la consistencia
interna, equivalente a la de Rulon.
Coeficiente beta (β): Propuesto por Raju (1977) para calcular la fiabilidad de una batería
compuesta por diversos subtests. En los casos en los que se desea calcular la fiabilidad de
una batería, se trata a los distintos subtests como si fueran los ítems de un único test y se
calcula el coeficiente alfa global. El problema surge en los casos en los que los distintos
subtests no tienen el mismo número de ítems, lo que suele ser lo más frecuente, y que
repercute en una infraestimación del alfa global. El coeficiente beta permite sortear esta
infraestimación.
Coeficientes theta (θ) y omega (Ω): Basados en el análisis factorial de los ítems, son
indicadores de la consistencia interna similares al coeficiente alfa. El coeficiente theta fue
desarrollado por Carmines y Zeller (1979); y el coeficiente omega fue desarrollado por Heise
y Bohrnstedt (1970) y otros factores Relaciones entre confiabilidad
Dos factores que afectan al grado de confiabilidad de un test: la variabilidad y la longitud.
Fiabilidad y variabilidad: El tipo de muestra de sujetos que se haya escogido para calcular la
fiabilidad de un test puede influir en el resultado obtenido. Esto significa que la fiabilidad
ya no depende únicamente de las características del test, sino también de la muestra de
sujetos a los que se aplique, por lo que no se puede decir que un mismo test tenga un
coeficiente de confiabilidad fijo. En suma, puede afirmarse que la fiabilidad de un test será
mayor cuanta mayor variabilidad exista en la muestra de sujetos seleccionada.
Confiabilidad y longitud: En términos generales, puede decirse que la fiabilidad de un test
aumenta a medida que aumenta su longitud, es decir, su número de ítems. Ello no significa
que resulte recomendable alargar innecesariamente un test en pro de aumentar su
fiabilidad, ni que cualquier test pueda convertirse en un instrumento fiable por el único
medio de aumentar indefinidamente su longitud. La fórmula de Spearman-Brown permite
pronosticar el aumento de fiabilidad obtenida tras el incremento de la longitud de un test,
siempre y cuando los ítems añadidos sean paralelos a los ya existentes.
VALIDEZ
Es un concepto que hace referencia a la capacidad de un instrumento de medición para
cuantificar de forma significativa y adecuada el rasgo para cuya medición ha sido diseñado.
De esta forma, un instrumento de medida es válido en la medida en que las evidencias
empíricas legitiman la interpretación de las puntuaciones arrojadas por el test.
Un conocimiento es el hecho de ser reconocido como un conjunto consistente de
proposiciones verdaderas por una comunidad determinada.
El conocimiento válido en el campo de la ciencia supone la aceptación del mismo por la
comunidad científica dentro del ámbito de que se trate, como coherente con una teoría, o
dentro de un uso técnico.
El reconocimiento como válido dentro de un ámbito cultural viene a significar la coherencia
con los postulados o las normas de la tradición cultural, tanto como su sentido de verdad
en sí.
VALIDEZ DEL CONTENIDO
La validez de contenido, a veces llamada la validez lógica o racional, determina en qué grado
una medida representa a cada elemento de un constructo.
Si constituye una muestra adecuada y representativa de los contenidos y alcance del
constructo o dimensión a evaluar. En los casos en los que la materia objeto de medición se
puede precisar con facilidad, la población de contenidos que se pretende evaluar está bien
definida, por lo que la selección de los ítems del test no ofrece mayores dificultades,
pudiéndose recurrir a métodos estadísticos de muestreo aleatorio para obtener una
muestra representativa de ítems. No obstante, en el campo de la psicología no siempre es
posible disponer de poblaciones de contenidos bien definidas
La validez de contenido es la denominada «validez aparente». Una prueba posee una
validez aparente adecuada cuando produce en los sujetos a los que se aplica la impresión
de que efectivamente es una prueba adecuada. Es un tipo peculiar de validez de contenido,
pero que tiene su parte de importancia al poder influir sobre la motivación de los
participantes, que pueden mostrar una actitud negativa ante la prueba si no perciben que
ésta tenga el sentido que se le supone
Validez de criterio
Llamado Validez de pronóstico», se refiere al grado de eficacia con que se puede predecir o
pronosticar una variable de interés (criterio) a partir de las puntuaciones en un test. Es
frecuente que en los procesos de selección de personal se utilicen instrumentos que
pretendan determinar o predecir el rendimiento futuro de los candidatos al puesto de
trabajo basándose en las respuestas obtenidas.
Validez concurrente o Simultánea: El test y el criterio se miden al mismo tiempo
(concurrentemente). Puede utilizarse para validar un nuevo test por comparación con otro
ya validado previamente.
Validez de pronóstico o predictiva: El criterio se mide pasado un periodo de tiempo tras la
aplicación del test. Es el tipo más habitual en los procesos de selección de personal, en los
que se pretende predecir el rendimiento futuro de los sujetos.
Validez retrospectiva: El test se aplica un tiempo después del criterio que se pretende
evaluar. Útil cuando se pretende dilucidar mediante una prueba algún aspecto del pasado
que actualmente no es accesible.
Validez de constructo
Hace referencia a la recogida de evidencias empíricas que garanticen la existencia de un
constructo psicológico en las condiciones exigibles a cualquier otro modelo o teoría
científica.
Unificador que integra las consideraciones de validez de contenido y de criterio en un marco
común para probar hipótesis acerca de relaciones teóricamente relevantes». Asimismo,
Cronbach (1984) refiere que «, y por tanto, la meta final de la validación es la explicación y
comprensión esto nos lleva a considerar que toda validación es validación de constructo».
Consecuenciales- ¿Cuáles son los riesgos potenciales si los resultados son, en realidad, no
válidos o mal interpretados? ¿La prueba todavía vale la pena dado los riesgos? Contenido-
¿Las tareas de la prueba parecen estar midiendo el constructo de interés?
Sustantivo- ¿Es el fundamento teórico que subyace en la construcción del sonido de
interés?
Estructural- ¿Las interrelaciones de las dimensiones medidas por la prueba se correlacionan
con la construcción de las puntuaciones de los intereses y de las pruebas?
Externos- ¿La prueba tendrá cualidades convergentes, discriminantes y predictivas?
Generalización- ¿La prueba de generalizar lo hace a través de diferentes grupos,
configuraciones y tareas?
Evaluación
La evaluación de la validez de constructo requiere que las correlaciones de las medidas sean
examinadas en cuanto a las variables que se sabe que están relacionados con la
construcción. Esto es consistente con la matriz multirrasgo-multimétodo (MTMM) para
examinar la validez de constructo que se describe en el artículo de referencia de Campbell
y Fiske (1959).14 Hay otros métodos para evaluar la validez de constructo además de
MTMM. Puede ser evaluado a través de diferentes formas de análisis factorial, modelado
de ecuaciones estructurales (SEM), y otras evaluaciones estadísticas.
Validez convergente y discriminante
Artículos principales: Validez convergente y Validez discriminante.
La validez convergente y discriminante son los dos subtipos de validez que componen la
validez de constructo. La validez convergente se refiere al grado en que las dos medidas de
construcciones que en teoría deben estar relacionadas, están de hecho relacionadas. En
contraste, las pruebas de validez discriminante suponen que los conceptos o las medidas
que no guardan relación, en efecto, no se relacionan.
Validez, sesgo e imparcialidad de la prueba.
Se llama equidad o sesgo al factor inherente a una prueba que impide la medición precisa
e imparcial de lo que pretende evaluar. Por ejemplo, si la persona no entiende la consigna
o la técnica no está acorde a su cultura se introducirá un sesgo que habrá que contemplar
al momento de hacer la interpretación. Por lo tanto, una fuente de error que atenta contra
la validez de las técnicas es la mala adaptación de una prueba de una cultura a otra.
La adaptación de las técnicas requiere hacer tres tipos de equivalencias:
Equivalencias lingüísticas: que las palabras tengan el mismo significado en las diferentes
culturas.
Equivalencias conceptuales: que el constructo tenga el mismo significado en diferentes
culturas.
Equivalencias métricas: asegurarse que siga midiendo las variables que medía la técnica
original y de la misma forma
Interpretación sesgada
Las personas inteligentes creen cosas raras porque han sido entrenados para defender
creencias a las que llegaron por razones no inteligentes.
Michael Shermer
Los sesgos de confirmación no están limitados a la recopilación de pruebas. Incluso si dos
individuos tienen la misma información, el modo en el que la interpretan puede estar
sesgado.
La Universidad de Stanford llevó a cabo un experimento con sujetos que tenían una opinión
muy formada sobre la pena capital, con la mitad de ellos a favor y la mitad en contra.1920
Cada uno de estos sujetos leyó las descripciones de dos estudios: una comparación de los
estados de los Estados Unidos con y sin pena de muerte y una comparación de las
estadísticas de asesinatos en un estado antes y después de la introducción de la pena de
muerte. Tras una lectura rápida de la descripción de cada estudio, se les preguntó a los
sujetos si sus opiniones habían cambiado. Después leyeron una relación mucho más
detallada del procedimiento de cada estudio y tenían que considerar en qué medida
consideraba bien elaborada y convincente la investigación.19 De hecho, los estudios eran
ficticios. A la mitad de los sujetos se les dijo que una clase de estudio apoyaba el efecto
disuasorio y que el otro lo había minado, mientras que a otros sujetos se les presentaron
las conclusiones cambiadas.1920

Los sujetos, tanto los defensores como los detractores, relataron un ligero cambio en sus
posiciones en la dirección del primer estudio que habían leído. Una vez que leyeron las
descripciones más detalladas de los dos estudios, casi todos volvieron a sus creencias
originales, independientemente de las pruebas aportadas, resaltando los detalles que
apoyaban su punto de vista y desatendiendo cualquier detalle contrario. Los sujetos
describieron los estudios que apoyaban su punto de vista preexistente como superiores a
aquellos que lo contradecían, de modo detallado y específico.1921 Escribiendo sobre un
estudio que pareció minar el efecto disuasorio, un defensor de la pena de muerte escribió:
«La investigación no cubrió un período lo suficientemente largo de tiempo», mientras que
un detractor comentó sobre el mismo estudio: «No hay ninguna prueba fuerte que pueda
contradecir las investigaciones que se han presentado».19 Los resultados ilustraron que la
gente establece estándares más altos en las pruebas para hipótesis que están en contra de
sus expectativas vigentes. Este efecto, conocido como «sesgo de des confirmación», ha sido
apoyado por otros experimentos.
Un escáner para la obtención de imágenes por resonancia magnética permitió a los
investigadores examinar cómo lidia el cerebro humano con información no bienvenida.
Un estudio de interpretación sesgada tuvo lugar durante las elecciones presidenciales de
Estados Unidos de 2004 e implicó a sujetos que se describieron a sí mismos como personas
con fuertes opiniones hacia los candidatos. Les mostraron pares de declaraciones, al
parecer contradictorias, del candidato republicano George W. Bush, el candidato
democrático John Kerry o una figura pública políticamente neutra. También se les dieron
declaraciones que hacían que la aparente contradicción pareciese razonable. Con estas tres
informaciones, tuvieron que decidir si las declaraciones de cada individuo eran o no
inconsistentes. Había grandes diferencias en las evaluaciones, los sujetos interpretaban con
mayor probabilidad las declaraciones del candidato al que se oponían como contradictorias.
En este experimento, los sujetos emitieron sus opiniones mientras su actividad cerebral era
supervisada mediante imágenes por resonancia magnética. Cuando los sujetos evaluaban
las declaraciones contradictorias del candidato del que son partidarios, los centros
emocionales de sus cerebros se activaron. Esto no pasó con las declaraciones de los otros
candidatos. Los experimentadores dedujeron que las diferentes respuestas a las
declaraciones no se debían a errores pasivos de razonamiento, sino que los sujetos
activamente reducían la disonancia cognitiva inducida por la lectura sobre el
comportamiento irracional e hipócrita del candidato del que son partidarios.
Sesgo de memoria
Incluso si alguien ha buscado y ha interpretado pruebas de manera neutral, todavía puede
recordarlas selectivamente para reforzar sus expectativas. Se denomina a este efecto
«memoria selectiva», «memoria confirmatoria» o « memoria de acceso sesgado».25 Las
teorías psicológicas difieren en sus predicciones sobre la memoria selectiva. La teoría de
esquema predice que la información que concuerda con las expectativas previas será más
fácilmente almacenada y recordada.26 Algunos enfoques alternativos dicen que la
información sorprendente es más destacable y se recuerda mejor.26 Las predicciones de
ambas teorías han sido confirmadas en contextos experimentales diferentes, sin que
ninguna teoría se imponga de manera rotunda.27
En un estudio, los sujetos leían un perfil de una mujer que presentaba una mezcla de
comportamientos introvertidos y extravertidos.28 Más tarde tuvieron que recordar los
ejemplos de su introversión y extraversión. A un grupo se le dijo que era para valorar a la
mujer de cara a un trabajo como bibliotecaria, mientras que a un segundo grupo se le dijo
que era para un trabajo de ventas inmobiliarias. Había una diferencia significativa entre lo
que estos dos grupos recordaron: el grupo del trabajo de bibliotecaria recordó más
ejemplos de introversión y los del grupo de ventas recordaron comportamientos más
extravertidos.28 También se ha mostrado un efecto de
Un mapa mental con el desarrollo de los siguientes conceptos:

Validez concurrente o Simultánea: El test y el


criterio se miden al mismo tiempo.

Validez de pronóstico o predictiva: El criterio se


mide pasado un periodo de tiempo tras la
aplicación del test.

Validad de un sesgo Validez retrospectiva: El test se aplica un


tiempo después del criterio que se pretende
Tanto, esto na a considerar que toda validación La adaptación
evaluar. de las técnicas
Útil cuando requiere
se pretende hacer tres
dilucidar
es validación de constructo”. Consecuenciales- tipos de equivalencias:
¿Cuáles son los riesgos potenciales si los
Equivalencias lingüísticas: que las palabras tengan
resultados son, en realidad, no válidos o mal
el mismo significado en las diferentes culturas.
interpretados? ¿La prueba todavía vale la pena
dado los riesgos? Contenido- ¿Las tareas de la Equivalencias conceptuales: que el constructo
prueba parecen estar midiendo el constructo de tenga el mismo significado en diferentes culturas.
interés? Sustantivo- ¿Es el fundamento teórico
que subyace en la construcción del sonido de Equivalencias métricas: asegurarse que siga
interés midiendo las variables que medía la técnica
original y de la misma forma
Bibliografía

Cronbach LJ. Esencial de las pruebas psicológicas. Estados Unidos de América, Nueva York, Harper y
Row Publisher: 1960.

Magnusson D. Teoría de los Tests. México; Editorial trillas: 1969.

Nonnally JC, Bernstein IH. Teoría psicométrica. Estados Unidos de América, Nueva York; McGraw-
Hill Inc.: 1994.

Gulliksen H. Teoría de las pruebas mentales. Estados Unidos BIOGRAFIA de América, Nueva York,
John Wiley and Son: 1967.

Muñiz, José (1998). «Fiabilidad». Teoría clásica de los Tests (5ª edición). Madrid:

Hidalgo, L. (2005). Validez y confiabilidad en la investigación cualitativa. [Documento PDF en línea].


Venezuela: UCV. Disponible: www.ucv.ve/uploads/media/Hidalgo2005.pdf [Consulta: 2013, Enero
12].

2. Hurtado, J. (2012). Metodología de la investigación: guía para una comprensión holística de la


ciencia (4a. ed.). Bogotá-Caracas: Ciea-Sypal y Quirón.

4. Louis de Vivas, M. (1994). Investigación cualitativa. Manual de para la recolección y el análisis


de la información. Caracas: El juego ciencia.
INTRODUCION

En esta tarea presentaremos Concepto de confiabilidad, mencione y las estimaciones de


confiabilidad, coeficiente de confiabilidad, validez, validez de Contenido, validez de criterio, validez
de constructo, validez, sesgo e imparcialidad de la prueba. Con estas tareas trabajamos con esto
concepto para la tarea número tres.
CONCLUSION

Al concluir nuestra tarea aprendimos los concepto de confiabilidad que es para mí la creencia en
algo que no vez, pero que para mí existe, en estos tiempos tan difíciles es algo que está
desapareciendo, confiar en un médico, psicólogo, religioso, y ni se diga de un político, ya es difícil y
menos en teoría, que aunque a otro le ha ido bien pero a mí o me valida
TAREA
3
TEMAS
Conceptos dela confiabilidad
MATERIA
Anatomía y Fisiologia del Sistema Nervioso

PROFESOR
Vladimir Tavárez

ALUMNO
Braulio J Cruz L

MATRICULA
17-1631

FECHA
29 -01-2018

Você também pode gostar