Taller de Psicometría #2

TALLER DE PSICOMETRA.
1. Definir el concepto de validez.

Es cuando se aplica a una prueba se refiere a un juicio concerniente a lo bien que
mide de hecho una prueba lo que pretende medir. De manera ms especfica, es un
juicio basado en evidencia sobre lo aprobado de las inferencias extradas de las
puntuaciones de prueba.
2. Diferenciar los conceptos de validez y validacin en la medicin.
La validez es dada o ms conocida como un trmino aceptable o dbil
reflejando un juicio en lo adecuado que est emitiendo en realidad el atributo para
cuya medicin estaba diseada la prueba.
Validacin es el proceso de recopilacin de la evidencia de validez. Tanto quien
elabora la prueba como el administrador de la misma pueden desempear una
funcin en la validacin de una prueba para un propsito especfico. Es
responsabilidad del elaborador de la prueba suministrar evidencia de la validez en el
manual de la misma.
3. Explicar el concepto de validez aparente y ejemplificar
La validez aparente se encuentra relacionada con lo que la prueba pretende medir,
es un juicio concerniente a lo relevante que parece ser los reactivos de la prueba.
Plantendolo de una forma diferente si una prueba parece medirse de manera
concisa lo que se pretende medir a primera vista, se puede decir que se tiene una
validez aparentemente alta. Si bien la validez aparente a veces denominada validez
de representacin es una medida dbil de validez, su importancia no puede ser
subestimada, su enfoque es (el sentido comn).
Por ejemplo: despus de que un grupo de estudiantes tom una prueba les pides una
devolucin, especficamente si pensaron que la prueba fue buena. Esto te permite
hacer mejoras para el prximo proyecto de investigacin y aporta otra dimensin
para establecer la validez.
El CI (cociente emocional) y la mayora de los sistemas de calificacin escolares

son buenos ejemplos de pruebas establecidas que se considera que tienen un alto
grado de validez. Una forma simple de ver la validez concurrente es comparar una
prueba o procedimiento nuevo con un punto de referencia importante.
4. Explicar el concepto de validez de contenido y ejemplifique y explicar la
cuantificacin de validez de contenido.
La validez de contenido describe un juicio concerniente a lo adecuado del muestreo
que hace una prueba del comportamiento representativo del universo del
comportamiento del que la prueba estaba diseada para tomar una muestra. La
validez de contenido se utiliza principalmente con tests de rendimiento, y
especialmente con los tests educativos y tests referidos al criterio. En este tipo de
tests se trata de comprobar los conocimientos respecto a una materia o un curso.
La validez de contenido descansa generalmente en el juicio de expertos (mtodos de
juicio). Se define como el grado en que los tems que componen el test representan
el contenido que el test trata de evaluar. Por tanto, la validez de contenido se basa en
(a) la definicin precisa del dominio y (b) en el juicio sobre el grado de suficiencia
con que ese dominio se evala.
La validez de contenido consiste en qu tan adecuado es el muestreo que hace una
prueba del universo de posibles conductas, de acuerdo con lo que se pretende medir
(Cohen & Swerdik, 2001); los miembros de dicho universo U pueden denominarse
reactivos o tems. Para autores como Ding y Hershberger (2002), la validez de
contenido es un componente importante de la estimacin de la validez de
inferencias derivadas de los puntajes de las pruebas, ya que brinda evidencia acerca
de la validez de constructo y provee una base para la construccin de formas
paralelas de una prueba en la evaluacin a gran escala.
Para establecer un posible universo de reactivos se requiere tener una adecuada

conceptualizacin y operacionalizacin del constructo, es decir, el investigador debe
especificar previamente las dimensiones a medir y sus indicadores, a partir de los
cuales se realizarn los tems. Los tems deben capturar las dimensiones que la
prueba pretende medir. Por ejemplo, una prueba de educacin con una fuerte validez
de contenido incluir los temas realmente enseados a los estudiantes, en lugar de
hacer preguntas sin relacin. Una escuela quiere contratar a un nuevo profesor de
ciencias y un panel de directores comienza a analizar a los distintos candidatos.
Elaboran una lista acotada y luego disean una prueba, donde escogen al candidato
con la mejor puntuacin. Lamentablemente, ste demuestra ser un maestro de
ciencias extremadamente mediocre.
La cuantificacin de la validez de contenido tiene relevancia ya que uno de estos
mtodos de contenido fue hecho por Lawshe (1975), quien propuso una frmula
simple para cuantificar el grado de consenso pidiendo a un grupo de expertos que
puedan determinar la validez de contenido de una prueba.
5. Cmo influye la cultura en la validacin de una prueba?

La influencia de la cultura en lo que ensea a los estudiantes, al igual que aspecto de
construccin, calificacin, interpretacin y validacin de pruebas. La influencia de
la cultura se extiende por tanto a juicios concernientes a la validez de las pruebas y
reactivos de pruebas.
Lo que se considera una prueba de historia vlida en un saln de clases no ser
considerada as en otro. Es ms, las interpretaciones hechas con base en las
respuestas de quin responde las pruebas variarn como funcin de la cultura en la
que se encuentre el individuo.
6. Qu se entiende por criterio de medicin, cules son sus caractersticas y

ejemplifique.
Se entiende por criterio de medicin como la norma contra la cual es valorada una
prueba o una postulacin de una prueba. Desde el punto de vista operativo, un
criterio puede ser casi cualquier cosa como lo puede ser la calificacin en el examen
de peinados avanzados, etc.
Con lo anterior se dice que no hay reglas inflexibles para lo que constituye un
criterio; puede ser un comportamiento especfico un grupo de comportamientos de
una puntuacin de prueba.
La validez de criterio evala si una prueba refleja un cierto conjunto de habilidades
o no. Para medir el criterio de validez de una prueba, los investigadores deben
compararlo con un estndar conocido o con l mismo. Una de las formas ms
sencillas de evaluar la validez relacionada con el criterio es compararla con un
estndar conocido.
Comparar la prueba con una medida establecida recibe el nombre de validez
concurrente; probarla durante un perodo de tiempo se denomina validez predictiva.
No es necesario utilizar ambos mtodos. Uno es suficiente si el diseo experimental
es fuerte. El criterio queda definido como la medida externa que existe con
anterioridad al instrumento en cuestin y que es aceptado por expertos como un
ndice adecuado o satisfactorio de la caracterstica que el nuevo instrumento
pretende medir. Se trata de medir la ejecucin futura de un individuo en alguna
variable significativa (el criterio). Este tipo de validez se divide en concurrente y
predictiva. Por ejemplo: Uso de una prueba de aptitudes escolares para predecir el
promedio de calificaciones en la universidad; el empleo de una prueba de aptitudes
para la mecnica, para predecir el xito como mecnico automotriz; la utilizacin de
un inventario de personalidad para predecir que conductores de automvil tendrn

accidentes.
7. En qu consiste la validez concurrente?
La validez concurrente mide qu tan bien una prueba determinada se correlaciona
con una medida reconocida previamente. Las pruebas son para los mismos
constructos o algunos estrechamente relacionados y permiten que un investigador
valide mtodos nuevos contra un incondicional ya examinado y probado. Por
ejemplo: Los investigadores le dan a un grupo de estudiantes una prueba nueva,
diseada para medir la aptitud matemtica. Luego, comparan estos resultados con
los de las pruebas ya hechas en la escuela, jueza reconocida y confiable de la
habilidad matemtica.
Hacer una referencia cruzada de las calificaciones de cada estudiante permite a los
investigadores comprobar si existe una correlacin, evaluar la exactitud de su
prueba y decidir si mide lo que se supone que debe medir. El elemento clave es que
los dos mtodos se comparen prcticamente al mismo tiempo.
Si los investigadores midieron la aptitud matemtica, implementaron un nuevo
programa educativo y despus de 6 meses repitieron la prueba sobre los estudiantes,
esto sera validez predictiva.
8. Qu se entiende por validez predictiva y como se explica el coeficiente de
validez incremental?
La validez predictiva implica probar a un grupo de sujetos para un determinado
constructo y luego compararlos con los resultados obtenidos en algn momento
posterior. El uso ms comn de la validez predictiva es inherente al proceso de
seleccin de estudiantes para la universidad. La mayora de las universidades utiliza
un promedio de calificaciones de la escuela secundaria para decidir qu estudiantes
aceptar, para encontrar a los estudiantes ms brillantes y estudiosos. En este
proceso, la hiptesis bsica es que un alumno secundario con un promedio de

calificaciones alto tendr calificaciones altas en la universidad.
El coeficiente de validez es un coeficiente de correlacin que proporciona una
media de la relacin entre las puntuaciones de prueba y las puntuaciones en la
medida criterio. Para este caso la correlacin seria que un investigador toma las
calificaciones obtenidas despus del primer ao de estudios y las compara con los
promedios de calificaciones de la escuela secundaria. Una correlacin alta indica
que el proceso de seleccin funcion a la perfeccin, mientras que una correlacin
baja significa que hay algo mal en el enfoque. La mayora de los estudios muestra
que existe una correlacin fuerte entre las dos y la validez predictiva del mtodo es
elevada, aunque no perfecta. Intuitivamente, esto parece lgico: estudiantes que
antes eran excelentes pueden extraar su casa o pasar el primer ao bebiendo
cerveza. Por otro lado, estudiantes a los que antes no les iba bien, ahora pueden ser
estudiosos y esforzarse mucho porque se sienten cmodos con la libertad del
ambiente universitario.
9. En qu consiste la teora de las decisiones y utilidad de las pruebas?
Las pruebas psicolgicas pueden usarse con propsitos de seleccin, colocacin o
clasificacin. En la seleccin cada individuo es aceptado o rechazado, en cambio en
la colocacin o clasificacin nadie es rechazado, todos los sujetos son asignados.
Planteando en forma general, Crobanch y Gleser (1965) presentaron una
clasificacin de problemas de decisin, 2) Varas estrategias de seleccin que van
desde procesos de una sola etapa hasta anlisis secuenciales, 3) un anlisis
cuantitativo de la relacin entre la utilidad de la prueba, la razn de seleccin, el
costo del programa de la prueba y el valor esperado del resultado y 4) una
recomendacin de los que algunos casos los requerimientos de trabajo sean
adecuados a la capacidad del solicitante en lugar de a la inversa (un concepto al que

se refieren como tratamiento adaptativo).
El concepto de utilidad en la teora de la decisin. Una caracterstica de la teora de
la decisin
es que las pruebas se evalan en trminos de su eficacia en una
situacin particular. La evaluacin no solo toma en consideracin la validez de la

prueba para predecir un criterio particular, sino tambin otros parmetros, como la
tasa base y razn de seleccin. Otro parmetro importante es la relativa utilidad de
los resultados esperados, lo favorable o desfavorable de los esperados resultados. La
falta de sistemas adecuados para asignar valores de los resultados en trminos de
una escala uniforme de utilidad ha sido uno de los principales obstculos a la teora
de la decisin.
10. Explicar el concepto de validez de constructo y cules son las evidencias de la
validez de constructo y como se evidencia la validez de constructo y que se
entiende por homogeneidad, evidencia de cambios con la edad.
La validez de constructo define si una prueba o experimento est a la altura de sus
pretensiones o no. Se refiere a si la definicin operacional de una variable refleja
realmente el significado terico verdadero de un concepto. Se refiere a si una escala
o prueba mide el constructo correctamente. La forma ms sencilla de pensar en ella
es como una prueba de generalizacin, como la validez externa, pero evala si el
experimento se ocupa de la variable que ests probando. Por ejemplo, tal vez
quieras analizar si un programa educativo aumenta la capacidad artstica de los
nios en edad preescolar. La validez de constructo es una medida sobre si tu
investigacin realmente mide la capacidad artstica, una calificacin un poco
abstracta.
La validez de constructo es un juicio de lo apropiado de las inferencias extradas de
las puntuaciones respecto a posiciones individuales en esta variable denominada
constructo, ya que un constructo es una idea cientfica informada elaborada para

describir o explicar el comportamiento.
Los constructos son rasgos presupuestos (subyacentes) inobservables que un
elaborador de prueba puede emplear para describir el comportamiento de la prueba
o el desempeo del criterio. El investigador que analiza la validez de constructo de
una prueba debe formular hiptesis del comportamiento esperado de quienes
obtienen puntuaciones altas y bajas en la prueba. De todas estas hiptesis emana una
teora tentativa de la naturaleza del constructo para medir con el cual fue diseada la
prueba. Si la prueba es una medida valida del constructo, quienes obtienen tanto
puntuaciones bajas como altas se comportaran como la teora lo predice. Si quienes
obtienen las puntuaciones altas y bajas no tienen un comportamiento predicho, el
investigador deber verificar las hiptesis planteadas del constructo (o analizar
nuevamente la naturaleza del constructo en s). Una razn posible para que se
obtengan resultados contrarios a los que se haban mostrado en la teora es que la
prueba no slo no es una medida valida del constructo. Una explicacin alternante
puede ser encontrada en la teora que se gener durante las hiptesis del constructo,
tal vez la teora es relevante examinarla minuciosamente de nuevo. Quiz la razn
para un hallazgo contrario se pueda rastrearse hasta la inclusin incorrecta en el
diseo experimental de un procedimiento estadstico articulado o de la ejecucin
incorrecta del procedimiento como tal. Por tanto, aunque la evidencia que confirma
la teora contribuya a un juicio de que la prueba es una medida valida y efectiva de
algn constructo, la evidencia en contrario, desde el punto de vista positivo esta
proporciona un estmulo para que emerja una facetas nuevas de constructo o formas
alternativa para medirlo.
Se puede evidenciar la validez de un constructor por medio de un estudio de

intervencin, donde se prueba un grupo con puntuaciones bajas en el constructo, se
le ensea el constructo y se vuelve a medir. Si existe una diferencia significativa
entre la prueba anterior y la posterior, analizadas generalmente con pruebas
estadsticas simples, esto demuestra una buena validez de constructo.
Establecer una buena validez de constructo es cuestin de experiencia y juicio, de
construir la mayor cantidad de pruebas de apoyo como sea posible. Se utiliza toda
una serie de coeficientes y herramientas estadsticas para demostrar una fuerte
validez de constructo y los investigadores continan hasta que sienten que han
encontrado el equilibrio entre probar la validez y la practicidad.
La evidencia de la validez de constructo, se emplean diversos procedimientos
para que se proporcionen diferentes clases de evidencia de que una prueba tiene
validez de constructo. Las tcnicas variadas de validacin de constructo pueden
proporcionar evidencia, por ej. de que:
La prueba sea homognea midiendo un solo constructo. Tambin
denominada consistencia interna, por lo general se refiere a lo bien que mide
una prueba un solo concepto. Teniendo en cuenta la r de Pearson, para
correlacionar puntuaciones de subpruebas promedio con la puntuacin total
promedio de la prueba. Las subpruebas que a juicio del elaborador de la
prueba no se correlacionen muy bien con la prueba en conjunto podran
tener que reconstruirse o eliminarse por temor a que la prueba no mida en
constructo
rendimiento
acadmico.
Las
correlaciones
entre
las
puntuaciones de subpruebas y la puntuacin total de la prueba por lo general

se reportan en el manual de la prueba como evidencia de homogeneidad.
Las puntuaciones de la prueba se correlaciones con puntuaciones en otras

pruebas de acuerdo con lo que se predecira partiendo de la teora que abarca
la manifestacin del constructo en mencin.

Las puntuaciones de la pruebas se incrementan o disminuyen como una
funcin de la edad o del paso del tiempo como se predijo desde el punto de
vista terico.
Las puntuaciones de prueba obtenidas en forma subsecuente a algn evento
o al simple paso del tiempo (es decir, las puntuaciones pos prueba) difieren
de las puntuaciones de pruebas como se predijo desde el punto de vista
terico.
Las puntuaciones de prueba obtenidas por personas de grupos distintos vara
como lo predice la teora.
La evidencia de cambios por la edad, la naturaleza de algunos constructos es tal que se

esperara que ocurrieran cambios en ellos a lo largo del tiempo, en los cuales se puede
incrementar como lo es la capacidad de comprensin lectora de un estudiante de 7, 8, 9
y tambin puede decrecer en la medida del tiempo como lo es en el caso de un matrimonio
que se evaluara con dicha prueba si existe o no una satisfaccin matrimonial, si no lo es
entonces va en decada a travs del tiempo ya que estos son ms vulnerables con las
eventualidades u situaciones cotidianas. Si una puntuacin de prueba pretende ser una
medida de un constructo que pudiera esperarse que cambiara con el tiempo, tambin este se
debera mostrar los mismos cambios progresivos con la edad si la puntuacin de la prueba
ha de considerarse como una medida valida de constructo. Tambin se debe tener en cuenta
que la evidencia de los cambios a travs del tiempo, como la evidencia de la homogeneidad
de la prueba, no proporciona por s misma informacin sobre la forma en que el constructo
se relaciona con otros constructo.
11. En que consiste la evidencia de pre pruebas, pos pruebas, evidencias de grupos
distintos, evidencia convergente, evidencia discriminante y anlisis factoriales.
La evidencia de pre pruebas y pos pruebas que muestra que las puntuaciones de
las pruebas cambian como resultado de alguna experiencia entre una pre prueba y
una pos prueba puede ser evidencia de validez de constructo. Algunas de las
experiencias intermedias ms comunes responsables de los cambios en la
puntuacin de la prueba son la educacin formal, un proceso de psicoterapia o la
administracin de medicamentos y la experiencia en el trabajo. Por supuesto,
dependiendo del constructo que se est midiendo, podra parecerse que casi
cualquier experiencia que intervenga en la vida producir cambios en la puntuacin
de la preprueba a la posprueba.
La evidencia de grupos distintos tambin conocido como el mtodo de grupo
contrastados, una forma de proporcionar evidencia de la validez de una prueba es
demostrar que las puntuaciones en la prueba varan en una forma predecible como
una funcin de la pertenencia de algn grupo. El razonamiento aqu es que si una
prueba es una medida valida de un constructo particular, entonces las puntuaciones
de la prueba de grupos de personas que se supone que difieren con respecto a ese
constructo tendran puntuaciones de pruebas correspondientemente diferentes.
La evidencia de convergencia para la validez de constructo de una prueba
particular puede provenir de diversas fuentes, en otras pruebas o medidas diseadas
para evaluar el mismo constructo (o uno similar). Por tanto, si las puntuaciones en la
prueba sometida a validacin de constructo tienden a correlacionarse altamente en
la direccin predicha con las puntuaciones en pruebas anteriores, ms establecidas y
ya validas diseadas para medir el mismo constructo (uno similar), este sera un
ejemplo de evidencia convergente.
La evidencia discriminante un coeficiente de validez que muestra poca relacin

(estadsticamente significante) entre puntuaciones de pruebas u otras variables con
las que las puntuaciones de las pruebas que est sometido a validez de constructo no
debera correlacionarse desde el punto de vista terico proporcionar evidencia
discriminativa de la validez de un constructo (tambin conocida como validez
discriminativa).
Anlisis factorial. La evidencia convergente discriminativa de la validez de
constructo puede obtenerse por medio del uso del anlisis factorial. Es un trmino
abreviado en singular que es usado para describir una clase de procedimientos
matemticos que estn diseados para identificar factores o variables especficas
que comnmente son atributos, caractersticas o dimensiones en las pueden diferir
las personas, es empleado con frecuencia como un mtodo de reduccin de datos en
que son analizados varios conjuntos de puntuaciones y correlaciones entre ellos.
12. Qu se entiende por validez y sesgos de las pruebas?
Puede definirse como el grado de precisin que una medicin ofrece; para ser fiable,
una escala debe tener la capacidad de exhibir resultados consistentes en mediciones
sucesivas del mismo fenmeno. Puede determinarse mediante un coeficiente de
confiabilidad, el cual corresponde a un ndice, que bajo la forma de proporcin, da
cuenta de la razn entre la varianza de la puntuacin verdadera de la escala y la
varianza total. Tiene como objetivo determinar, probabilsticamente, el grado de
variacin atribuible a errores aleatorios o causales no vinculados a la construccin
del instrumento. Garantiza la consistencia expresada en la determinacin del grado
de error contenido en la aplicacin de una escala, y por tanto, en la medicin del
fenmeno. El error puede ser entendido como el componente de la puntuacin
observada en la medicin que no se relaciona con la capacidad que posee quien la
responde. As pues se determina la fiabilidad de las puntuaciones obtenidas a travs

de una sola administracin del test. Generaliza las puntuaciones respecto de un
dominio o conjunto de tems y observar si los sujetos responden consistentemente a
lo largo del conjunto de tems utilizados. Estos procedimientos operan considerando
las correlaciones entre diversas partes del test, para lo cual existen dos caminos, la
divisin en dos mitades y la consideracin del universo de tems.
TOMADO DE: http://www.hrc.es/bioest/roc_3.htmlSesgos en la evaluacin de pruebas diagnsticas
Los ms frecuentes en este tipo de estudio son:
Sesgo de confirmacin diagnstica al limitar el estudio a los

pacientes a quienes se les hizo en su da el "gold standard" que
suelen ser los que ms probablemente tengan la enfermedad, por
tanto las pruebas positivas estn sobre-representadas
(sobreestimacin de la sensibilidad) y las negativas infrarepresentadas (infraestimacin de la especificidad).
Frecuentemente es imposible evitarlo por razones ticas. Hay
tcnicas matemticas complejas para controlarlo.
Sesgo de interpretacin de las pruebas si no se hacen

independientemente.
Sesgo debido a resultados no interpretables de la prueba

problema si dicho problema no tiene la misma frecuencia en
ambos grupos.
Ausencia de gold standard definitivo.
Condiciones de generalizacin
Espectro de la enfermedad ("Case mix") Una prueba puede tener

distintos grados de exactitud para diferentes grados de severidad
de la enfermedad. Deben siempre comunicarse las caractersticas
clnicas de los pacientes incluidos en el estudio.
Variabilidad interobservador: Todas las pruebas (unas ms que

otras) requieren cierto grado de pericia en su realizacin e
interpretacin. Dos observadores pueden ser igualmente exactos
pero ser uno ms sensible o especfico que otro, en otras palabras
operar con la misma curva ROC pero en puntos distintos o pueden
tener distinta exactitud (operar en la misma prueba con distinta
curva ROC).

Taller de Psicometría #2

Enviado por

Dados do documento

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Taller de Psicometría #2

Enviado por

Direitos autorais:

Formatos disponíveis

TALLER DE PSICOMETRA.

1. Definir el concepto de validez.

El CI (cociente emocional) y la mayora de los sistemas de calificacin escolares

Para establecer un posible universo de reactivos se requiere tener una adecuada

5. Cmo influye la cultura en la validacin de una prueba?

6. Qu se entiende por criterio de medicin, cules son sus caractersticas y

un inventario de personalidad para predecir que conductores de automvil tendrn

proceso, la hiptesis bsica es que un alumno secundario con un promedio de

adecuados a la capacidad del solicitante en lugar de a la inversa (un concepto al que

es que las pruebas se evalan en trminos de su eficacia en una

situacin particular. La evaluacin no solo toma en consideracin la validez de la

constructo, ya que un constructo es una idea cientfica informada elaborada para

Se puede evidenciar la validez de un constructor por medio de un estudio de

puntuaciones de subpruebas y la puntuacin total de la prueba por lo general

Las puntuaciones de la prueba se correlaciones con puntuaciones en otras

la manifestacin del constructo en mencin.

La evidencia de cambios por la edad, la naturaleza de algunos constructos es tal que se

La evidencia discriminante un coeficiente de validez que muestra poca relacin

responde. As pues se determina la fiabilidad de las puntuaciones obtenidas a travs

Sesgo de confirmacin diagnstica al limitar el estudio a los

Sesgo de interpretacin de las pruebas si no se hacen

Sesgo debido a resultados no interpretables de la prueba

Ausencia de gold standard definitivo.

Espectro de la enfermedad ("Case mix") Una prueba puede tener

Variabilidad interobservador: Todas las pruebas (unas ms que

Você também pode gostar