Você está na página 1de 5

III.

VALIDACIÓN CRUZADA DE ANÁLISIS DE ARTÍCULOS


RAYMOND A. KATZELL
Universidad de Siracusa

La validez de una prueba puede verse en términos de la validez compuesta de sus


elementos. Es, por lo tanto, una práctica común en la construcción de pruebas psicológicas
para determinar la validez de cada elemento, es decir, la capacidad del elemento para hacer
discriminaciones en un criterio externo. Cuando se hace esto, el constructor de la prueba
se enfrenta esencialmente con el mismo problema doble que se planteó en los otros
documentos de este simposio: (i) ¿Qué ponderaciones se atribuirán a los diversos
predictores (en este caso, por supuesto, los elementos)? ), y (2) ¿cuál es la mejor estimación
de la validez de la batería (en este caso, la prueba total)?

Pero hay dos aspectos importantes en los que los datos de análisis de elementos
difieren de otras baterías de predicción:
1. El número de predictores es mucho mayor que en otros casos. (No es raro tener varios
cientos.)
2. Los predictores son individualmente mucho menos confiables. Estos dos hechos
tienen varias implicaciones importantes para nuestro problema:
1. La cantidad de trabajo involucrado en derivar ponderaciones por métodos de
regresión múltiple es abrumadora.
2. Incluso si fuera prácticamente factible derivar tales ponderaciones, las r's
inestables de orden cero y la gran cantidad de variables producirían
ponderaciones inestables y una estimación muy pobre de la validez de la prueba.
3. La última situación no se mejora necesariamente por los diversos métodos de
ponderación abreviados y más toscos, ya que su efectividad depende de la
medida en que produzcan estimaciones de las verdaderas ponderaciones de
regresión múltiple. Sin embargo, se puede esperar que un coeficiente o peso
basado en menos dimensiones inestables muestre menos fluctuación en las
nuevas muestras.
4. La contracción en la validez compuesta de una prueba, en cualquier caso, es
probable que sea tremenda, ya que el número de variables predictoras (ítems) a
menudo no es mucho menor que el número de casos en la muestra de análisis de
ítems. La fórmula de contracción de Wherry nos recuerda que la cantidad de
contracción es inversamente proporcional a la diferencia entre el número de
sujetos y el número de predictores.

Debido a algunas de las consideraciones que se acaban de mencionar, la mayoría de


los constructores de pruebas han descartado la noción de esquemas elaborados de
ponderación de ítems, y generalmente se preocupan simplemente de si asignar el ítem a un
peso b de I o o, es decir, si lo calificamos o no. Los únicos pesos diferenciales que vemos
que se usan con algún grado de comunidad son pesos integrales simples proporcionales a
la validez del artículo. Esta práctica es una consecuencia de las consideraciones teóricas que
se acaban de citar, más la evidencia empírica de que la ponderación diferencial
generalmente no contribuye apreciablemente a la validez de la prueba en situaciones
nuevas.

Pero esta concesión aún no elimina los dos problemas básicos. Incluso si la decisión
es simplemente ponderar los ítems ya sea 1 o 0, el problema sigue siendo cuáles retener y
cuáles descartar. Y también tenemos el problema de estimar sin sesgo la correlación de
criterios que debe proporcionar la batería de artículos retenidos.
Debe mencionarse entre paréntesis que las soluciones a estas preguntas no se
encuentran en el ámbito de las técnicas analíticas elegantes. Las técnicas elegantes son las
de regresión múltiple, restricciones lineales, etc., que, por las razones citadas
anteriormente, no son adecuadas aquí. Pero no deberíamos estar muy descontentos con
este giro de los acontecimientos, ya que, después de todo, estamos tratando con datos
bastante inestables y toscos a los que la aplicación de métodos altamente sensibles no sería
diferente a lanzar perlas antes que los cerdos.

Nuestro problema ahora se percibirá como esencialmente el de ver (o dar un peso


de 1 a) aquellos elementos que darán un puntaje combinado con la máxima validez en
futuras aplicaciones de la prueba. Para hacer esto, debemos tener en cuenta dos asuntos:
(a) la validez de los elementos en nuestra muestra y (b) su fluctuación esperada en nuevas
muestras. En igualdad de condiciones, los elementos de mayor validez deberían, por
supuesto, proporcionar la máxima validez de prueba en una nueva muestra seleccionada
de la misma manera que la original.

Pero todas las demás cosas no son iguales, ya que los elementos de mayor validez
manifiesta son los que tienen más probabilidades de tener las mayores desviaciones
aleatorias en la dirección positiva (o válida) de sus verdaderas validez. Tenga en cuenta a
este respecto un hecho agravante: si se asume que la validez real de todos los elementos
es la misma y algo mayor que cero, la distribución muestral de las validez de los elementos
mostraría un modo más alto que el valor verdadero, lo que arrojaría una proporción
espantosamente grande de elementos. Teniendo validez manifiesta relativamente alta. El
resultado de todo esto es que la selección de un número relativamente pequeño de los
elementos más válidos probablemente resultaría en la mayor cantidad de contracción, por
lo que la mejor validez futura probablemente se puede lograr ponderando un número algo
mayor de elementos al profundizar. En la piscina.

A mi entender, no existe, en la actualidad, una solución matemática exacta para la


estimación de la validez real de la prueba total sobre la base de la validez de los elementos
en la muestra. Por supuesto, podemos calcular la validez de la muestra de la combinación
de los elementos seleccionados, pero esto es una sobreestimación debido al sesgo de error
positivo sistemático mencionado anteriormente en los elementos ponderados, más el sesgo
introducido por casualidad del tipo en el que está diseñada la fórmula de contracción de
Wherry corregir.
Como no hay una buena manera de estimar la validez real de la prueba por
inferencia, obviamente debemos realizar una validación cruzada en una muestra nueva e
independiente. Esto debería producir una estimación imparcial de r, a partir de la cual se
puede hacer una inferencia sobre sus valores probables en muestras futuras.
Cuando una muestra grande está disponible para el análisis de elementos,
normalmente basta con derivar una clave en esta muestra, utilizando elementos que
muestren correlaciones de criterios suficientemente sólidas, y luego aplicar la clave a una
nueva muestra y calcular la validez de la prueba para el criterio. El uso de una muestra
grande para el análisis de artículos (digamos 800 o 1000 casos) asegura pesos de artículos
relativamente estables, y no es inusual encontrar que la validación cruzada muestre
relativamente poca contracción. Un estudio informado en esta convención por Lecznar y
Dailey 1 ilustra esto. En el ítem que analiza un inventario biográfico en una muestra de
alrededor de goo, y que ingresa aquellas respuestas que muestran coeficientes de phi
significativos al nivel del 5 por ciento, encontraron una validez de .55 en su muestra que
solo se redujo a .47 en la validación cruzada. Este procedimiento, en general, parecería
seguro cuando el número de casos es grande, el número de artículos es relativamente
pequeño y la proporción de artículos descartados es relativamente pequeña.
Desafortunadamente, en algunas situaciones fuera del ejército podemos encontrar
muestras de hasta quinientos o seiscientos casos para el análisis de elementos, más varios
cientos de casos adicionales para validación cruzada. Más a menudo, en la industria o la
educación, tenemos suerte si tenemos un total de trescientos o cuatrocientos casos
disponibles tanto para el análisis de elementos como para la validación cruzada. Una posible
solución para esto es el procedimiento de doble validación cruzada. Según mi conocimiento,
esta técnica no se ha utilizado ampliamente ni ha recibido mucha mención en la literatura.
El principio básico es uno que tampoco ha recibido, en mi opinión, suficiente atención. Es
el principio de mejorar la confiabilidad de los hallazgos a través de la replicación de
experimentos. Se puede colocar una mayor confianza en los resultados congruentes de
varias muestras independientes pequeñas que en el resultado de un solo experimento,
donde el total de N es el mismo en ambos casos. Esto es simplemente una consecuencia del
hecho de que el valor de probabilidad compuesto de un evento observado en varias
muestras independientes de igual tamaño es el producto de varios valores de probabilidad
independientes. Por lo tanto, si podemos rechazar la hipótesis nula en el nivel del 10% en
cada una de las dos muestras independientes, entonces podemos rechazarla en el nivel del
1% al considerar simultáneamente los resultados de los dos experimentos. Este es un nivel
de confianza más significativo que el que se obtendría de una muestra única tan grande
como las otras dos combinadas, incluso si se encontrara la misma tendencia. Debe
enfatizarse que este principio se aplica estrictamente solo si las varias repeticiones son
verdaderamente independientes.
Para contrastar este método con el convencional, descrito anteriormente,
considérese con 300 casos tanto para el análisis de elementos como para la validación
cruzada. Puede, por métodos estándar de validación cruzada, dividirlos en un grupo de 200
para el análisis de elementos y otro de 10o para la validación cruzada. Con 200 casos en el
grupo de análisis de ítems, un ítem tendría que tener una r biserial de aproximadamente
.15 para ser considerado diferente de cero en el nivel de confianza del 5%. Si los elementos
de su prueba fueran habituales, su validez probablemente se agruparía alrededor de .10 o
su y usted empezaría a preguntarse si la distribución podría haber surgido por casualidad.
Si decide seguir adelante y seleccionar aquellos que fueron estadísticamente significativos,
estaría seleccionando una minoría. El error estándar es lo suficientemente grande como
para que muchos seleccionados sean desviaciones extremas de probabilidad que, en
muestras nuevas, mostrarían una validez baja, mientras que un número de los ignorados
pueden ser desviaciones aleatorias en la dirección de cero cuyos valores verdaderos pueden
ser bastante aceptables. En otras palabras, ha seleccionado un grupo inestable de
elementos cuya validez combinada mostrará una contracción pronunciada, y posiblemente
haya asignado un peso de o a (ignorado) un número de artículos buenos. Además, luego
realiza una validación cruzada en una muestra relativamente pequeña y no tiene una idea
demasiado buena de qué tan bueno o qué tan malo es la prueba total en realidad.
Propongo que, en lugar de esto, sea mejor que realice una doble validación cruzada.
El método puede ser ilustrado de la siguiente manera:
1. Seleccione dos muestras aleatorias independientes de igual tamaño (15 ° casos
cada una, en este ejemplo).
2. El artículo analiza cada muestra por separado.
3. Determine el valor de probabilidad (p) para cada elemento en cada muestra, es
decir, el nivel de confianza en el que se puede decir que el coeficiente es
diferente de cero.
4. Considerando cada muestra por separado, seleccione los elementos para la
inclusión, utilizando un valor de probabilidad bastante liberal. El nivel de
confianza del 10% (p = .1) parece funcionar bien como estándar en muchas
situaciones. Para casos de 15 °, esto requerirá un r mínimo de aproximadamente
.13. (Por supuesto, como siempre, debe considerar el tamaño absoluto de r así
como la significación estadística en la selección de elementos).
5. Para la clave final, determine el producto de los dos valores de probabilidad para
cada elemento, seleccionando aquellos cuya probabilidad compuesta es .05 o
más pequeño. Dado que en la selección original de artículos en las muestras
separadas un valor de p de i era aceptable, el artículo requeriría un valor de p de
solo 0.5 o más en la segunda muestra para ser finalmente aceptable. En este
ejemplo, r no es mayor que .05 sería suficiente. Por supuesto, varias
consideraciones pueden indicar la conveniencia de estándares diferentes a
estos, por ejemplo, tamaño de muestra, tamaño de r, grado en que las muestras
no son totalmente independientes, etc.
6. Con cada una de las dos claves de muestra desarrolladas, califique los papeles
de la otra muestra, y luego calcular las dos r de muestra.

El método de validación cruzada doble tiene los siguientes activos en comparación


con el procedimiento convencional: todos los casos se utilizan en el análisis del elemento,
en lugar de solo una parte de ellos. Se obtiene un grupo más grande de artículos al
capitalizar la eficiencia antes mencionada de la replicación de experimentos. Esto significa
que probablemente se rechazan menos artículos buenos con grandes desviaciones de
muestra hacia cero. Además, el conjunto de elementos seleccionados probablemente
incluirá proporcionalmente menos que manifiestan grandes desviaciones positivas de la
muestra.
El resultado total debe ser un conjunto de elementos más estable y más válido. El
procedimiento también produce dos estimaciones imparciales de r, cada una en una
muestra más grande de la que probablemente se habría empleado utilizando el método
convencional. Aunque esto es una ventaja, al mismo tiempo es una debilidad del
procedimiento, ya que la estimación de r no se obtiene con la clave exacta que finalmente
se produjo. Pero esta clave normalmente no diferirá radicalmente de las dos claves de
muestra, ya que los elementos en ella se produjeron en una de las otras dos o en ambas. Es
probable que la clave tenga aproximadamente el mismo número de elementos, y estos
serán más estables que los de las claves de muestra individuales. Por lo tanto, en todo caso,
las dos estimaciones de r pueden ser subestimadas en lugar de sobreestimaciones. Por esta
razón, la mayor de las dos r de muestra puede ser la mejor estimación de la validez de la
clave final.
Este procedimiento necesita una verificación adicional antes de que puedan
aceptarse sus hipotéticas ventajas. Se deben realizar validaciones de seguimiento de las
claves derivadas de esto y de los métodos convencionales, y también se deben comparar
los conjuntos de elementos seleccionados por los dos métodos. Es posible que tales
estudios indiquen que el esfuerzo adicional en la validación cruzada doble no es rentable,
sino que creo que a largo plazo dará mejores resultados en muestras relativamente
pequeñas.
Resumen

1. El problema dual de determinar los pesos combinados y estimar la validez


compuesta también existe en el caso de los datos de análisis de ítems.
2. El gran número de variables predictoras y su inestabilidad excluyen la derivación de
ponderaciones estables basadas en numerosas dimensiones. Como resultado, es
probable que los pesos integrales simples, como meramente o e I, produzcan
resultados tan buenos como cualquiera.
3. Independientemente del método de ponderación empleado, la contracción
generalmente se marca en nuevas muestras.
4. Dado que no existe un método adecuado para estimar esta contracción, la
validación cruzada es indispensable.
5. Cuando hay grandes N disponibles, el método convencional de derivar una clave en
una muestra y validarla en otra parece dar buenos resultados.
6. Cuando hay relativamente pocos casos disponibles, el procedimiento de doble
validación cruzada promete rendir mejor

Você também pode gostar