Você está na página 1de 10

Psicometra | Tema 6: La validez de las inferencias (I)

Tema 6: La validez de las inferencias (I)


Introduccin
Los instrumentos elaborados para medir las conductas de inters han de cumplir dos requisitos
fundamentales para poder ser utilizados con garantas de calidad:

La fiabilidad, lo cual se ha estudiado en el tema 4, que hace referencia al grado en que


las puntuaciones obtenidas reflejan su nivel real en el rasgo o caracterstica medida, es
decir, el grado en que esas puntuaciones estn libres de errores aleatorios.
La validez, que hace referencia al grado de relacin entre la evidencia emprica
obtenida y el concepto terico del constructo que se intenta medir.

Introduccin al concepto de validez y su evolucin histrica


La validez hace referencia al grado en que el test mide aquello que pretende medir. Por
ejemplo, un test ser vlido para medir razonamiento espacial si mide razonamiento espacial y
no otra cosa, pero, podemos preguntarnos: Mide realmente eso? En qu grado? Slo mide
eso y nada ms? Este tipo de preguntas forman parte de los estudios de validez.

El concepto de validez hace referencia al grado de relacin entre el test y el constructo que se
quiere medir: cuanto ms estrecha sea esta relacin ms vlido ser el test. Es importante
aclarar que cuando se habla de la relacin entre el test y el constructo, en realidad se hace
referencia a la relacin entre las puntuaciones obtenidas por los sujetos en el test y la medida
obtenida en el indicador o indicadores del constructo.

Tras aos de estudios, se concluy que existen tres tipos de validez: de contenido, relativa al
criterio (que incluye a la predictiva y la concurrente) y de constructo. Se asume que los
distintos tipos de validez van unidos a los objetivos concretos en el uso de los tests, de ah la
importancia de definir cules van a ser estos objetivos:

Determinar el rendimiento o actuacin de un sujeto en un universo de situaciones


(contenido).
Inferir el grado que un sujeto posee en algn rasgo o atributo (constructo) que se
supone que vendr reflejado por su actuacin en el test (que el test mida lo que tiene
que medir).
Predecir el rendimiento o comportamiento futuro (predictiva) o estimar su
rendimiento actual sobre alguna variable externa al test (concurrente).

Actualmente parece haber un acuerdo generalizado en que, desde el punto de vista cientfico,
la nica validez que se debe de considerar es la de constructo y que las otras dos quedaran
incluidas dentro de esta, siendo estrategias para comprender mejor lo que mide el test. Ya no
se habla de distintos tipos de validez y la validacin de los tests es un proceso continuo que
permite obtener distintos tipos de evidencia emprica. Un proceso de validacin ideal debe
incluir los tipos de evidencia incluidos en los tres tipos tradicionales de validez.

Finalmente, se puede definir la validacin como el proceso mediante el cual el constructor


(usuario de los tests) recoge la evidencia emprica necesaria para apoyar las inferencias que se
van a realizar. Se entiende por evidencia tanto los datos, observaciones y hechos como los
argumentos que permitan apoyar esos hechos.

1
Psicometra | Tema 6: La validez de las inferencias (I)

Validacin de contenido
El objetivo general en un estudio de validacin de contenido es analizar hasta qu punto los
elementos o tems que componen el test son una muestra representativa y relevante del
constructo sobre el que se van a realizar las inferencias:

La relevancia indica la necesidad de especificar claramente todas las posibles


conductas observables representativas del constructo a medir (especificacin del
dominio de conductas). Que todos los tems representen algn aspecto del dominio.
La representatividad hace referencia a la necesidad de que todas esas variables estn
representadas en el test (representatividad del dominio). Que todos los aspectos del
dominio estn representados.

En el mbito de la educacin (TRC y tests de rendimiento acadmico) las puntuaciones de los


tests se suelen utilizar para inferir el grado en que los sujetos dominan un campo de
conocimiento, no para hacer inferencias acerca de conductas externas o sobre el constructo
medido. En este tipo de tests, se pone de manifiesto el inters de los estudios de validacin e
contenido ya que es relativamente fcil llevar a cabo la especificacin del dominio (campo de
conocimiento sin hacer referencia al constructo.

La forma tpica de llevar a cabo un estudio de validacin de contenido es utilizando un grupo


de expertos que sern los encargados de analizar dos aspectos fundamentales:

Que el test no incluya aspectos irrelevantes del dominio de inters.


Que incluya todos los elementos importantes que definen el dominio.

Ejemplo: supongamos que un grupo de 100 expertos ha de juzgar la relevancia de 3 tems para
medir la calidad de la enseanza (constructo de inters). En la tabla se muestran las
valoraciones de los expertos a cada tem, donde la categora 1 indica un mal ajuste entre el
tem y el constructo y la categora 5 un muy buen ajuste.

Calculando las medianas para los tres tems, obtenemos que: MedA=4, MedB=2,25 y
MedC=2,90.

Ante estos resultados se puede decir que el tem A tiene un muy buen ajuste y, por tanto, se le
puede considerar relevante para la medida de la calidad de la enseanza. Los otros dos no
deberan incluirse puesto que el ajuste no es muy bueno.

Tabla 1. Puntuaciones de los expertos.

Escala
tems
1 2 3 4 5
A 0 10 10 60 20
B 20 40 30 120 0
C 10 20 50 10 10

Validacin de constructo
Este tipo de validacin da significado a las puntuaciones de los tests: permite obtener
evidencia de que las conductas observables que se han elegido como indicadores del
constructo realmente lo son.

Para llevar a cabo un estudio de validacin del constructo es necesario:

2
Psicometra | Tema 6: La validez de las inferencias (I)

1) Definir el constructo de inters a partir de las teoras existentes y postular hiptesis


acerca de la naturaleza y grado de relacin entre: (i) el constructo y una serie de
variables y (ii) el constructo de inters y otros constructos.
2) Disear el instrumento de medida adecuado que cuente con elementos relevantes y
representativos de las conductas asociadas al constructo.
3) Obtener datos empricos de las relaciones entre las puntuaciones obtenidas al aplicar
el test y las conductas observables.

Si se confirman las relaciones postuladas en las hiptesis planteadas, se puede considerar que
tanto el constructo como el test son tiles.

Los estudios de validacin del constructo se centran en analizar la estructura interna y externa
del test:

Interna: estudiar las interrelaciones entre las puntuaciones obtenidas por los sujetos
en los distintos tems del test.
Externa: estudiar las relaciones entre las puntuaciones obtenidas en el test y otras
medidas del mismo constructo obtenidas en variables relevantes externas al mismo.

Entre los mtodos para validar el constructo destacan el mtodo de la matriz multimtodo-
multirrasgo y el anlisis factorial.

La matriz multimtodomultirrasgo
Este mtodo permite el anlisis de la estructura externa de uno o varios tests. La lgica es la
siguiente:

Se intenta medir un mismo constructo mediante distintos procedimientos y distintos


constructos mediante el mismo procedimiento.
Una vez obtenidas todas las medidas, se calculan las intercorrelaciones entre ellas:
o Si las correlaciones entre las medidas del mismo constructo a travs de distintos
procedimientos son altos, el constructo quedar validado y se dir que existe
validez convergente.
o Si estas correlaciones son significativamente ms altas que las obtenidas al
correlacionar las medidas de distintos constructos con el mismo procedimiento,
se dir que existe validez discriminante.

Ejemplo: supongamos que se quieren medir tres constructos: razonamiento numrico (RN),
factor espacial (FE) y razonamiento abstracto (RA), para lo cual se han elaborado tres
procedimientos con distinto formato: Verdadero-Falso (V-F), Eleccin mltiple (E-M) y Frases
incompletas (F-I).

Para analizar la validez convergente y discriminante, se aplican todas las pruebas a una muestra
de sujetos, obteniendo unos resultados a partir de los cuales se calculan todas las
intercorrelaciones posibles, recogidas en la matriz que se presenta a continuacin:

Los valores de las diagonales (entre corchetes) son los distintos coeficientes de
fiabilidad. Se corresponden a la correlacin entre las puntuaciones obtenidas al medir el mismo
constructo utilizando el mismo procedimiento (p. ej.: test paralelos).
Los valores en negrita corresponden a las correlaciones obtenidas al medir distintos
constructos con los mismos procedimientos.
Los valores subrayados y en cursiva son las correlaciones obtenidas al medir el mismo
constructo con distintos procedimientos. Son los indicadores de la validez convergente.

3
Psicometra | Tema 6: La validez de las inferencias (I)

Para comprobar si existe validez discriminante se comparan los ndices de la validez


convergente con los que aparecen en negrita. Dado que los ndices de validez convergente
son ms altos que los segundos podemos decir que hay evidencia de validez discriminante.

Tabla 2. Matriz multimtodo-multirrasgo.

V-F E-M F-I


RN FE RA RN FE RA RN FE RA
V-F
RN [0,95]
FE 0,20 [0,90]
RA 0,30 0,28 [0,92]
E-M
RN 0,90 0,31 0,40 [0,93]
FE 0,26 0,87 0,33 0,37 [0,94]
RA 0,43 0,20 0,84 0,26 0,37 [0,88]
F-I
RN 0,79 0,27 0,31 0,77 0,15 0,23 [0,89]
FE 0,11 0,68 0,22 0,24 0,67 0,31 0,19 [0,93]
RA 0,19 0,18 0,50 0,19 0,33 0,72 0,41 0,30 [0,64]

Uno de los problemas de este procedimiento es que no existe un criterio estadstico para tomar
decisiones acerca de si el test tiene realmente validez convergente y discriminante, tan slo se
puede decir que parece haber evidencia de su existencia o ausencia. Para obtener mayor
informacin se est utilizando el anlisis factorial confirmatorio.

El Anlisis Factorial
El anlisis factorial (AF) incluye una serie de tcnicas que tratan de representar y explicar un
conjunto de variables observables (tems, conjunto de test, escalas, etc.) mediante un nmero
ms reducido de variables inobservables (o latentes) llamadas factores.

Es la tcnica ms utilizada y tiene dos vertientes:

La exploratoria: no se establecen hiptesis previas acerca del nmero de dimensiones


que subyacen al constructo, es la propia tcnica quien aporta esa informacin.
La confirmatoria: se establecen a priori hiptesis acerca de la estructura subyacente y
el nmero de hiptesis existentes y mediante las tcnicas oportunas se comprueba si
se pueden aceptar estas hiptesis.

Cuando en un factor se agrupan mltiples indicadores del constructo se obtiene evidencia de


validez convergente. Cuando en el anlisis se han obtenido medidas de otros constructos y
ests aparecen agrupadas en distintos factores, se obtiene evidencia de validez discriminante.

Ejemplo: supongamos que a la matriz del ejemplo anterior se le aplica alguna tcnica de AF y
que la estructura factorial encontrada es la que se presenta en la siguiente tabla.

Se puede observar que se han obtenido 2 factores: el primero agrupa las medidas
correspondientes a las variables utilizadas como indicadores del constructo razonamiento
numrico (RN) junto a dos correspondientes al constructo razonamiento abstracto (RA). El
segundo factor est definido por todas las medidas correspondientes a las variables utilizadas
como indicadores del constructo razonamiento espacial (RE) junto a otras dos

4
Psicometra | Tema 6: La validez de las inferencias (I)

correspondientes al razonamiento abstracto. Estos resultados parecen indicar que estamos


ante dos constructos bien definidos (RN, RE) mientras que para el tercer constructo sera
necesario hacer una nueva evaluacin del mismo (estudiar mejor su marco terico, revisar los
tests utilizados, etc.).

Variables Factor 1 Factor 2


RN (V-F) 0,86 -
RN (E-M) 0,75 -
RN (F-I) 0,92 -
RE (V-F) - 0,82
RE (E-M) - 0,74
RE (F-I) - 0,63
RA (V-F) 0,42 0,33
RA (E-M) 0,51 -
RA (F-I) - 0,54

Validacin referida al criterio


La validacin referida al criterio permite obtener evidencia acerca del grado en que las
puntuaciones obtenidas en el test pueden utilizarse eficazmente para hacer inferencias acerca
del comportamiento real de los sujetos en un criterio que no se puede medir directamente
(porque no est disponible en ese momento, porque medirlo sea caro y costoso, etc.).

Se suelen utilizar dos tipos de ndices o medidas para describir la capacidad de un test o
conjunto de tests para predecir un criterio: medidas correlacinales (coeficiente de validez,
determinacin, valor predictivo, etc.) y las medidas de error en prediccin (errores de
estimacin).

Este tipo de estudios se realizan desde dos perspectivas diferentes en funcin del uso del test y
del tipo de inferencias que se quieran realizar:

Si los tests se van a utilizar para la seleccin, clasificacin o colocacin de personas (en
programas o puestos de trabajo), lo interesante es analizar la validez predictiva del
test. La validez predictiva es la capacidad para pronosticar el rendimiento posterior de
los su jetos a partir de las puntuaciones del test.
Si se trata de hacer un diagnstico, es ms adecuado llevar a cabo un estudio de
validez concurrente.

Para disear un estudio de validacin referida al criterio es necesario seguir una serie de
pasos:

1) Definir claramente el criterio a medir.


2) Identificar los identificadores que se utilizarn para obtener la medida del criterio.
3) Seleccionar una muestra representativa de la poblacin en la que posteriormente se
utilizar el test.
4) Aplicar el test a la muestra de sujetos y obtener una puntuacin para cada uno de
ellos.
5) Obtener una medida de cada sujeto en el criterio:
a. En el mismo momento de la aplicacin del test (validacin concurrente).
b. Al cabo de un cierto tiempo (validacin predictiva).

5
Psicometra | Tema 6: La validez de las inferencias (I)

6) Determinar el grado de relacin entre las puntuaciones obtenidas por los sujetos en el
test y la medida del criterio.

El problema de la seleccin y medicin del criterio


Ejemplo: supongamos que se quiere llevar a cabo una seleccin de vendedores y, entre otras
tcnicas, se utilizar un test en el proceso de seleccin. Para que el test tenga validez
predictiva deber permitir diferenciar a los buenos de los malos vendedores. Para comprobar
esta validez predictiva es necesario por tanto, seleccionar uno o varios indicadores del xito o
de lo que representa un buen vendedor: por ejemplo, las ventas realizadas en una semana.
Una vez seleccionado este indicador, se aplicar el test a todos los aspirantes y se les pondr a
vender durante una semana, al cabo de la cual se les evaluar en funcin del nmero de
ventas realizadas y ese dato ser su medida en el criterio externo. Para comprobar si el test
tiene validez predictiva se calcular la correlacin entre las puntuaciones del test y las ventas:
si la correlacin es alta es que el test tiene validez predictiva (los que obtienen puntuaciones
altas son los que ms han vendido).

Una de las principales dificultades es analizar qu es aquello que constituye el xito. En el


ejemplo anterior se utiliza como indicador del criterio de xito el nmero de ventas realizadas
en una semana. Es un indicador prctico, fcil de obtener y probablemente, vlido de cara al
cliente.

Thorndike y Hagen consideran que lo sindicadores deben cumplir una serie de requisitos:

Relevantes: el indicador debe de estar relacionado con el criterio.


Libres de sesgos: las medidas del criterio deben representar la verdadera competencia
de los sujetos y no pueden estar determinadas por factores que acten de manera
diferencial en ciertos grupos (p. ej.: supongamos que se quiere evaluar la competencia
de las secretarias de una empresa y sus jefes directos deben evaluarlas: el juicio de los
jefes estar libre de sesgos si la evaluacin slo depende de la competencia de las
secretarias y no de otros factores).
Fiables: las medidas del criterio que proporcionen los indicadores han de ser estables.
Accesibles: hay que tratar de seleccionar los indicadores ms accesibles
(econmicamente, fciles de obtener, etc.) que cumplan con los otros requisitos.

Procedimientos estadsticos utilizados en la validacin referida al criterio


La tcnica empleada para evidenciar la validez de un test en relacin con un criterio depende
del diseo de recogida de datos y el nmero de variables implicadas:

Un nico test predictor y un solo indicador del criterio. Los procedimientos ms


utilizados son la correlacin y el modelo de regresin lineal simple.
Varios predictores y un solo indicador del criterio. Cuando se utiliza una batera de
tests para predecir un nico criterio suelen utilizarse la correlacin y la regresin lineal
mltiple. Si el criterio es cualitativo, se suele utilizar el anlisis discriminante y si se
utilizan criterios dicotmicos la regresin logstica.
Varios predictores cuantitativos y varios indicadores del criterio cuantitativos. Las
tcnicas ms adecuadas son la regresin lineal multivariante y la correlacin cannica.
Son poco utilizados debido a la dificultad para interpretar los resultados.
Procedimientos basados en la teora de decisin: validez y utilizad en las decisiones.
Los procedimientos se basan en diferentes mtodos para optimizar las decisiones

6
Psicometra | Tema 6: La validez de las inferencias (I)

realizadas con el test: tcnicas maximin y minimax y especialmente la Teora de la


Utilidad del multiatributo.

Validacin con un nico predictor y un solo indicador del criterio


Las tcnicas utilizadas en este caso son:

La correlacin, que permite conocer el grado de asociacin entre el test y el criterio.


El modelo de regresin, que permite pronosticar a partir de las puntuaciones
obtenidas en el predictor, las puntuaciones en el criterio.

El coeficiente de validez
Se define como la correlacin entre las puntuaciones obtenidas por los sujetos en el test
predictor y las obtenidas en el criterio. El tipo de correlacin utilizada para el clculo del
coeficiente de validez depender del tipo de las variables implicadas.
Tabla 3. Tipos de correlaciones en funcin del tipo de variables incluidas.

Indicador Test
criterio Continua Dicotomizada Dicotmica
Continua Pearson Biserial Biserial puntual
Dicotomizada Biserial Tetracrica biserial
Dicotmica Biserial puntual biserial

El modelo de regresin lineal


Una vez conocido el grado de asociacin entre el test y el criterio se puede utilizar el modelo
de regresin para hacer pronsticos. Mediante este modelo se intenta buscar la ecuacin
lineal que minimice los errores de pronstico:

= +
Donde:

a es la ordenada en el origen o trmino constante.


b es la pendiente de la recta de regresin.

La varianza residual o varianza error y el error tpico de estimacin


El coeficiente de validez indica la eficacia del test o variable predictora para estimar el criterio:
cuanto ms alto sea ms eficaz ser la estimacin y en el lmite, cuando sea igual a 1, el valor
estimado coincidira con la puntuacin real en el criterio. Dado que nunca se alcanzan
coeficientes de validez perfectos (1 en valor absoluto), la estimacin se ve afectada por el
error de estimacin.

El error de estimacin es la diferencia entre la puntuacin obtenida en el criterio y la que se le


pronostica mediante la actuacin de regresin (Y-Y). La varianza de todos los errores de
estimacin cometidos con cada sujeto de la muestra se denomina Varianza residual, Varianza
2 ( )2
error o Error cuadrtico medio ( = ; donde Y son las puntuaciones obtenidas
en el criterio, Y las puntuaciones pronosticadas y N el nmero de sujetos).

A la desviacin tpica de estos errores se le denomina Error tpico de estimacin ( ), el cual


tambin viene dado por:

7
Psicometra | Tema 6: La validez de las inferencias (I)

2
= 1 (en puntuaciones directas y diferenciales)

2
= 1 (en puntuaciones tpicas)

Intervalos de confianza
Debido a los errores de estimacin que se cometen al hacer los pronsticos, ms que
estimaciones puntuales conviene hacerlas por intervalos. Los pasos a seguir son:

Determinar un nivel de confianza y buscar la puntuacin tpica asociada.


Calcular el error tpico de estimacin.
Calcular el error mximo.
Aplicar la ecuacin de regresin correspondiente y obtener la puntuacin
pronosticada.
Establecer el intervalo de confianza: [Puntuacin pronosticada Emx, Puntuacin
pronosticada + Emx].

Interpretacin de la evidencia obtenida acerca de la capacidad predictiva del test


Los resultados obtenidos se pueden interpretar en funcin de tres coeficientes: de
determinacin, de alienacin y el valor predictivo.

Coeficiente de determinacin
Equivale al coeficiente de validez al cuadrado y representa la proporcin o porcentaje de la
varianza de las puntuaciones de los sujetos en el criterio (variable dependiente) que se puede
pronosticar a partir del test (variable independiente o predictora). Es la varianza comn entre
el test y el criterio.
2
. . =

Coeficiente de alineacin
Indica la proporcin que representa el error tpico de estimacin respecto a la desviacin tpica
de las puntuaciones en el criterio. En la medida en que el error tpico sea ms pequeo que la
desviacin tpica, este ndice K ser menor. K vara entre 0 y 1: ser mximo cuando el
coeficiente de validez sea 0 y mnimo cuando el coeficiente de validez sea 1.

El coeficiente de alienacin representa la inseguridad o el azar que afecta a los pronsticos.

2
. . = = = 1

Coeficiente de valor predictivo


Es el complementario del coeficiente de alienacin y es otra forma de expresar la capacidad
del test para pronosticar el criterio ya que representa la proporcin de seguridad en los
pronsticos.

2
. . . = 1 = 1 1

Ejemplo
Supongamos que se quiere llevar a cabo un estudio de validacin relativa al criterio de un test
de aptitud mecnica (X), para lo cual ser aplica a una muestra de sujetos representativa de la
poblacin en la que se va a utilizar el test. Estos sujetos son evaluados posteriormente pos sus

8
Psicometra | Tema 6: La validez de las inferencias (I)

supervisores, en una escala de 0 a 10, utilizando como indicador de su capacidad mecnica el


tiempo en horas que tardan en reparar un coche Y) con la misma avera. Los resultados
obtenidos se muestran en la siguiente tabla.

Dado que ambas variables son cuantitativas, para calcular el coeficiente de validez se utiliza el
coeficiente de correlacin de Pearson:
6 473 43 61
= = 0,73
[6 711 612 ][6 335 432 ]

Dado que el valor mximo del coeficiente de validez es 1, se puede deducir que el test tiene
buena capacidad predictiva. Una vez calculado este coeficiente, se calculan las ecuaciones de
regresin en puntuaciones directas, diferenciales y tpicas.

El error tpico de estimacin se calcula a partir de la varianza de los errores de estimacin:

2 ( )2
= = 2,12

2
= = 1,46

9
Psicometra | Tema 6: La validez de las inferencias (I)

Supongamos que queremos saber la puntuacin que le correspondera en el criterio a un


sujeto con una puntiacin x=13. Vamos a hacer una estimacin ppuntual y por intervalos_

Nivel de confianza: 95% = 1,96.


El error tpico de estimacin (ya calculado): = 1,46.
El error mximo es: = = 2,86.

Para hacer la estimacin en puntuaciones tpica shay que tener en cuenta que el error tpico
2
de estimacin es diferente y hay que calcularlo: = 1 = 0,69. El error mximo por
tanto ser: = = 1,35.

Aplicacin de las ecuaciones de regresin al valor X=13 para obtener las puntuaciones
pronosticadas:
o Puntuaciones directas: = 3,15 + 0,395 (13) = 8,28.
o Puntuaciones diferenciales: = 0,395 (13 10,17) = 1,18.

o Puntuaciones tpicas: = 0,73 = 0,53.

A partir de las puntuaciones pronosticadas hacemos la estimacin por intervalos:

= 8,26 2,86
= 1,18 2,86
= 0,53 1,35

Finalmente, calculamos los coeficientes:


2
De determinacin: . . = = 0,52.
De alienacin: . . = = 0,69.
De valor predictivo: . . . = 0,31.

10

Você também pode gostar