Você está na página 1de 9

CUANTIFICAOON DE LA VALIDEZ DE CONTENIDO POR

CRITERIO DE JUECES
Luis Miguel Escurra M."

El presente estudio eva!ll !.re$ formas de cuantificar la validez de Cmtenido por criterio de Jueces: ellndice de Acuerdo (IA), la Prueba Binomial
(PB) y el ooeficienl.e V de Aikm (V); romprts.dos
en base a to<b.J< hu respuestas posibles uignadas
por 1O jueces a W1 tem. Los rerohru:!Oll permiten
concluir que el coeficiente V de Aiken es el ms

Thou: ways of IUI&eSSing contmt validity are


euunined: inter-nler agrecmeru OA), binomial test
(BT) and Aiken V ooeficiente (V). Aikcn V cooficicml prove:~~ to be more adequate for assening
content validity.

adecuado para determinar e!te tipo de validez, ya


que permite obtener valores factibles de ser contrastados estadhlicamente segn el t.o.mailo de la
mueslnl de jueces sclecciooada.

Docente de la Pumiflcia Universidad Catllca del Per .

103

Un aspecto relevante en el proceso de construccin de instrumentos psicolgicos es el garantizar su validez, la que ha sido definida como: el gmdo
en que un test mide lo que se propone medir (Anastasi, 1968); lo cual equivaldra a responder a la pregunta qu mide el test?. Las fonnulaciones
propuestas para solucionar esta inquietud, fue en sus inicios algo catico, pueslos autores tendan a defmir desde su propio punto de vista el concepto de
validez; asf por-ejemplo tenemos que Anastasi se refiere a validez emprica
y aparente, Gullisken a validez intrt'nsec.a, Mosicr a validez de definicin y
otros se refieren a validez curricular, factoria4 etc_ (Cortada de Kohan, 1968;
Ebel, 1977). Hasta 1954 en que la Asociacin Psicolgica Americana se propuso unifonnizar la tcnnhlolog1a y formular las reglas bsicas para la estandarizacin de los tests (Anastasi, 1986) adoptando la clasificacin tripartita
que an.-S\IbsiSte y asumi como vigentes los siguientes tipos de validez: de
contenido, de construccin y la de criterio, que se subdividi en prcdiCtiva y
concurrente.
Con relacin a la validez de conte~do. vemos que esta ha sido definida
como el .grado en que los tem que constituyen la prueba
una muestra
representativa del dominio de rontenido. que se mide (Nunnally, 1973;
Mehrens y Lehmann, 1982). Usualmente se ha recomendado que este tipo de
validez sea asignado a las pruebas de rendimiento, espalar (Cronbach, 1972;
Wood, 1975; Magnusson, 1976; Gronlnnd. 1980; Thomdikc, 1986) y en
algunos casos para las pruebas dy adaptacin basadas en observaciones
(Kannel, 1984); aunque tambin se ha sugerido su utilizacin en escalas de
actitudes y otras mediciones de rasgos (Bohmsted, 197~).

son

Por lo general esta tonna <le validez se ha detenninado mediante la


comparacin sistemtica de los ftem de la prueba con el dominio de conLenido
estudiado, este anlisis es factible de ser llevado a cabo de dos fonnas, la
primera que consiste en estudiar de manera lgica .Y racional los ftem explicitando el porque se incluye en la prueba; y la. segunda en la cual con ayuda
de un grupo de jueces competentes y calificados sd evala el grado en que los
reactivos concuerdan con los planteamientos del construcL -~~ instrumento,
siendo denominada esta tcnica como el criterio de jueces (Andrcant 1975);
105

y que en muchos casos ha sido la estrategia usada por excelencia para evaluar
la validez de contenido (Aiken, 1980).
La modalidad mas comn para realizar la validez de contenido por

criterio de los jueces, consiste en solicitar la aprobacin o desaprobacin de


la inclusin de un ftem en la prueba por parte de varios jueces, cuyo nmero
puede variar segn los requerimientos del autor del instrumento.
Quizs el problema ms importante derivado del uso que esta tcnica ha
generado, es el referido a la dificultad para la cuantificacin de sus resultados
(Aiken, 1980; Bmwn, 1980).. Un intento de solucin a~ problema ha sido
calcular un ndice de acuerdo entre los juues al evalqar el ftem, siendo en este
caso el grado de concordancia el que indicarla la confiabilidad de los juicios
(finsley y Weiss, 1975), y por ende la validez del mismo, ya que eval~arfa
el.concenso que existe pam la inclusin del ftem de la prueba.

Matemticamente este ndice de acuerdo ha sido definido como la. proporcin que exi.sre: en.t::re los juicios que coinciden con la definicin propuesta
por el autor (acuenlo A)' y el total de juicios emitidos (acuerdos A y desacuerdos D); sicndosu frmula lA= N(A+D), tomndose -eomo vlidos los reactivos cuyos valores sean' igualeS" mayores que 0.80 (Guilford. 1954).

Si bien este intento pentritid solucionar parcialmente el problema de la


cuantificacin de la validez de contenido, tambin ha dado orfgen a otras
controversias ya que no se ha indicado cual puede ser el nmero adecuado de
jueces. pues el valor limite de 0.80, puede ser obtenido tanto para grupos de
5 como para grupos de-ms de lO-jueces, asimismo no se conoce la ..ignificacidn estadlstica de los resultados; lo cual podra hasta- cieno punto indicarnos que sea algo arbitrario y subjetivo trabajar bajo esta fOrma de valldQz.
Es con nitras a so-luciorfur esta stuacin que nos proponemos cuantificar
la validez de contenido JX>r criterio de jueces aplicattdo como anlisis estadsticos, la prueba Binnmial y el coeficiente V de Aiken.
La Prueba Binomial

Es un anlisis esta:dfslico que estudia la probabildad de obtener x ObJetos en una categora y n-x objetos en la otra (Hocl, 1976).
La frmula de clculo es la siguiente:
p

106

"' n
X

siendo:
p = Proporcin de casos esperados en una de las categoras
q = 1 - p proporcin de casos esperado en la otra categora

Para el caso de la validez de contenido, las categoras son p (acuerdos)


y q (desacuerdos} y se asume que p = q = 0.50. Se elige esta prueba porque
los datos son dicotmicos y se tiene un solo grupo de sujetos (Siegel, 1980):
El clculo realizado nos da la probabilidad de ocurrencia de manera directa,
de manera que si es menor de .05 6 .01. se asume que el tem posee validez
de contenido.
El Coeficiente de Validez V (Aiken, 1980; 1985)
Es un coeficiente que se computa como la razn de un dato obtenido
sobre la suma mxima de la diferencia de los valores posibles. Puede ser
calculado sobre las valoraciones de un conjwtto de jueces .con relacin a un
tem o como las valoraciones de un juez respecto a 1.Dl grupode tem. Asimis~
mo las valoraciones ilsignadas pueden ser cticotomicas (recibir valores de O 6
1) 6 politomicas (recibir valores de O a 5). Para nuestro caso se calcular para
respuestas dicotomicas y el anlisis de W1 tem por W1 grupo: de .jueces,
haciendo para ello usO de la siguiente f6rmula:

Y=

""<n-:-(
c--:--1)"")

siendo:
S = la surna:toria de si
s1= Valor asignado por el juez i,
n = Nmero de jueces
e = Nmero de valores de la escala de valoracin (2. en este caso)
Este coeficiente puede obtener valores entre O y t. a medida que sea ms
elevado el valor computado, el tem Lendr una mayo-r validez de contenido.
El resultado puede evalu~ estadsticamente haciendo uso de la tabla de
probabilidades asociadas de cola derecha. tabuladas por el autor.
Es precisamente esta posibilidad de evaluar su significacin estadstica
lo que hace a este coeficiente uno de los ms apropiados para estudiar este
tipo de validez.
107

Metodologfa
Este estudio es de tipo metodolgico (Kerlinger, 1975), y consiste en la
aplicacin de las fnnulas del Indice de Acuerdo (lA), Prueba Binomial y el
Coeficiente de Validez de Aiken (V), computndose parn el caso hipottico

del anlisis de la validez de contenido de un tem por un grupo de jueces entre


5 y lO personas. Igualmente se ha conSiderado slo lOs tres-valores ms 3Itos
de atherdo, con la finalidad de detennlnat cual es el valo~ ptimo de seleccin, as como el tamafto mnimo del grupo de jueces necesario para cans-~
derar los resultados como estadsticamente significativos; de tal manera tue
sea posible detenninar objetivamente la validez de contenido del tem.

Resultados y Dlscusi~n
. En la Tabla lt e:I1COII1ilUil. en primer lugar que los valores computados.

parn el lA y el y,do Aiken, arrojan resultados similares, con lo cual comprobamos que para :el caso de los tem dicotmicos ambas frmulas son ecnUvalen!es; y en segundo lugar, que las probabilidades asociadas a la Pll y al V
son parecidas, de tal modo que podemos concluir que estos resultados_ nos

confirman la pertinencia del coeficiente V ya que tiene la facilidad del


cmputo del lA y la posibilidad de la contrastacin estadstica de la PB.
En lo que respecta a la proporcin de acuerdos que debe existir por cada
grupJ de jueces para evaluar la validez de co-nterU.do, enconlrnJDos:
En grupos de 5, 6 y 7 jueces, se necesita un calnpleto acuerdo entre ellos
para que el tem sea vlido.
En W1 grupo de 8 jueces, se requiere que deben estar por lo menos 7
jueces en concordancia para que el tem sea vlido _a .un nivel de significacin estadstica de p < .OS.
En un grupo de 9 jueces, por lo menos 8 de ell~ de~ ~tar q.e_ acuerdo
en la evaluacin del tem para que ten M .valid~ de_ conti:ni.do, asumiendo un nivel de significacin estadstica de p < .05.
Para el caso de contar con_ 10 _jueces, se necesita el. acuerdo de por lo
menos S de ellos_para que a un nivel de p< .OS el tem sea considerado
como vlido.
De estOs resultados, podemos concluir que- a medida que se tengan
grupos de jueces ms numerosos, se requJere que la concordancia se<;t algo
menor, sm por ello dejar de ser vlido el tem evaluado. El :sumtr como
adecuatlo el valor del ldiCe de acuerdo como tnayor de 0.80, eS_solo relativo
y depende del tamaflo de la muestra de jueces que se estudia. por lo que se
108

Tabla No. 1

Jueces

Acuerdos
3
4

S
6

S
6
7

6
7

.312
.156
.031

0.60
0.80
1.00

.032

0.67
0.83
1.00

.234

0.67
0.83
1.00

.016

0.71
0.86
1.00

.008

0.7S
0.88
1.00

.004

.094
.016
.164

.054
.008
.109
.031

.004
.070
.in8

0.77
0.89
1.00

o.so

9
10

0.90
1.00

.043
.009

10

0.60
0.80
1.00

0.7S
0.88
1.00

8
9

0.71
0.86
1.00

6
7
8

PB

lA

.002

.000

.03S

0.77
0.89
1.00

.020

0.80
0.90
1.00

.049
.001
.001

.002

recomienda se tome en cuenta los resultados encontrados y aceptar como


vlido solo los tem que sean estadsticamente significativos a .05.
Finalmente podemos concluir que para evaluar la validez de contenido
por criterio de jueces, es preferible hacer uso del coeficiente V de Aiken, que
combina la facilidad del clculo y la evaluacin de los resultados con la
correspondiente docimacia estadstica. en lo cual garantizamos la objetividad
del procedimiento, a la
que SOluCionamos el problema que plantea la
cuantificacin de la validez de contenido, de tal forma que sea factible
impUlsar el desarrollo de la construccin de instrumentos psicolgicos ade:.
cuados a nuestro medio tanto con fines de investigacin como de ttabajo

vez

profesional en especifico.

109

BIBUOGRAFIA
Aiken, L. (1980). Content Validity and Reliability of Single Items or
Questionnaire. Educalional and Psychological Measurement 40, 955959,
Aiken, L. (1985). Three Coeficients for Analyzing the Reliability and Validity
of Ralings. Educatlonai and Psychologjcal Measurement 45, 131-142.
Anastasi, A. (1968). Tests Psicolgicos. Madrid: Aguilar.
Anastasi, A. (1986). Evolving Concepts of Test Validalion. Ann.ual Review
Psycho/ogy, 37, 1-15.
Andreani; O. (1975). Aptitud Mental y Rendimiento Esco/Q.r. Barcelona:
Herder.
Bohmstedt, G. (1980). Evaluacin de la Confiabilidad y Validez en la medicin de actitudes. En: Sumers G. (Ed.) Medicin de Actitudes. Mxico:
Trillas
Brown, F. (1980). Principios de la Medicin en Psicologfa y Educacidn.
Mxico: El Manual Moderno.
Cortada de Kohan, N. (1968). Manual para la Construccin de Tests Objetivos. Buenos Aires; Piidos.
Cronbach, L.J. (1972). FlliiiUIU1ntos de la Exploracin Psicoigica. Madrid:
Biblioteca Nucv.
Ebel, R.L. (1977). FundamenlOs de la Medicin Educacional. Buenos Aires:
Guadalupe.
Gronlund, N. (1980). Elaboracin de Tests de Aprovechamiento. Mxico:
Trillas.
Guilford, J.P. (1954). Psychometrics Methods. New York: McGraw-Hill.
Hocl, Paul (1976). Introduccin a la Estadistica Matemtica. Barcelona:
Ariel.

Kannol. LJ. (1974). Medicin y Evaluacin Esco/Q.r. Mxico: Trillas.


Kerlingcr; F. (1975). Investigacin del Comportamiento: Tcnicas y MetodDIogla. Mxico: lntcramericana._
Magnusson. D. (1976). Teorla de los Tests. Mxico: Trillas.
Mehrens, A., William & Lehrnam !.J. (1982). Medicin y Evaluacin en la
Educacidn y en la Psicologla. Mxico: C.E.C.S.A.
Nunnally, J. (1973). Introduccin a la Medicin Psicolgica. Buenos Aires:
Paidos.
Siegel, S. (1980). Estadlsticas no Paramtricas ApUcadas- a las Ciencias de
la Conducta. Mico: Trillas.
Thomdike, R. & Hagen, E. (1986). Tests y Tcnicas de Medicin en Psicolog{a y Educacin. Mxico: Trillas.
110

Tmsley H.E.A. & Weiss D.J. (1975). lnterrater Reliability and Agreement of
Subjective Judgements. Journal uf Counseling Psychology, 22, 358-376.
Wood. D.A. (1975). Elaboracin de Tests: Desarrollo e fluerpretacln de los
Tests de Aprovechamiento. Mxico: Trillas.

111

Você também pode gostar