Teoría de La Medida ME

Asignatura
Teora de la Medida
Licenciatura en
PSICOLOGA
Material de Estudio Obligatorio
Teora de la Medida
Licenciatura en Psicologa
Modalidad Mixta
Universidad Insurgentes
Mxico, 2013
DIRECTORIO
QFB Argelia Hernndez Espinoza

Rectora
Lic. Marcela R. Prez Mandujano
Secretaria General de Investigacin y Vinculacin Universitaria
Lic. Mara Luca Carrillo Silva
Coordinadora de Proyectos de Innovacin Educativa
Universidad Insurgentes
2013
CIVU
Centro de Investigacin y Vinculacin Universitaria
Teora de la Medida
Clave B11
Material de Estudio Obligatorio
NDICE
Presentacin del material...
Introduccin.
Estructura didctica de la asignatura...
I. Objetivo general de la asignatura..
II. Contenido temtico.
III. Metodologa de trabajo
IV. Criterios e instrumentos de evaluacin
V. Recursos.
Actividad Autodiagnstica
Desarrollo de contenidos
Materiales de consulta
Glosario de trminos...
Fuentes de informacin..
Anexos...
PRESENTACIN DEL MATERIAL
Estudiar una disciplina a travs de una modalidad mixta posibilita abordar los diversos
contenidos educativos de acuerdo a los tiempos y formas que favorezcan el trabajo
autorregulado de los estudiantes. En este sentido, contar con un material de estudio
obligatorio, en el que se presentan desarrollados el cien por ciento de contenidos
manifestados en los planes y programas de estudio, resulta ser de gran apoyo para el
alumno, ya que le permite organizar de forma efectiva las estrategias para alcanzar las
metas educativas establecidas.
Es por ello que el presente material tiene como finalidad ofrecer previamente el
desarrollo de los contenidos temticos con el propsito de avanzar en cada uno de los
temas de la forma ms pertinente y favorecer la adquisicin de habilidades que
promuevan el aprendizaje autodirigido y autorregulado.
Es necesario mencionar que el presente material ofrece una base importante de
informacin que ser el punto de partida para investigaciones y construcciones ms
profundas dado que constituye una plataforma inicial desde la cual los actores
principales de este proceso educativo estudiante y asesor comenzarn la
construccin y aprehensin de los nuevos conocimientos.
El material se compone de una serie de elementos didcticos que permite la
construccin progresiva y efectiva de los aprendizajes esperados, por lo que integra
actividades de aprendizaje y de autoevaluacin, as como materiales de consulta que
facilitarn el proceso de enseanza-aprendizaje.

INTRODUCCIN
El material que tienes en tus manos est diseado para facilitar tu aprendizaje sobre la
asignatura de Teora de la Medida, correspondiente a la Licenciatura de Psicologa, en
su modalidad mixta.
El material de estudio obligatorio est organizado con los cinco temas que
comprende el programa de estudios.
En el primer tema se presenta una introduccin sobre la medicin en psicologa, as
como en las ciencias sociales. En el segundo tema se abordarn aspectos de
confiabilidad. El tercer tema comprende aspectos del error de medida. Por otra parte, en
el cuarto tema se revisar la validez. Finalmente, el quinto tema abarca las unidades de
calificaciones.
Para desarrollar lo anterior, el material est integrado por una actividad de
autodiagnstico, desarrollo de contenidos, ejemplos y serie de actividades que sern
parte de tu evaluacin; asimismo, este recurso est complementado con algunas
referencias bibliogrficas y electrnicas que te permitirn ampliar tus conocimientos.

ESTRUCTURA DIDCTICA DE LA ASIGNATURA
I. OBJETIVO GENERAL DE LA ASIGNATURA
Al finalizar el curso, el alumno aplicar los mtodos, tcnicas y procedimientos de
medicin de los procesos psicosociales bajo criterios estrictos de validez y confiabilidad,
a fin de lograr la efectiva aplicacin y construccin de instrumentos en problemas
psicosociales concretos.
II. CONTENIDO TEMTICO
1. INTRODUCCIN A LA MEDICIN EN PSICOLOGA Y EN CIENCIAS
SOCIALES
1.1 Medicin en las ciencias.
1.2 Importancia de la medicin en psicologa.
1.3 Las matemticas y la estadstica en la medicin.
1.4 Escalas de medicin (sus criterios y parmetros; nominal, ordinal, de razn y de
intervalo y el tipo de operaciones estadsticas que soportan).
2. CONFIABILIDAD
2.1 Definicin de confiabilidad.
2.2 Mtodos para obtener los coeficientes de confiabilidad.
2.3 Incremento de la longitud del instrumento.
2.4 Estimacin del nmero de reactivos o tems para obtener la confiabilidad
significativa.
2.5 Tipo de error que afecta a la confiabilidad.

3. ERROR DE MEDIDA
3.1 Error variable.
3.2 Error estndar.
3.3 Error constante.
3.4 Medidas de control.
4. VALIDEZ
4.1 Definicin de validez.
4.2 Tipos de validez.
4.3 Error que afecta la validez.
4.4 Mtodos para obtener la validez.
4.5 Anlisis factorial en la validez.
4.6 Definicin de varianza de comunidad especfica.
5. UNIDADES DE CALIFICACIONES
5.1 Unidades de calificacin. La comparacin con un evento o un estndar absoluto.
5.2 Unidades de calificacin de comparacin interindividual.
5.3 Elaboracin y clasificacin de normas.
5.4 Funcin de los parmetros, normas o escalas.

III. METODOLOGA DE TRABAJO
Lecturas previas.
Trabajo autorregulado.
Asesora presencial.
Revisin grupal o individual de actividades de aprendizaje.
Prctica extraclase.
IV. CRITERIOS E INSTRUMENTOS DE EVALUACIN
Criterios:
Entrega de las actividades prcticas que se mencionan al trmino de cada unidad
temtica.
Participacin en sesin presencial.
Trabajo en sesin presencial.
Instrumentos:
Actividades.
Prcticas para la Licenciatura en Psicologa (ver anexos).
Exmenes parciales y final.
V. RECURSOS DIDCTICOS
Material impreso (Material de estudio obligatorio).
Material complementario (lecturas y textos especializados).
Recursos tecnolgicos (uso de internet, correo electrnico, etc.).
Recursos del aula (pizarrn, plumones, can y laptop).

ACTIVIDAD AUTODIAGNSTICA
Instrucciones:
A continuacin se te presenta una tabla con tres columnas; la primera contiene un listado de
trminos relacionados con la asignatura de Teora de la Medida, la segunda una pregunta
respecto a la parte conceptual, y la tercera, una pregunta concerniente a la parte
procedimental. De acuerdo a tus conocimientos, coloca el nmero que sea acorde a tu
respuesta dentro de la celda que corresponda a cada pregunta. Recuerda, no existen
respuestas buenas ni malas, as que contesta lo ms sincero (a) posible.
1. No lo s.
2. Me resulta vagamente conocido.
3. Lo s bien.
4. Lo s muy bien.
5. Lo podra explicar a otra persona.
Podras dar la Conoces el procedimiento

Trmino Estadstico
definicin? o la aplicacin?
Medicin
Escalas de medicin
Confiabilidad
Instrumentos de
medicin
Error de variable
Error estndar
Medidas de control
Error constante
Podras dar la Conoces el procedimiento
Trmino Estadstico
definicin? o la aplicacin?
Validez
Tipos de validez
Anlisis factorial
Varianza
Unidad de calificacin
Parmetro
Norma o normas
Escala
PUNTAJE
Ya que hayas resuelto la actividad, debers sumar los valores de cada columna.
Compara tu resultado con los siguientes valores:
0-26 puntos: tu nocin de los temas es vaga o nula-
27-53 puntos: conoces algunos temas y/o procedimientos.
54-80 puntos: dominas los temas del temario de Teora de la Medida.
Como se mencion, sta es solo una actividad diagnstica que permitir familiarizarte
con los temas que vers a lo largo del curso, o bien reafirmar lo que ya conoces.
SLO PIENSA...
Para muchas personas, las puntuaciones que
obtienen en los exmenes, evaluaciones u otro tipo
de pruebas son importantes en la vida. Pero, por
qu son tan significativos esos nmeros?
TEMA 1. INTRODUCCIN A LA MEDICIN EN PSICOLOGA Y EN CIENCIAS
SOCIALES
1.1 Medicin en las ciencias
Todos tenemos una definicin de medicin en mente cuando nos plantean la pregunta: qu
es medir? Stevens (1951, citado en Camacho, 1997) propuso la definicin de medicin que ha
hecho ms fortuna: ...medir es asignar nmeros a objetos o hechos de acuerdo con reglas....
Por otra parte Magnusson (1978) dice que: medir es asignar nmeros a las cantidades
de las propiedades de los objetos de acuerdo con reglas dadas cuya validez puede probarse
empricamente. Dicho en forma ms simple, medir es dar la magnitud de cierta propiedad
de uno o ms objetos con ayuda del sistema numrico.
Para Nunnally (1970, citado en Barbero, 2006), la medicin se reduce en algo muy
sencillo: consiste en un conjunto de normas para asignar nmeros a los objetos de modo tal
que estos nmeros representen cantidades de atributos, entendiendo por atributos las
caractersticas de los objetos y no los objetos mismos.

Finalmente, la medicin es definida de manera formal como el acto de asignar nmeros
o smbolos a caractersticas de los objetos (personas, eventos o lo que sea) de acuerdo a ciertas
reglas. Las reglas usadas al asignar nmeros son lineamientos para presentar la magnitud (o
alguna otra caracterstica) del objeto que se mide (Cohen, 2006).
1.2 Importancia de la medicin en psicologa
La mayor parte de los modelos matemticos que se desarrollan en psicologa con anterioridad
y durante los aos 50 del pasado siglo, se adentran en el campo de los nmeros reales cuando
tratan de hacer ciencia, ya que la introduccin del lenguaje cuantitativo que est relacionado
con la medicin, es lo que comnmente se considera como garanta, e incluso como piedra
angular del establecimiento del mtodo cientfico. En sus publicaciones los psiclogos
proponen mediciones cuantitativas y en esa poca se encuentra que prolifera el
establecimiento de escalas psicolgicas. Esto ocurre muy especialmente en psicofsica,
psicometra y aprendizaje, que se remonta a finales del siglo XIX y principios del XX con
figuras tan destacadas como Weber (1795-1878), Fechner (1801-1887), Donders (1818-1870),
Galton (1822-1911), Ebbinghaus (1850-1910) y Thurstone (1887-1955) (Alvarado, 2006).
Ahora bien, de acuerdo con Coombs, Dawes y Tversky (1981. Citado en Barbero, 2006)
consideramos que uno de los papeles fundamentales asignados a la ciencia es la descripcin,
explicacin y prediccin de los fenmenos observables por medio de unas cuantas leyes
generales que expresen las relaciones entre las propiedades de los objetos investigados. La
psicologa como ciencia tendr su base cientfica en la medicin, que le permitir contrastar
empricamente las hiptesis planteadas.
No obstante, a nadie se le escapa la dificultad que entraa la medicin de caractersticas
psicolgicas dada la singularidad de las mismas y, por lo tanto, las dificultades que hubo que
ir superando hasta que se consigui que se aceptara la necesidad y posibilidad de medir este
tipo de variables. La dificultad principal deriva, fundamentalmente, de que, a diferencia de
los atributos fsicos de los sujetos, como el peso y la estatura, que pueden ser medidos
directamente con los instrumentos pertinentes, la mayora de los atributos psicolgicos como
por ejemplo: la inteligencia, el autoritarismo y la introversin son conceptos abstractos,
denominados constructos tericos (o variables latentes), cuya medicin no puede llevarse a
cabo de forma directa sino que debe inferirse a travs de la medicin de una serie de
conductas representativas de dicho constructo. En este sentido, Zeller y Carmines (1980,
citados en Barbero, 2006) plantean una nueva concepcin de la medicin; consideran que se
trata de un proceso mediante el cual se enlazan conceptos abstractos (los constructos
inobservables directamente), con indicadores empricos observables directamente (las
conductas) (Barbero, 2006).
Las dificultades que entraa la medicin psicolgica se comprenden mejor si, como
seala Muiz (1998, citado en Barbero, 2006), se tiene en cuenta que la conducta humana se
desarrolla en una banda acotada por una base neurobiolgica y un entorno sociocultural y
surge, por lo tanto, de la interaccin entre nuestra constitucin biolgica y la estimulacin
ambiental (Barbero, 2006).
Sea cual sea el campo de aplicacin de la medicin psicolgica (procesos bsicos,
personalidad, procesos cognitivos, actitudes, valores, etc.) hay una serie de objetivos comunes
fundamentales: en primer lugar estimar los errores aleatorios que conlleva toda medicin
(fiabilidad de las medidas) y garantizar que la misma no es algo intil sino que sirve para
explicar y predecir los fenmenos de inters (validez de las medidas) (Barbero, 2006).
Las matemticas y la estadstica en la medicin
Desde el primer nmero con tinta roja encerrado en un crculo en la parte superior de su
primera prueba de ortografa hasta la impresin por computadora de sus resultados del
examen de admisin a la universidad, se ha encontrado con pruebas y calificaciones durante
su vida. stas parecen salir del papel y estrechar su mano cuando lo hace bien y son como un
puetazo cuando falla. Pueden guiarlo o alejarlo de alguna escuela o plan de estudios en
particular. Pueden ayudarle a identificar los puntos fuertes y dbiles en sus capacidades
fsicas y mentales. Pueden acompaarlo a entrevistas laborales e influir en la eleccin de un
empleo o una carrera (Cohen, 2006).
Las puntuaciones de las pruebas, exmenes o evaluaciones con frecuencia se expresan
en nmeros, y para describirlos, hacer inferencias y obtener conclusiones de ellos se usan
herramientas estadsticas (Cohen, 2006).
1.3 Escalas de medicin (sus criterios y parmetros; nominal, ordinal, de razn y de
intervalo y el tipo de operaciones estadsticas que soportan)
Existen cuatro tipos de escalas: la nominal, la ordinal, la intervalar y la de razn o proporcin,
las cuales se explican a continuacin (Pagano, 1999).
a) Escala nominal: se utiliza para las variables cualitativas y determina igualdad o
pertenencia a una categora, es decir, nos permite clasificar.
Ejemplo:
-Supongamos que nos gusta correr y queremos unos zapatos deportivos, por lo que los
clasificamos dependiendo de la marca.
-Sexo: masculino o femenino.

b) Escala ordinal: se utiliza para variables cualitativas y permite dar un orden a los
elementos, segn si poseen ms, menos o la misma cantidad de la variable medida, es decir,
determina el grado de intensidad de la variable.
Ejemplo:
-Calificaciones de un examen: NA, B o MB.
-La premiacin de competidores en un evento deportivo: Juan lleg en 1er. lugar, Pedro en
2do. y Jos en 3ro.
c) Escala intervalar: es utilizada para variables cuantitativas y es la que posee las
propiedades de magnitud e igualdad de intervalo entre las unidades adyacentes; no posee un
cero absoluto.
Ejemplo:
La temperatura: 78-75, 24-21 y 2-8.
d) Escala de razn o proporcin: es utilizada para variables cuantitativas y posee un cero
absoluto (es indispensable que exista) y determina la igualdad de relaciones o proporciones.
Ejemplo:
-En la escala Kelvin el menor punto es el cero absoluto (ausencia completa de calor).
-Longitud: 0-10 m.
Por otra parte, el nivel ordinal de medicin es el que se usa con mayor frecuencia en
psicologa. Como lo seal Kerlinger (1973, citado en Cohen, 2006):
Las puntuaciones de las pruebas de inteligencia, aptitud y personalidad son, hablando

en forma bsica y estricta, ordinales. Indican con ms o menos precisin no la cantidad
de inteligencia, aptitud y rasgos de personalidad de los individuos, sino ms bien las
posiciones ordenadas en categoras de los individuos (p. 439).
Kerlinger admita que la mayora de las escalas psicolgicas y educativas se aproximan
bastante a un nivel de intervalo, aunque adverta que si las mediciones ordinales eran
tratadas como si fueran mediciones de intervalo, el usuario de la prueba deba: estar alerta
de la forma constante ante la posibilidad de una desigualdad gruesa de los intervalos (pp.
440-441, citado en Cohen, 2006).
Stevens (1951, citado en Camacho, 1997) plante desde la operaciones hasta los
estadsticos que pueden ser empleados segn el tipo de escala en la que se encuentre la
variable. A continuacin se presenta la siguiente tabla que resume dicha informacin:
Tabla 1.4.1 Escalas de medida de Stevens (1951):

Sus operaciones definitorias, transformaciones y estadsticos que permiten
Escala Operaciones Transformaciones Estadsticos Ejemplos
Nominal = vs ? uno a uno Frecuencia, moda, Ji Profesiones
cuadrada
Ordinal > vs < Montona Centil, mediana Orden de llegada
Intervalo Comparar Lineal (x =bx+a) Media aritmtica, Puntaje de test
diferencias varianza y
>/</= correlacin
Razn Comparar Multiplicativa Media geomtrica Temperatura en
razones (x =bx) grados Kelvin
>/</=
Tabla 1. Escalas de medida de Stevens
ACTIVIDADES DE APRENDIZAJE
Actividad 1.
Instrucciones: realiza en tu cuaderno un esquema sobre los autores que se revisaron en el
subtema 1.1 y el concepto de medicin.

Actividad 2.
Instrucciones: lee atentamente y contesta en tu cuaderno las siguientes preguntas:
1) Menciona el nombre de los seis autores que propusieron mediciones cuantitativas en
psicologa.
2) Menciona los tres papeles fundamentales asignados a la ciencia en el aspecto de
medicin.
3) Cul es la importancia de la medicin en el mbito de la psicologa?
4) Cul es la principal dificultad de la medicin en el campo de la psicologa?
5) Qu aspectos de la conducta humana se deben considerar al realizar una medicin
psicolgica?
Actividad 3.
Instrucciones: realiza un ensayo de dos cuartillas donde menciones la importancia que tienen
las matemticas y la estadstica en la medicin psicolgica.
Actividad 4.
Instrucciones: realiza en tu cuaderno un cuadro comparativo de las escalas de medicin,
ejemplifica cada una de ellas.
Actividad 5.
Instrucciones: realiza un en tu cuaderno un esquema donde representes los tipos de escalas y
los procesos estadsticos que cada una emplea.

Actividad 6.
Instrucciones: a continuacin se presentan algunos conceptos (variables), lee con atencin,
analiza y escribe en la lnea el tipo de escala de medicin (nominal, ordinal, intervalar o de
razn) en que se encuentran.
Ejemplo: creencias religiosas: escala nominal.
1) Tipos de fruta: __________________________________.
2) Frecuencia de cualquier evento: _____________________________.
3) Resultados en un examen de seleccin, considerando los resultados obtenidos de la
siguiente forma 0-49 (no acreditan) y 50-100 (acreditan): _______________________.
4) El orden de los profesores segn su capacidad de enseanza: ___________________.
5) Das de la semana: ______________________________.
Actividad 7.
Instrucciones: a continuacin se presenta una serie de enunciados con informacin referente
al tema 1. Debes leer cuidadosamente y encontrar la respuesta en la sopa de letras que se
muestra a continuacin.
1. Es asignar un nmero a objetos o hechos de acuerdo a reglas.
2. Es uno de los autores que destacan por haber propuesto mediciones
cuantitativas en psicologa.
3. Es uno de los papeles fundamentales que se le asigna a la ciencia respecto al
tema de medicin.
4. Proceso psicolgico que puede ser medible.

5. Es una de las cuatro escalas de medicin que se emplean en psicologa y las
ciencias sociales.
6. Estadstico empleado cuando se emplea la escala intervalar.
7. Es un ejemplo de la escala nominal.
M E D I R W Z A L M E I O V Y O
I A G N E C F I E Q R F F K J A
Z X C V L B N M L K H G E I D
N K O I P I U Y T R E W D A S
C V E L G O P Q D N J K I O N A
W V F G I U E M N C X Z L J Z I
F E H I O L I D F G V N U N O C
A F E O N I L N B X C A L O N
R T Y U J T O P N V R I N M E E
L D C Z C T E O Y G R F D S A G
G V B R T A E R U A L P V B I
D E I N B O C Z V O H I J M N L
A B C R S R T I H A L O P M I E
K N U U E I F D C P L O F W V T
A S T B I O L K N H I A O F G N
P R E D I C C I O N H I R D V I
L W I D W E F K J U O G F A B N
No olvides que estas actividades te sirven para verificar los conocimientos que has adquirido
hasta el momento o bien identificar si requieres reforzar algn contenido.

AUTOEVALUACIN
A continuacin se presenta una serie de reactivos que comprenden el contenido del tema 1,
lee con atencin lo que se te pide y contesta.
Actividad 1.
Instrucciones: se presenta una serie de enunciados incompletos. Lee atentamente, selecciona y
escribe en las lneas las palabras que completen la oracin. Debes seleccionarlas del recuadro
que se muestra a continuacin.
neurobiolgica - medir descripcin Weber contrastar inteligencia

explicacin introversin Galton - reglas prediccin hiptesis Thurstone
sociocultural .
a) La medicin le permite a los psiclogos ________________ empricamente las
_______________ planteadas.
b) La ______________________ y la ________________________ son ejemplos de conceptos
abstractos (constructos).
c) ______________ es asignar nmeros a objetos o hechos de acuerdo con ______________.
d) Propusieron mediciones cuantitativas en psicologa: _____________ , _______________ y
______________________.
e) La conducta humana se caracteriza por tener una base ________________ y
________________.
f) La ______________, __________________ y _________________ son papeles fundamentales
asignados a la ciencia.
Actividad 2.
Instrucciones: a continuacin se presentan tres columnas. Del lado derecho menciona los
tipos de variables, del lado izquierdo una caracterstica de cada escala de medicin y en el
centro los tipos de escalas, debes unir con una lnea (las tres columnas) el tipo de escala con
su caracterstica y variable correspondiente.
Caracterstica Tipo de escala Variable
Indica magnitud y no posee

Nominal
un cero absoluto.
Categoras. Razn o proporcin Cualitativa
Indica igualdad y posee un

Ordinal Cuantitativa
cero absoluto.
Grado de intensidad. Intervalar
Actividad 3.
Instrucciones: menciona tres ejemplos por cada tipo de escala de medicin. Debes colocarlos
en las lneas que se encuentran debajo de cada nombre.
Nominal Ordinal Intervalar Razn

Nominal Ordinal Intervalar Razn
Actividad 4.
Instrucciones: a continuacin se presenta un cuadro comparativo sobre los tipos de escalas y
algunos de los procedimientos estadsticos que se relacionan con cada una de ellas, debers
colocar una X en el espacio correspondiente vinculando dicha informacin.
Ejemplo:
Frecuencia
Escala Nominal X
Tipo de escala Procedimiento estadstico
Mediana Ji cuadrada Media geomtrica Correlacin
Nominal
Ordinal
Intervalar
Razn
Revisa la seccin de Materiales de Consulta para este tema con el objetivo de profundizar
tus conocimientos.
SLO PIENSA...
Recuerdas la puntuacin del examen ms reciente
que hayas realizado. Ahora bien, Qu porcentaje
de esa puntuacin consideras que representa tu
capacidad verdadera y qu porcentaje, el error?
TEMA 2. CONFIABILIDAD
2.1 Definicin de confiabilidad
Confiabilidad es sinnimo de seguridad o consistencia. En sentido amplio, en el lenguaje de
la psicometra, confiabilidad se refiere al atributo de consistencia en la medicin (Cohen,
2006).
Existen diferentes tipos y grados de confiabilidad. Un coeficiente de confiabilidad es un
ndice de confianza, una proporcin que indica la razn entre la varianza de la puntuacin
verdadera en una prueba y la varianza total (Cohen, 2006).
2.2 Mtodos para obtener los coeficientes de confiabilidad
a) Mtodo test-retest
La confiabilidad test-retest es una estimacin de la confiabilidad obtenida al correlacionar
pares de puntuaciones de las mismas personas en dos aplicaciones diferentes de la misma
prueba. La medida test-retest es apropiada cuando se valora la confiabilidad de una prueba
que pretende medir algo relativamente estable a lo largo del tiempo, como un rasgo de
personalidad. Si se supone que la caracterstica que se est midiendo flucta con el tiempo,
tendra poco sentido evaluar la confiabilidad de una prueba utilizando este mtodo (Cohen,
2006).
Una estimacin de la confiabilidad test-retest de un examen de matemticas podra ser
baja si quienes respondieron la prueba tomaron un curso de matemticas antes de que se les
aplicara sta por segunda vez. Una estimacin de la confiabilidad test-retest de un perfil de
personalidad podra ser baja si quien la responde sufri algn trauma emocional o recibi
orientacin durante el periodo intermedio (Cohen, 2006).
Una estimacin de la confiabilidad test-retest puede ser ms apropiada para calibrar la
confiabilidad de exmenes que emplean como medidas de resultados el tiempo de reaccin o
juicios perceptivos (como discriminaciones de brillantez, sonoridad o gusto). Sin embargo,
incluso al medir variables como sta y aun cuando el periodo entre las dos aplicaciones de la
prueba sea relativamente pequeo, ntese que pueden intervenir diversos factores (como
experiencia, prctica, memoria, fatiga y motivacin) y alterar una medida de confiabilidad
obtenida (Cohen, 2006).
b) Mtodo de formas paralelas y formas alternas
Aunque con frecuencia se usan de manera indistinta los trminos formas paralelas y formas
alternas, existe una diferencia entre ellos. Existen formas paralelas de una prueba cuando,
para cada forma del examen, las medias y las varianzas de las puntuaciones de la prueba
observada son iguales.
Las formas alternas, de modo simple, son versiones diferentes de una prueba que se han
construido para que sean paralelas. Aunque no cumplen con los requisitos para la asignacin
legitima de paralelas, las formas alternas de una prueba generalmente estn diseadas para
ser equivalentes con respecto a variables como contenido y nivel de dificultad (Cohen, 2006).
La obtencin de las estimaciones de confiabilidad de las formas paralelas y alternas es
similar en dos formas a la obtencin de un estimado de la confiabilidad test-retest (Cohen,
2006):
1) Se requieren dos aplicaciones de la prueba con el mismo grupo.
2) Las puntuaciones obtenidas pueden ser afectadas por factores como la motivacin, la
fatiga o eventos que intervienen en el manejo personal como la prctica, el aprendizaje
o la terapia.
c) Divisin en mitades
Se obtiene correlacionado dos pares de puntuaciones obtenidas de mitades equivalentes de
una sola prueba aplicada una sola vez. Es una til medida de confiabilidad cuando es poco
prctico o indeseable evaluar la confiabilidad con dos pruebas o hacer dos aplicaciones de
una misma prueba. El clculo de un coeficiente de confiabilidad de dividir en mitades por lo
general implica tres pasos (Cohen, 2006):
Paso 1. Dividir la prueba en mitades equivalentes.
Paso 2. Calcular la r de Pearson entre las puntuaciones en las dos mitades de la
prueba.
Paso 3. Ajustar la confiabilidad de una mitad de la prueba usando la frmula de
Spearman-Brown.
Una forma aceptable de dividir una prueba es asignar al azar las preguntas a una u otra
mitad de la prueba. Una segunda forma es asignar las preguntas con nmeros nones a una
mitad de la prueba y las identificadas con nmeros pares para la otra mitad. Este mtodo
produce una estimacin de la confiabilidad de dividir en mitades, a la que tambin se le llama
confiabilidad non-par (Cohen, 2006).

Finalmente, otros mtodos, adems de la frmula de Spearman-Brown, que se usan para
estimar la confiabilidad de la consistencia interna incluyen frmulas desarrolladas por Kuder
y Richardson (1973) y Cronbach (1951) (Cohen, 2006).
2.3 Incremento de la longitud del instrumento
Uno de los factores que influye en la confiabilidad de un test es su longitud, es decir, el
nmero de tems que lo componen. Cuantos ms tems representativos del rasgo a medir se
utilicen, mayor ser la informacin que obtengamos acerca del atributo que estemos
estudiando. Cabe pensar que tambin ser menor el error que cometamos al tratar de estimar
la puntuacin verdadera de un sujeto y, por lo tanto, la fiabilidad del test se incrementar.
Entonces, una forma de aumentar la confiabilidad del test es aumentar su longitud (Barbero,
2006).
Puede ser de inters, dado un cierto test, lograr un determinado nivel de confiabilidad
que hayamos establecido de antemano. Para ello, debemos conocer el nmero de tems que
habremos de aadir a los existentes. A este respecto, podemos recurrir a la frmula de
Spearman-Brown, tan solo con aplicar la siguiente expresin (Camacho, 1997):
Ejemplo:
Tenemos un test compuesto por 50 tems y cuya confiabilidad es de 0.8. Cuntos tems
deberamos incrementar para conseguir una fiabilidad de 0.9?
Apliquemos la expresin anterior:
K= 0.9 (1-0.8) = 2.25
0.8 (1-0.9)
Si inicialmente disponamos de 50 tems, ahora pasaremos a tener:
50 (2.25) = 112.5 = 113
En consecuencia, habremos de aadir: 113 50= 63 tems.
2.4 Estimacin del nmero de reactivos o tems para obtener una confiabilidad
significativa
El problema de determinar la longitud del test, o el nmero de tems que se van a evaluar en
cada uno de los objetivos incluidos en el test, constituye un problema crucial ya que de ello va
a depender la utilidad de las puntuaciones obtenidas en dicho test. Si el nmero de tems es
pequeo, la interpretacin que hagamos de las puntuaciones obtenidas tiene un valor
limitado. Si tenemos un test con pocos elementos, la estimacin del dominio ser imprecisa y
dar lugar a las clasificaciones que o bien son inconsistentes a lo largo de varias
presentaciones de formas paralelas, o no son indicativas del verdadero nivel de un sujeto; es
decir, se obtendrn calificaciones que son poco fiables (Barbero, 2006).
Por ejemplo, si el propsito que se persigue es el de poder establecer el grado de
maestra de un sujeto, la determinacin de la longitud del test est directamente relacionada
con el nmero de errores de clasificacin tolerables. Por otra parte, cuando el nmero de
elementos del test es elevado, se pueden asegurar valores de probabilidad de clasificacin
incorrecta mnimos. Cabe sealar que un excesivo nmero de tems tampoco es lo ms
adecuado debido a las limitaciones de tiempo, economa, etc. (Barbero, 2006).

Se pueden considerar dos maneras de reducir el nmero de errores que se pueden
cometer sin tener que aumentar la longitud del test. Por una parte, la utilizacin de modelos
bayesianos (Novick y Jackson, 1974, citados en Barbero, 2006) y, por otra parte, se pueden
utilizar mtodos basados en test computarizados (Eignor y Hambleton, 1979; Hambleton y
Eignor, 1978; Spineti y Hambleton, 1977; Wilcox, 1980; citados en Barbero, 2006).
A continuacin se presenta nicamente el modelo propuesto por Millman (1973, citado
en Barbero, 2006).
Modelo de Millman
El modelo propuesto por Millman (1973, citado en Barbero, 2006) est basado en el modelo
binomial. Considera la proporcin esperada de tems que un sujeto puede contestar
correctamente y considera sta como el nmero apto de la poblacin de items definidos y el
error mximo que se est dispuesto a tolerar.
Dicho modelo parte de los siguientes supuestos:
1) El test est compuesto por una muestra aleatoria de items dicotmicos.
2) La probabilidad de una respuesta correcta por parte de un sujeto es constante para
todos los items del test.
3) Las respuestas dadas a los items del test son independientes unas de otras.
4) Los errores se ajustan al modelo binomial, donde:
Prob(x/p): probabilidad de que un sujeto con una puntuacin p, conteste correctamente x
tems de un test que tiene n tems.

A partir de la siguiente ecuacin podemos calcular la longitud del test, supuesta una
determinada proporcin de aciertos:
Dnde:
n = nmero de tems del test.
Pc = proporcin de aciertos para ser considerado apto.
e = error mximo admisible.
Ejemplo:
Para un determinado test se ha establecido la proporcin de aciertos para ser considerado
apto en 0.85. Se desea saber cul es la longitud del test si estamos dispuestos a admitir un
error mximo de 0.05 y 0.02.
n =0.85(1-0.85) = 51 n= 0.85(1-0.85) = 318.75 = 319
0.052 0.022
En el primer caso tendramos 51 tems y admitiramos un margen de aciertos entre 0.80
y 0.90. En el segundo caso tendramos 319 tems y un margen de aciertos entre 0.83 y 0.87.
Ahora bien, es evidente que la fiabilidad de un test, como suma de un conjunto de tems
depender de la naturaleza de stos. Es decir, depende de tales tems y las relaciones entre
ellos. Es importante la naturaleza de cada tem, por cuanto de la calidad de los elementos
constituyentes derivar la bondad del conjunto. Adems, cuanto mejor construidos estn los
tems, menor nmero de ellos necesitaremos para configurar un buen test, logrando de esta
forma un instrumento ms sencillo y de ms fcil aplicacin (Camacho, 1997).

Debemos analizar tres aspectos constitutivos de los tems que inciden sobre la
confiabilidad del test, a saber: a) el ndice de discriminacin, b) el ndice de fiabilidad y c) el
ndice de dificultad. Todos ellos afectan, como veremos, a la varianza total del test, que incide
sobre la confiabilidad del mismo (Camacho, 1997).
Finalmente, se define como ndice de discriminacin del tem a la correlacin entre las
puntuaciones de un determinado tem y las puntuaciones totales del test. Se entiende que el
test sirve para discriminar entre unos sujetos y otros en relacin a un cierto rasgo de inters,
de forma tal que permita distinguir aquellos sujetos que presentan un nivel alto de aquellos
otros ms bajos en dicho rasgo. Segn esto, si la correlacin de un determinado tem con el
conjunto del test es elevado, dicho tem contribuir a distinguir unos sujetos de otros. A este
ndice se le suele llamar tambin ndice de homogeneidad, por cuanto expresa la contribucin de
dicho tem a medir lo mismo que el test en su conjunto (Camacho, 1997).
2.5 Tipo de error que afecta la confiabilidad
Una estadstica til para describir fuentes de variabilidad en las puntuaciones de una prueba
es la varianza, la desviacin estndar al cuadrado. Esta estadstica es til debido a que puede
fragmentarse en sus componentes. La varianza de las diferencias reales es la varianza
verdadera y la varianza de fuentes aleatorias irrelevantes es la varianza de error. En estos
trminos, la confiabilidad se refiere a la proporcin de la varianza total atribuida a la varianza
verdadera. Entre mayor es la proporcin de la varianza total atribuida a la varianza
verdadera, ms confiable es la prueba. Debido a que la varianza de error puede incrementar o
disminuir en cantidades variables una puntuacin de alguna prueba, se vera afectada la
consistencia en la puntuacin y por lo tanto en la confiabilidad (Cohen, 2006).
Las fuentes de error de varianza incluyen la construccin, administracin, calificacin
y/o interpretacin de la prueba (Cohen, 2006).

Construccin de pruebas. Una fuente de variaza durante la construccin de pruebas es
el muestreo de reactivos o muestreo de contenido, trminos que se refieren a la variacin
entre reactivos contenidos en una prueba, as como la variacin entre los reactivos de diversas
pruebas. El grado en que la puntuacin de un evaluado es afectada slo por el contenido de la
prueba as como por la forma en que es manejado dicho contenido (es decir, la forma en que
est construido dicho reactivo) es una fuente de varianza de error (Cohen, 2006).
Administracin de pruebas. Las fuentes de variaza de error que ocurren durante la
administracin de la prueba pueden influir en la atencin o motivacin de quien responde la
prueba; por lo tanto, sus reacciones ante estas influencias son la fuente de una clase de
varianza de error. Ejemplos de influencias desfavorables que operan durante la aplicacin de
una prueba incluyen factores relacionados con el ambiente durante la prueba: la temperatura
de la habitacin, el nivel de iluminacin y la cantidad de ventilacin y ruido.
Otras fuentes potenciales de varianza de error durante la aplicacin de la prueba
incluyen variables del examinado: los problemas emocionales, la incomodidad fsica, la
carencia de descanso y el efecto de drogas y medicamentos.
Finalmente, las variables relacionadas con el examinador tambin son parte de estas
fuentes. Entre ellas, la apariencia fsica y comportamiento del examinador y hasta la presencia
o ausencia de un examinador son factores a considerar (Cohen, 2006).

Calificacin e interpretacin de pruebas. El advenimiento de la calificacin
computarizada y una creciente dependencia de reactivos objetivos calificables por
computadora han eliminado la varianza de error causada por diferencias de los evaluadores
en muchas pruebas. Sin embargo, no todas las pruebas pueden calificarse con valos rellenos
con lpices del nmero 2. Las pruebas de inteligencia administradas de forma individual,
algunas de personalidad, de creatividad, diversas medidas conductuales y otras
innumerables pruebas todava requieren ser calificadas en forma manual por personal
capacitado.
Las personas que califican y los sistemas de calificacin son fuentes potenciales de la
varianza de error. Si la subjetividad est relacionada en la calificacin, el calificador o
evaluador puede ser una fuente de error. El elemento de la subjetividad en la calificacin
puede ser mucho mayor en ciertas pruebas no objetivas (Cohen, 2006).
Actividad 1.
Instrucciones: lee atentamente y contesta en tu cuaderno las siguientes preguntas.
1. Qu es la confiabilidad?
2. Desde tu punto de vista: por qu es importante la confiabilidad?
Actividad 2.
Instrucciones: realiza en tu cuaderno un cuadro comparativo sobre los tipos de confiabilidad
y sus caractersticas.
Actividad 3.
Instrucciones: lee atentamente y contesta.
Suponga que tenemos un test compuesto por 45 tems y cuya confiabilidad sea de 0.5.
Cuntos tems deberamos incrementar para conseguir una fiabilidad de 0.9?
Actividad 4.
Instrucciones: realiza en tu cuaderno un mapa conceptual sobre el tema de estimacin de
tems.
Actividad 5.
Instrucciones: realiza en tu cuaderno un cuadro sinptico sobre los tipos de errores que
afectan a la confiabilidad.

AUTOEVALUACIN
Actividad 1.
Instrucciones: a continuacin se presentan dos columnas, las cuales debers relacionar. La
columna de la izquierda contiene conceptos de los apartados que se revisaron en el tema 2 y
la columna de la izquierda las caractersticas. Anota dentro del parntesis la letra que
corresponda.
a. Confiabilidad ( ) Versiones diferentes de una prueba
b. Longitud de un instrumento ( ) Es sinnimo de consistencia
c. Test-retest ( ) Se basa en el modelo Binomial
d. Modelo de Millman ( ) Nmero de items que componen una prueba
( ) Se correlaciona dos pares de puntuaciones obtenidas

e. Formas Paralelas
de mitades equivalentes
f. Divisin por mitades ( ) Para tipo de examen las puntuaciones sern iguales
( ) Correlaciona pares de puntuaciones de las mismas

g. Formas alternas
personas en dos aplicaciones diferentes
Actividad 2.
Instrucciones: lee con atencin y responde en tu cuaderno.
Cules son los aspectos que constituyen a un tem?

Actividad 3.
Instrucciones: completa el siguiente mapa conceptual utilizando las palabras que se presentan
a continuacin en el siguiente recuadro.
Construccin de pruebas, motivacin, subjetividad,

carencia de descanso
Fuentes de error
que afectan a la
confiabilidad
Administracin Calificacin e
de pruebas interpretacin de
la prueba
Muestreo de
reactivos
Actividad 4.
Instrucciones: escribe en tu cuaderno los tres aspectos que constituyen a un tem.
tus conocimientos.
SLO PIENSA...
No siempre se es lo suficientemente cuidadoso en la medicin
de las variables. De no realizarse adecuadamente, quedarn
desvirtuadas de manera significativa las conclusiones obtenidas.
En estas circunstancias, qu valor tendrn nuestras decisiones?
Camacho (1997)
TEMA 3. ERROR DE MEDIDA
3.1 Error variable
Conocido tambin como errores conceptuales son consecuencia no tanto de medir mal una
determinada variable como medir equivocadamente otra en su lugar. Se trata de un problema
relativamente frecuente en psicologa donde no suele estar muy claro qu es lo que estamos
midiendo. Ocurre, por ejemplo, cuando utilizamos una prueba de razonamiento o de
vocabulario como expresin de la inteligencia, o bien cuando tomamos los ingresos como
indicativo del nivel social. Son errores que quedaran enmarcados dentro del tema de la
validez, que se estudiar ms adelante (Camacho, 1997).
3.2 Error estndar
El error estndar de medicin, abreviado SEM o SEM (por sus siglas en ingls) proporciona
una medida de la precisin en la puntuacin observada dentro de una prueba. Establecido de
otra forma, proporciona un estimado de la cantidad de error inherente en una puntuacin o
medicin observada (Cohen, 2006).
El error estndar de una medicin es la herramienta que se usa para estimar o inferir la
distancia hasta la cual una puntuacin observada se desva de una puntuacin verdadera. El
error estndar de una medicin se puede definir como: la desviacin estndar de una
distribucin que, en teora, se comporta normalmente, formada por las puntuaciones de
prueba obtenidas por una persona en pruebas equivalentes (Cohen, 2006).
3.3 Error constante
El error constante tambin puede recibir el nombre de error sistemtico y es aquel error que
siempre se produce en una misma direccin. Por ejemplo, una prueba puede medir siempre
ms; o bien, todos los individuos de un grupo que han realizado cierto test con diez minutos
menos del tiempo especificado en el manual; o bien, un encuestador induce sistemticamente
a una determinada respuesta. Todas estas situaciones darn lugar a respuestas sesgadas que
repercutirn en los estimadores obtenidos. Es obvio que la estadstica como tal poco tiene que
hacer con este tipo de errores, donde slo cabe ser cuidadoso en la planificacin y desarrollo
de toda la investigacin (Camacho, 1997).
3.4 Medidas de control
Si bien las pruebas son usadas por una variedad de profesionales, todos debern cumplir los
principios ticos correspondientes. La prueba debe guardarse para que su contenido
especfico no sea dado a conocer con anticipacin. Descripciones previas a la administracin
de la prueba, de los materiales que contiene la misma, en el caso de pruebas de inteligencia,
no son aconsejables pues podran comprometer los resultados (Miculik, s/f).
El que administra la prueba debe estar familiarizado con los materiales y
procedimientos de la prueba y tener todos los materiales necesarios para administrarla en
forma apropiada. Tambin debe asegurarse de que el saln en el que se realice la prueba sea
el adecuado, evitando condiciones distractoras como: ruido excesivo, calor, fro,
interrupciones, luz solar deslumbrante, hacinamiento, ventilacin inadecuada, etc. (Miculik,
s/f).
Es fundamental la empata entre el evaluador y el evaluado. En el contexto de situacin
de prueba, la empata puede definirse como una relacin de trabajo entre evaluador-
evaluado. Lograr la empata con el evaluado no debe alterar las condiciones de
administracin de la prueba. Existen otros factores que pueden influir en el desempeo en
pruebas de inteligencia como por ejemplo: que el evaluador sea familiar o no, que est
presente o ausente, y sus modales en general. Otro factor importante ha sido el gnero
(Miculik, s/f).
Actividad 1.
Instrucciones: lee atentamente y responde en tu cuaderno lo siguiente:
a) Cules son los errores de medida?
b) Qu es el error estndar?
c) Qu es el error variable?
d) Qu es el error constante?
Actividad 2.
Instrucciones: realiza en tu cuaderno un cuadro comparativo sobre los tipos de errores de
medida y sus caractersticas.
Actividad 3.
Instrucciones: realiza un en tu cuaderno un collage sobre las medidas de control que se deben
tener para evitar los errores de medida.

AUTOEVALUACIN
Actividad 1.
Instrucciones: elabora un ensayo donde englobes todos los subtemas referentes a los errores
de medida y su relacin con las medidas de control. Debers dar tu punto de vista sobre la
importancia del papel que desempea el psiclogo en la elaboracin, aplicacin y calificacin
de test o pruebas psicomtricas.
Actividad 2.
Instrucciones: para esta actividad debes buscar un artculo que hable sobre la elaboracin de
una prueba o instrumento psicomtrico. Debes elaborar un anlisis sobre lo que mide, en qu
escala se encontraban sus variables, la confiabilidad y las caractersticas que tienen como
medidas de control para evitar los errores de medicin.
tus conocimientos.
SLO PIENSA...
Por qu el trmino prueba vlida
es a veces engaoso?
Cohen (2006, p.156).
TEMA 4. VALIDEZ
4.1 Definicin de validez
La validez es un juicio o una estimacin acerca de que tan bien una prueba mide lo que
pretende medir en un determinado contexto. De manera ms especfica, es la elaboracin de
un juicio con base en la evidencia sobre lo apropiado de las diferencias realizadas a partir de
las puntuaciones de una prueba (Cohen, 2006).
Por su parte Camacho (1997) dice que la validez garantiza que medimos aquello que nos
proponemos (y no otra cosa). Un test es vlido si satisface nuestros objetivos. La validacin
hace referencia al proceso que permite ir depurando, delimitando y perfeccionando cada vez
ms nuestro instrumento de medida. As, el examen de teora de la medida ser vlido si
realmente permite medir los conocimientos que los estudiantes tienen de esa materia y no (tal
vez sin intencin) otra cosa.
Finalmente, Barbero (2006) dice que el trmino de validez hace referencia al grado en
que el test mide aquello que pretende medir. En este sentido, un test ser vlido para medir
razonamiento espacial, por ejemplo, si mide este tipo de razonamiento y no otra cosa.
4.2 Tipos de validez
La validacin es el proceso de recopilar y evaluar la validez de la evidencia. Tanto el creador
de la prueba como el usuario de la misma pueden desempear una funcin en la validacin
de una prueba para un propsito en especfico (Cohen, 2006).
Ahora bien, una manera en que los especialistas de la medicin tradicionalmente han
conceptualizado la validez es de acuerdo con tres categoras (Cohen, 2006):
1) Validez de contenido.
2) Validez relacionada con el criterio.
3) Validez de constructo.
Validez de contenido
La validez de contenido describe un juicio segn el cual se puede saber cun adecuadamente
una prueba es una muestra de la conducta representativa dentro del universo de conductas
que la prueba fue diseada para ejemplificar. Por ejemplo, el universo de comportamiento
calificado como asertivo tiene un rango muy amplio. Una prueba de asertividad, escrita, de
contenido vlido, ser la que represente adecuadamente este amplio rango. Podramos
esperar que dicha prueba contenga reactivos que sean una muestra de situaciones hipotticas
en el hogar (tales como si el respondiente tuviera dificultad para dar a conocer sus opiniones
a otros miembros de la familia), en el trabajo (como sera si quien responde tuviera dificultad
para pedir a sus subordinados que hagan lo que se requiere de ellos) y hasta en situaciones
sociales (tal como si quien responde devolviera un filete que no est cocinando de la forma en
la que l orden en un restaurante de lujo).

Respecto a las pruebas de rendimiento educativo, es usual considerar una prueba como
una medida de contenido vlido cuando la proporcin del cubierto de la prueba se aproxima
a la proporcin del material que se cubri durante el curso.
Para que una prueba de reclutamiento laboral tenga un contenido vlido, debe ser una
muestra representativa de las habilidades requeridas para el empleo y relacionadas con el
desempeo de un trabajo (Cohen, 2006).
Por tanto, la validez de contenido es una validez fundamentalmente terica o de
representacin. En la medida que un test registra una parcela de nuestro comportamiento
hemos de intentar garantizar que dicho test contenga una muestra relevante y representativa
(Messick, 1975, citado en Camacho 1997) del dominio que integra tal parcela de nuestra
conducta.
Crocker y Algina (1986, citados en Camacho, 1997) proponen los siguientes pasos en la
elaboracin de los contenidos adecuados de un test:
1. Definir el dominio o universo de contenidos objetivos del test.
2. Seleccionar un conjunto de expertos cualificados en dicho dominio.
3. Proporcionar un marco estructurado para el proceso de emparejar tems con el
dominio referido.
4. Recoger y resumir los datos resultantes del proceso de emparejamiento mencionado.
El primer punto es el punto relevante, ya que implica definir lo ms exhaustivamente
posible el universo de contenidos del test (cuadro de especificaciones del test), normalmente
en trminos de objetivos de instruccin o categoras de conducta, as como la ponderacin
que se asigna a cada uno de los contenidos de la prueba, si se entendiese que no todos los
objetivos o categoras tienen la misma importancia en el rasgo a medir.

La intencin es lograr un conjunto de tems que reflejen el dominio mencionado. Para
ello, se recurre al concurso de expertos a quienes se les entregarn junto con los objetivos a
medir, una serie de tems que debern emparejar con tales objetivos. Al final, se asegurar
que el test contiene todos los tems necesarios y en la proporcin adecuada.
Por ltimo, se ofrece un resumen estadstico de los resultados obtenidos, tal como el
porcentaje de tems que se emparejan a los objetivos, ndice de congruencia tem-objetivo,
correlacin entre el peso dado al objetivo y el nmero de tems que lo miden.
Validez relacionada con el criterio
La validez relacionada con el criterio (tambin denominada validez predictiva o validez de
pronstico) es un juicio de cun adecuadamente puede ser utilizada la puntuacin de una
prueba para inferir la posicin ms probable de un individuo con respecto a cierta medida de
inters siendo el criterio esa medida de inters . Dos tipos de evidencias de validez se
encuentran asumidas bajo el rubro de validez relacionada con el criterio: validez concurrente,
la cual es un ndice del grado en que se relaciona la puntuacin de una prueba con alguna
medida de criterio obtenida al mismo tiempo (de manera concurrente) que la puntuacin; y la
validez predictiva, que es un ndice del grado en que la puntuacin de una prueba predice
alguna medida de criterio (Cohen, 2006).
Antes de analizar cada uno de los tipos de validez, mencionados en el prrafo anterior,
parece apropiado plantear y responder: qu es un criterio? (Cohen, 2006).
Un criterio puede ser definido en forma amplia como el modelo contra el cual se
compara y evala una prueba o la puntuacin de una prueba. Desde el punto de vista
operativo, un criterio puede ser casi cualquier cosa: el desempeo de un piloto al volar un
Boeing 767, la calificacin en un examen de ondulacin de cabello, el nmero de das de
permanencia en hospitalizacin psiquitrica, etc. No hay reglas precisas de lo que constituye

un criterio; puede ser la calificacin de una prueba, una conducta especfica o un grupo de
comportamientos, una cantidad de tiempo, una estimacin, un diagnstico psiquitrico, un
costo de capacitacin, un ndice de ausentismo, un ndice de intoxicacin alcohlica, etc.
Cualquiera que sea el criterio, de manera ideal es relevante, vlido y sin contaminacin
(Cohen, 2006).
Ahora bien, la validez concurrente es cuando el test y el criterio se miden al mismo
tiempo (o casi) (Camacho, 1997); es decir, si las calificaciones de una prueba se obtienen ms o
menos al mismo tiempo que las medidas del criterio, entonces las medidas de relacin entre
las calificaciones de la prueba y el criterio proporcionan evidencia de este tipo de validez. Las
declaraciones de la validez concurrente indican el grado en que las puntuaciones de una
prueba pueden servir para estimar la posicin actual de un individuo frente a un criterio. Si,
por ejemplo, las puntuaciones (o clasificaciones) hechas con base en una prueba de
psicodiagnstico debieran validarse contra un criterio de pacientes psiquitricos ya
diagnosticados, el proceso a seguir sera uno de validacin concurrente. En general una vez
que se ha establecido la validez de la inferencia de las calificaciones, la prueba puede
proporcionar una forma ms rpida y menos costosa para ofrecer un diagnstico o una
decisin de clasificacin (Cohen, 2006).
Por otra parte, cuando el criterio se mide con posterioridad al test, nos encontramos con
la validez predictiva o de pronstico (Camacho, 1997). Es decir, las calificaciones de la
prueba se pueden obtener en cierto momento y las medidas de criterio en uno posterior,
usualmente despus de que algn evento mediador ha ocurrido. Dicho evento podra ser la
capacitacin, la experiencia, alguna terapia, alguna medicin o tan slo el paso del tiempo.
Las medidas de la relacin que existen entre las puntuaciones de la prueba y una medida
criterio obtenida en un momento futuro nos dan un indicio de la validez predictiva de la
prueba; es decir, con cunta precisin las pruebas predicen alguna medida de criterio. Por
ejemplo, las medidas de la relacin entre las pruebas de admisin a la universidad y los
promedios de calificaciones de un estudiante universitario de primer ao, son evidencia de la
validez predictiva de dichas pruebas (Cohen, 2006).
Validez de constructo
La validez de constructo es un juicio acerca de lo apropiado de las inferencias realizadas a
partir de las puntuaciones o calificaciones obtenidas en la prueba, respecto a posiciones
individuales en una variable llamada constructo. Un constructo es una idea informada,
cientfica, desarrollada como una hiptesis para describir o explicar el comportamiento. Por
ejemplo: la inteligencia es un constructo que puede ser citado para describir por qu un
estudiante se desempea bien en la escuela. Ansiedad es un constructo al que se puede
recurrir para describir por qu un paciente psiquitrico va y viene por la habitacin. Otros
ejemplos de constructos son: personalidad, depresin, motivacin, autoestima, ajuste
emocional, creatividad, entre otros (Cohen, 2006).
La validez de constructo, a diferencia de los otros tipos de validez, es fundamentalmente
conceptual, terica; busca la comprensin ms que la funcionalidad e intenta responder el qu
es, de qu factores depende, cmo se entrelaza con otros aspectos (Camacho, 1997).
Finalmente, los constructos son rasgos inobservables, supuestos (subyacentes) a los que
un desarrollador de pruebas puede recurrir para describir el comportamiento de su prueba o
el desempeo del criterio evaluado. El investigador que analiza la validez de constructo de
una prueba debe formular varias hiptesis acerca del comportamiento esperado en quienes
obtienen puntajes altos y en quienes obtienen puntajes bajos (Cohen, 2006).

4.3 Error que afecta la validez
Uno de los errores que afecta a la validez es el error de estimacin. Una estimacin es un
juicio numrico o verbal (o ambos) que coloca a una persona o a un atributo a lo largo de un
continuo identificado por una escala de descriptores numricos o de palabras, conocido como
escala de estimacin. Planteado de forma ms simple, un error de estimacin es un juicio
resultante del mal uso intencional o no intencionado de una escala de estimacin. As, por
ejemplo, un error de lenidad (tambin conocido como error de generosidad) es, como su
nombre lo implica, un error de estimacin que surge de la tendencia por parte del evaluador
a ser benevolente al calificar, marcar y/o graduar (Cohen, 2006).
En el otro extremo se encuentra el error de la severidad. Los crticos de cine que critican
duramente casi todo lo que revisan pueden ser culpables de errores de severidad. Por
supuesto, esto slo es verdad si ellos han revisado una amplia gama de pelculas que podran
ser consideradas, de manera consensual, como buenas y malas (Cohen, 2006).
Otro tipo de error podra denominarse error de tendencia central. Aqu, el evaluador,
por cualquier razn, muestra una renuencia general y sistemtica al hacer evaluaciones en el
extremo positivo o negativo. En consecuencia, todas las evaluaciones tienden a agruparse en
medio de un continuo de estimacin (Cohen, 2006).
Por otra parte, el efecto de halo describe el hecho de que, para algunos evaluadores,
algunos evaluados no pueden equivocarse. De manera ms especfica, un efecto de halo
tambin puede ser definido como una tendencia a dar a una persona evaluada una estimacin
superior de la que merece en forma objetiva debido a la falla del evaluador para discriminar
entre aspectos distintos desde el punto de vista conceptual y potencialmente independientes
del comportamiento del evaluado (Cohen, 2006).

Finalmente, los datos de criterio tambin pueden ser influidos por el conocimiento del
evaluador respecto a la raza o gnero del evaluado (Landy y Farr, 1980, citados en Cohen,
2006). Se ha demostrado que los hombres reciben evaluaciones ms favorables que las
mujeres en ocupaciones consideradas masculinas por tradicin. Excepto en situaciones de
integracin muy alta, los evaluados tienden a recibir calificaciones ms elevadas por parte de
los evaluadores de la misma raza (Landy y Farr, 1980, citados en Cohen, 2006).
4.4 Mtodos para obtener la validez
Para la exposicin de este apartado nos basaremos en Martnez y rias (1995, citados en
Barbero, 2006), quienes mencionan que, cuando se quiere obtener un ndice numrico que
evidencie la validez de un test se pueden utilizar numerosos procedimientos, aunque los ms
utilizados estn basados en correlaciones. No obstante, la utilizacin de una tcnica u otra
depende del diseo de recogida de datos para la validacin y del nmero de variables
implicadas: a) un slo test predictor y un slo indicador del criterio, b) varios predictores y un
slo indicador del criterio, c) varios predictores cuantitativos y varios indicadores
cuantitativos y d) procedimientos basados en la teora de la decisin: validez y utilidad en las
decisiones.
a) Un slo test predictor y un slo indicador del criterio
Los procedimientos ms utilizados son la correlacin y el modelo de regresin lineal
simple. Segn la naturaleza de las variables implicadas se utilizar un tipo de correlacin u
otro (correlacin de Pearson, Biserial puntual, coeficiente Phi, etc.).
b) Varios predictores y un slo indicador del criterio

Hay veces que se utiliza una batera de test para poder predecir un solo criterio. En este
caso los procedimientos que se utilizan son la correlacin y regresin lineal mltiple. Si el
criterio es cualitativo, se suele utilizar otra tcnica multivariante denominada anlisis
discriminante y cuando se utilizan criterios dicotmicos, se usa la regresin logstica.
c) Varios predictores cuantitativos y varios indicadores cuantitativos
En este caso las tcnicas ms adecuadas son la regresin lineal multivariante y la
correlacin. Sin embargo, rara vez se utilizan a la hora de llevar a cabo un estudio de
validacin debido a la dificultad para interpretar los resultados que proporcionan.
d) Procedimientos basados en la teora de la decisin: validez y utilidad en las
decisiones
Los procedimientos propuestos se basan en diferentes mtodos para optimizar las
decisiones realizadas con el test: tcnicas de maximin y minimax y especialmente la Teora
de la utilidad multiatributo.
4.5 Anlisis factorial en la validez
El anlisis factorial es un trmino singular , abreviado, que es usado para describir una clase
de procedimientos matemticos diseados para identificar factores o variables especficas que
de manera particular son atributos, caractersticas o dimensiones en las que es posible inferir
(Cohen, 2006). Es quizs la tcnica ms utilizada, tanto en su vertiente exploratoria como
confirmatoria, para poner a prueba las hiptesis planteadas acerca de la estructura interna del
constructo y de las relaciones del mismo con otras variables. Es importante entender la
utilidad para el estudio de la validacin de constructo (Barbero, 2006).

Las medidas que proporcionan los tests pueden hacer referencia a variables
unidimensionales o multidimensionales y, precisamente, el anlisis factorial nos va a permitir
descubrir la estructura que subyace a las puntuaciones obtenidas por los sujetos en los
distintos tems del test o en un conjunto de tests (Barbero 2006).
Cuando el anlisis factorial se utiliza desde el enfoque exploratorio, no se establecen
hiptesis previas acerca del nmero de dimensiones, es la propia tcnica la que nos aportar
esta informacin (Barbero, 2006). Implica de manera caracterstica la estimacin o extraccin
de factores, la decisin de cuntos factores conservar y la rotacin de stos a una orientacin
interpretable (Floyd y Widaman, 1995, citados en Cohen, 2006).
Desde el enfoque confirmatorio, se establecen a priori hiptesis acerca de la estructura
subyacente y del nmero de dimensiones, y mediante las tcnicas oportunas se comprueba si
se pueden aceptar las hiptesis propuestas (Barbero, 2006). Es decir, se plantea la hiptesis de
una estructura factorial en forma explcita y se prueba su ajuste con la estructura de la
covarianza observada en las variables medidas (Floyd y Widaman, 1995, citados en Cohen,
2006).
Bajo el epgrafe Anlisis Factorial (AF), se incluyen una serie de tcnicas estadsticas que
tienen como objetivo representar y explicar un conjunto de variables observables (tems de un
test, conjunto de test, escalas, etc.) mediante un menor nmero de variables latentes o
inobservables llamadas factores. Cada factor podra ser considerado como un constructo
(variable latente) que vendra definido por las variables observables que lo conforman. stas
variables son las que van a permitir dar una interpretacin psicolgica del constructo (factor)
(Barbero, 2006).
Para llevar a cabo el anlisis factorial se parte de un conjunto de n medidas tomadas a la
misma muestra de sujetos en un conjunto de variables observables (supongamos que son las
puntuaciones obtenidas por una muestra de sujetos en los n items de un test) y, a partir de
ellas, se obtiene una matriz (n x n) con las intercorrelaciones entre todas ellas. Es a partir de
esta matriz de correlaciones cuando, aplicando alguna de las tcnicas estadsticas incluidas
bajo el epgrafe de Anlisis Factorial, se intenta identificar un nmero ms reducido de
variables llamadas factores. Cuando en un mismo factor se agrupan mltiples indicadores
del constructo, se obtiene evidencia de la validez convergente. Cuando en el anlisis se han
obtenido medidas de otros constructos y stas aparecen agrupadas en distintos factores, se
obtiene evidencia de la validez discriminante (Barbero, 2006).
4.6 Definicin de varianza de comunidad especfica
Uno de los ejemplos ms ilustrativos donde se ha aplicado el anlisis factorial ha sido en la
medicin de la inteligencia, como instrumento de ayuda en la conceptualizacin de la misma.
Supongamos a este respecto que no sabemos muy bien cules son las funciones que integran
la inteligencia, pero ms o menos conocemos conductas en las que suponemos se manifiesta
la misma, tales como: el dominio del vocabulario, comprensin de conceptos, ciertas
operaciones aritmticas, manejo de figuras geomtricas, etc. Sometemos a una serie de
personas al conjunto de items que suponemos expresan inteligencia y que aparecen en la
siguiente figura. Despus del anlisis estadstico obtenemos la matriz factorial de orden 9x3,
donde las filas representan las variables y las columnas, las dimensiones o factores, tal como
presentamos a continuacin (Camacho, 1997).

Variable Factor I Factor II Factor III Comunalidad
Vocabulario 0.85 0.02 0.12 0.737
Comprensin 0.74 0.14 0.01 0.567
Fluidez verbal 0.45 0.10 0.40 0.373
Sinnimos 0.75 0.03 0.04 0.565
Rompecabezas 0.11 0.76 0.09 0.598
Semejanzas 0.15 0.54 0.03 0.315
Figuras 0.01 0.67 0.21 0.531
Cubos 0.13 0.71 0.10 0.531
Sumas 0.35 0.29 0.86 0.750
Var. Explicada 2.21 1.93 0.98
Prop. Var. Exp. 24.54 21.52 10.88
Tabla 2. Matriz factorial con datos supuestos
En las columnas encabezadas por los factores se encuentran correlaciones de las
variables con dicho factor. A stos valores se les denominan saturaciones. Por ejemplo, en el
primer factor la prueba de vocabulario presenta una correlacin de 0.85, lo que se interpreta
como una varianza explicada de 0.73 por parte del factor respecto a dicha variable. Se
observa, igualmente, que hay ciertas familias de variables. As, la mencionada prueba de
vocabulario junto a la comprensin, fluidez verbal y sinnimos estn emparentadas por sus
saturaciones en el primer factor. Otro tanto sucede en el segundo factor con las pruebas de
rompecabezas, semejanzas, completar figuras y estructuracin de cubos. Hay por ltimo un
tercer factor, con saturaciones importantes en fluidez verbal y sumas (nmero de sumas). La
tabla se completa con una cuarta columna denominada Comunalidad que expresa el total de la
varianza de la prueba explicada por el conjunto de los factores. Si retomamos la prueba de
vocabulario tendremos que entre todos los factores explican 0.723 2+0.022+0.122 = 0.737; esto es,
el 41% de varianza de dicha prueba (Camacho, 1997).

Actividad 1.
Instrucciones: lee atentamente y responde en tu cuaderno.
1. Qu es la validez?
2. Desde tu punto de vista: por qu es importante la validez en la creacin de un instrumento
o prueba?
Actividad 2.
Instrucciones: realiza en tu cuaderno un cuadro sinptico sobre los tipos de validez.
Actividad 3.
Instrucciones: realiza en tu cuaderno un cuadro comparativo sobre los tipos de validez y sus
caractersticas.
Actividad 4.
Instrucciones: lee atentamente y responde en tu cuaderno.
1. Cul es la diferencia entre criterio y constructo?
2. Cul es la diferencia entre validez concurrente y predictiva?
3. Menciona y explica los tipos de errores que afectan a la validez.
4. Cules son los mtodos para obtener la validez?

Actividad 5.
Instrucciones: realiza en tu cuaderno un mapa conceptual sobre el anlisis factorial en la
validez.
Actividad 6.
Instrucciones: realiza en tu cuaderno un mapa conceptual sobre varianza de comunidad
especfica.
AUTOEVALUACIN
Actividad 1.
Instrucciones: completa las siguientes oraciones con las palabras que se presentan en el
siguiente recuadro.
Validez, validez de contenido, validez de criterio, validez de constructo,

criterio, constructo, validez predictiva, validez concurrente, estimacin.
1. _________________________ modelo contra el cual se compara una prueba o la puntuacin
de la misma.
2. __________________________ se dice que es cuando el test y el criterio se miden al mismo
tiempo.
3. __________________________ es una idea informada, cientfica, desarrollada como una
hiptesis para describir o explicar el comportamiento.
4. __________________________ es un juicio de cun adecuado puede ser utilizada la
puntuacin de una prueba para inferir la posicin ms probable de un individuo.
5. _________________________ es un juicio numrico o verbal que coloca a una persona a lo
largo de un continuo.
6. _________________________ a partir de sta, la prueba podr ayudar a predecir alguna
medida de criterio.
7. __________________________ es fundamentalmente conceptual, terica, busca la
comprensin ms que la funcionalidad.
8. ___________________________ describe un juicio de cun adecuadamente una prueba es
una muestra de la conducta representativa de un universo de conductas para la cual fue
diseada.
9. ___________________________ es un juicio de que tan bien una prueba mide lo que
pretende medir.
Actividad 2.
Instrucciones: lee atentamente y responde en tu cuaderno lo que se te pide.
1. Qu es el error de estimacin?
2. Qu es el error de severidad?
3. Qu es el error de tendencia central?
4. Qu es el efecto halo? Menciona un ejemplo.
5. Menciona y explica los mtodos para obtener la validez.
Actividad 3.
Instrucciones: elabora un cuadro sinptico en una hoja de rotafolio sobre el anlisis factorial
en la varianza y explcalo a tus compaeros.
Actividad 4.
Instrucciones: elabora en tu cuaderno un collage sobre la varianza de comunidad especfica y
los subtemas revisados en el tema 4.
tus conocimientos.
SLO PIENSA...
Por qu puede una prueba mostrar ser
vlida para su uso con un propsito
particular con los miembros de una
poblacin y no ser vlida para su
utilizacin con el mismo propsito, pero
con los miembros de otra poblacin?
(Cohen, 2006. p. 99).
TEMA 5. UNIDADES DE CALIFICACIONES
5.1 Unidades de calificacin. La comparacin con un evento o un estndar absoluto
El supuesto de unidimensionalidad establece que todos los tems de un test miden la misma
aptitud, lo que implica que cuando aplicamos ese test a una muestra de sujetos, es de esperar
que exista relacin entre las respuestas de los sujetos a diferentes tems. Es decir, las
respuestas del primer tem estn relacionadas con las respuestas al segundo tem, las del
primero con el tercero, y as en todos los posibles pares de tems que se puedan formar con el
test. Es lgico que ocurra de esta forma debido a que si todos los tems miden el mismo rasgo,
las respuestas de los sujetos van en la misma direccin en todos los tems. De este modo, los
sujetos con bajo nivel de aptitud tienden a responder incorrectamente en todos los tems
mientras que los sujetos con alto nivel de aptitud tienden a responder correctamente a los
tems. La dependencia estadstica entre los tems viene explicada por la dimensin
subyacente que se ha asumido. De este modo, si mantenemos constante la aptitud (que
explica el rendimiento en el test), las respuestas de los sujetos a un par de tems cualquiera
son estadsticamente independientes. En otras palabras, no existe relacin entre las respuestas
de los sujetos a diferentes tems para un mismo nivel de aptitud. Este supuesto implica que
las puntuaciones en los tems estn relacionadas entre s slo a travs de la variable latente
(Camacho, 1997).
5.2 Unidades de calificacin de comparacin interindividual
En el diagnstico clnico o en la orientacin vocacional, comnmente se presentan los
resultados de los test en forma de un perfil. Todas las distribuciones de los subtest se
convierten a la misma escala para que el perfil sea ms fcil de interpretar. La misma posicin
relativa en las varias subdistribuciones corresponder siempre al mismo puntaje; el perfil nos
da as una expresin directa de la relacin entre las posiciones del individuo en las
subdistribuciones (Magnusson, 1978).
5.3 Elaboracin y clasificacin de normas
Una norma en singular se usa en la literatura acadmica para referirse al comportamiento que
es usual, promedio, normal, estndar, esperado o tpico. La referencia a una variedad
particular puede especificarse por medio de modificadores como edad, como en norma de
edad. En un contexto psicomtrico, normas son los datos de desempeo en una prueba de un
grupo particular de evaluados, las cuales han sido diseadas para utilizarse como referencia
en la evaluacin e interpretacin de puntuaciones de pruebas individuales (Cohen, 2006).
Algunas de las muchas formas diferentes en que se pueden clasificar las normas son las
siguientes: normas de edad, normas de grado, normas nacionales, normas nacionales
ancladas, normas locales, normas de un grupo de referencia fijo, normas de subgrupo y
normas de percentil (Cohen, 2006).
a) Normas de Percentil. Son los datos crudos de una muestra de estandarizacin de una
prueba convertidos a una forma de percentil.

b) Normas de edad. Tambin conocidas como normas equivalentes de edad; normas
diseadas de manera especfica para servir como referencia en el contexto de la edad del
sujeto a prueba quien alcanz una puntuacin particular.
c) Normas de grado. Normas especficamente diseadas como una referencia en el
contexto de grado del que responde la prueba, quien alcanzo una puntuacin particular.
d) Normas nacionales. Normas derivadas de una muestra de estandarizacin
representativa de la poblacin en el nivel nacional.
e) Normas nacionales ancladas. Tabla de equivalencias de las calificaciones de dos
pruebas nacionalmente estandarizadas y diseadas de manera especfica para medir una
misma variable.
f) Normas locales. Informacin normativa acerca de cierta poblacin limitada, a menudo
de inters especfico del usuario de las pruebas.
g) Normas de subgrupo. Normas de cualquier grupo definido dentro de un grupo ms
grande.
5.4 Funcin de los parmetros, normas o escalas
La evaluacin con normas de referencia consiste en un mtodo de evaluacin y una manera
de derivar significado de las puntuaciones de las pruebas al evaluar la puntuacin individual
de un evaluado y compararla con las puntuaciones de un grupo de evaluados. En este
enfoque, el significado de una puntuacin individual en una prueba se entiende al
relacionarla con otras puntuaciones en la misma prueba (Cohen, 2006).

El objetivo comn de las pruebas con normas de referencia es proporcionar informacin
acerca de la posicin o el rango que ocupa un evaluado con respecto a un grupo de
comparacin (Cohen, 2006).
Actividad 1.
Instrucciones: realiza en tu cuaderno un mapa conceptual sobre las unidades de calificacin.
La comparacin con un evento o un estndar absoluto.
Actividad 2.
Instrucciones: realiza en tu cuaderno un mapa conceptual sobre unidades de calificacin de
comparacin interindividual.
Actividad 3.
Instrucciones: realiza en tu cuaderno una monografa sobre los tipos de normas.
Actividad 4.
Instrucciones: realiza un ensayo sobre la importancia de la normas en la elaboracin de
pruebas.

AUTOEVALUACIN
Actividad 1.
Para esta actividad tu asesor de contenido deber proporcionarte una prueba o test.
Instrucciones: con el material que te proporcion tu asesor debes analizar las unidades de
calificacin y normas; tambin debes identificar cul es su confiabilidad y validez. Por ltimo,
haz un comentario personal respecto a lo que encontraste y los temas revisados a lo largo del
curso.
Actividad 2.
Instrucciones: realiza en tu cuaderno una monografa donde englobes los temas revisados a lo
largo del curso incluyendo los que revisaste en este apartado. Debers explicarla a tu asesor.
tus conocimientos.
MATERIALES DE CONSULTA
SOCIALES
Artculo en archivo PDF electrnico.
Malo, S. D. (2008). La medicin en Psicologa como herramienta y como reflexin tica en el ejercicio
del Psiclogo. Psicogente, 11 (19): pp.46-51. Barranquilla, Colombia.: Universidad Simn
Bolvar. www.unisimonbolivar.edu.co/publicaciones/index.php/psicogente. Recuperado el 22
de enero 2013 en
http://portal.unisimonbolivar.edu.co:82/rdigital/psicogente/index.php/psicogente/article/view
File/78/90
Abstract:
Este artculo habla sobre la medicin en psicologa, su relacin con el ejerci profesional y la
tica profesional. De manera textual el artculo menciona que la medicin en psicologa
constituye una herramienta que le permite al psiclogo cuantificar caractersticas humanas y
objetivizar procesos de evaluacin. Las pruebas hacen parte de un proceso general
organizado para llegar a una impresin diagnstica, pero no se pueden convertir en el nico
medio de informacin. Los resultados obtenidos en las pruebas deben estar acompaados de
otras tcnicas o herramientas que le permitan al psiclogo establecer relaciones y obtener
finalmente una valoracin general. El manejo de estos instrumentos de medicin requiere de
una fundamentacin terica, de un conocimiento tcnico de los instrumentos y de un manejo
tico de los mismos. Mientras no se cumplan estos requerimientos, conceptos como medicin
en psicologa, evaluacin y psicometra, siempre sern motivo de cuestionamientos.

Archivo electrnico en PDF.
Gmez, P., Mitre y Reidl. (s/f). Caractersticas psicomtricas de los instrumentos: confiabilidad.
Facultad de Psicologa: UNAM. Recuperado el 18 de enero 2013 en
http://www.psicol.unam.mx/Investigacion2/pdf/METO11F.pdf
Abstract:
En este archivo electrnico encontrars el tema de confiabilidad. El concepto, la estabilidad
temporal, el muestreo de reactivos, homogeneidad de reactivos, la confiabilidad del
examinado y del calificador, que tiene que ver con el tema de errores en la confiabilidad.
Tambin, habla sobre las fuentes principales de error, la variacin dentro y entre una prueba,
as como los mtodos experimentales que se utilizan para obtener la confiabilidad como
formas paralelas, retest y mtodo por mitades.
Por otra parte, nos menciona los mtodos para calcular la consistencia interna de un
instrumento y finalmente, brinda una serie de referencias que puedes utilizar para
complementar tus conocimientos respecto a estos temas.

Camacho, V. C. et al. (s/f). Psicometra. Sevilla, Espaa. Recuperado el 22 de enero 2013 en:
http://personal.us.es/sangar/psicometria/psicome1.pdf
Abstract:
En este material encontrars lo siguiente: La medicin psicolgica, La Teora Clsica de los
Tests y su extensin congenrica, Fiabilidad, Validez, Procedimiento general de construccin
de una prueba o test, apndice y referencias bibliogrficas que te permitirn reforzar los
contenidos vistos hasta el momento y los que revisars ms adelante. Tambin se presenta
una serie de apndice como ejemplo de los temas a tratar y algunas referencias bibliogrficas
que te pueden servir para consultar otros materiales. Finalmente, respecto al tema de error de
medida encontrars los tipos de errores y sus consecuencias. ste es un subtema del tema
medicin psicolgica el cual es el tercer apartado antes de iniciar con los temas de
confiabilidad y validez.
TEMA 4. VALIDEZ
Referencia: Muiz, J. (2005). La validez desde una ptica psicomtrica. Universidad de Oviedo,
Espaa. Recuperado el 22 de enero de 2013 en
http://ojs.unam.mx/index.php/acom/article/download/14538/13865
Abstract:
En el archivo se ofrece una panormica general del estado actual de la validez desde un
punto de vista psicomtrico. Debido a su naturaleza, la medicin de las variables psicolgicas

conlleva una problemtica especial (Muiz, 1998), cualquiera que sea el enfoque que se utilice
para evaluarlas, constituyendo la validez del concepto central de la medicin. Aqu no se
emprende un anlisis de las implicaciones del enfoque psicomtrico de la validez para las
teoras psicolgicas de carcter conductual, vase al respecto Silva (1989). Se asume de
entrada que todo lo dicho sobre el proceso de validacin desde el punto de vista psicomtrico
es en gran medida, sino totalmente, aplicable a cualquier otro enfoque psicolgico que
pretenda explicar y predecir la conducta humana. Un tratamiento ms amplio y comprensivo
que el del presente trabajo puede consultarse en Muiz (2004).
Aragn, B. L. (2004). Fundamentos Psicomtricos en la evaluacin Psicolgica. Revista
electrnica de Psicologa Iztacala 7 (4). Facultad de estudios superiores Iztacala: UNAM.
Recuperado el 22 de enero 2013 en:
http://www.iztacala.unam.mx/carreras/psicologia/psiclin/vol7num4/Art3-2005-1.pdf
Abstract:
De manera textual este artculo menciona la importancia de la evaluacin psicolgica, ya que
por una parte, es el primer paso que nos conduce a la planeacin de la intervencin y, por
otra, nos sirve como punto de comparacin para determinar el xito de la terapia.
El objetivo del presente artculo es exponer algunos conceptos clave que caracterizan a la
evaluacin psicolgica y explicar cules son sus fundamentos psicomtricos. Se discute as el
concepto de medicin a la luz de lo que se mide en psicologa y cmo lo medimos. Asimismo,
se hace una diferenciacin entre medir conductas y medir atributos psicolgicos. Se seala la
importancia de la psicometra como una teora de la medida en la creacin de instrumentos

de evaluacin psicolgica que garanticen su validez cientfica; se describen posteriormente
dos de los requisitos indispensables que deben poseer los instrumentos de evaluacin
psicolgica: confiabilidad y validez. Se explican las diferentes puntuaciones que arrojan las
pruebas y cmo se interpretan, se sealan las partes que debe contener un reporte de
evaluacin psicolgica y se puntualizan algunas consideraciones ticas del proceso de
evaluacin psicolgica.
Finalmente, es importante sealar que retoma todos los aspectos que se han visto a lo largo de
este temario y menciona otros que servirn para comprender asignaturas posteriores.
GLOSARIO DE TRMINOS
Anlisis factorial: una clase de procedimientos matemticos que suelen emplearse como
mtodos para la reduccin de datos diseados para identificar variables en las que las
personas pueden diferir (o factores).
Confiabilidad: el grado al que se considera que las mediciones son consistentes o repetibles;
tambin, el grado al que las mediciones difieren de una ocasin a otra, como una funcin de
la medida del error.
Constructo: una idea fundamentada cientficamente y desarrollada o generada para describir
o explicar un comportamiento.
Correlacin: una expresin del grado y correspondencia de direccin entre dos cosas cuando
una de las cosas es de naturaleza continua.

Criterio: variable utilizada como indicador del constructo que se trata de predecir a partir de
las puntuaciones obtenidas por los sujetos en un test elaborado a tal efecto.
Formas paralelas: existen dos o ms versiones de la misma prueba cuando, para cada forma
de examen, las medias y las varianzas de las puntuaciones de la prueba observada son
iguales.
Inferencia: un resultado o deduccin lgico en un proceso de razonamiento.
Medicin: proceso de medir.
Medida: valor numrico asignado a un objeto o sujeto en el proceso de medir.
Medir: asignar un nmero a un objeto o sujeto en funcin del grado en que posea o
manifieste la variable de inters.
Norma: comportamiento o desempeo usual, promedio, normal, estndar, esperado o
habitual.
Percentil: puntuacin en un test, que indica el tanto por ciento de sujetos del grupo
normativo que dicha puntuacin deja por debajo.
Test: instrumento de medicin diseado especialmente para estudiar de un modo objetivo y
sistemtico el nivel de los sujetos respecto a algn atributo o caracterstica.
Validez: trmino general que se refiere a un juicio respecto de que tan bien miden una prueba
u otra herramienta de medicin lo que se supone que deben medir.

Varianza: medida de variabilidad, definida como el promedio de las diferencias al cuadrado
de cada puntuacin respecto a su media.
FUENTES DE INFORMACIN
Bibliografa Bsica:
Bender, L. (1984). Test gestltico visomotor, usos y aplicaciones clnicas. Mxico: Paids.
Hohzman, W. H. (2010). Gua para la supervivencia del estudiante. Mxico: Trillas.
Manckick, N. (2002). El libro de los tests, usted y los otros. Mxico: Gedisa.
Swerdlik, M. (2006). Pruebas y evaluacin psicolgicas, introduccin a las pruebas y a la medicin.
Mxico: McGraw Hill.
Bibliografa Complementaria:
Alvarado, I. J. M. y Santisteban, R. C. (2006). La validez en la medicin psicolgica. Madrid:
Universidad Nacional de Educacin a Distancia.
Barbero, G. M., Vila, A. E. y Surez, F. J. (2006). Psicometra. 2. ed. Madrid: Universidad
Nacional de Educacin a Distancia.
Camacho, M. C. y Snchez, G. E. (1997). Psicometra. Sevilla, Espaa: KRONOS.
Cohen, R. y Swerdlik, M. (2006). Pruebas y evaluacin psicolgicas, introduccin a las pruebas y a la
medicin. 6 ed. Mxico: McGraw Hill.
Magnusson, D. (1978). Teora de los test. Mxico: Trillas.
Pagano, R. (1999). Estadstica para las ciencias sociales y del comportamiento. 7 ed. Mxico:
Thomson.
Referencias Electrnicas:
Miculik, I. (s/f). Construccin y adaptacin de pruebas psicolgicas. Universidad de Buenos Aires,
Argentina. Consultado el 18 de enero 2013 en
http://23118.psi.uba.ar/academica/carrerasdegrado/psicologia/informacion_adicional/obligato
rias/059_psicometricas1/tecnicas_psicometricas/archivos/f2.pdf
ANEXOS
RESPUESTAS DE LAS AUTOEVALUACIONES
SOCIALES
Actividad 1.
Instrucciones: se presenta una serie de enunciados incompletos lee atentamente,
selecciona y escribe en las lneas las palabras que completen la oracin, debes seleccionarlas
del recuadro que se muestra a continuacin.
neurobiolgica - medir descripcin Weber contrastar inteligencia explicacin

introversin Galton - reglas prediccin hiptesis Thurstone sociocultural .
a) La medicin le permite a los psiclogos contrastar empricamente las hiptesis planteadas.
b) La inteligencia y la introversin son ejemplos de conceptos abstractos (constructos).
c) Medir es asignar nmeros a objetos o hechos de acuerdo con reglas.

d) Propusieron mediciones cuantitativas en psicologa: Weber, Galton y Thurstone.
e) La conducta humana se caracteriza por tener una base neurobiolgica y sociocultural.
f) La descripcin, explicacin y prediccin son papeles fundamentales asignados a la ciencia.
Actividad 2.
Instrucciones: a continuacin se presentan tres columnas. Del lado derecho menciona los
tipos de variables, del lado izquierdo una caracterstica de cada escala de medicin y en el
centro los tipos de escalas. Debes unir con una lnea (las tres columnas) el tipo de escala con
su caracterstica y variable correspondiente.
Caracterstica Tipo de escala Variable
Indica magnitud y no posee

Nominal
un cero absoluto.
Categoras. Razn o proporcin Cualitativa
Indica igualdad y posee un

Ordinal Cuantitativa
cero absoluto.
Grado de intensidad. Intervalar
Actividad 3.
Queda sujeta al criterio del asesor.

Actividad 4.
Instrucciones: a continuacin se presenta un cuadro comparativo sobre los tipos de escalas y
algunos de los procedimientos estadsticos que se relacionan con cada una de ellas. Debers
colocar una X en el espacio correspondiente vinculando dicha informacin.
Ejemplo:
Frecuencia
Escala Nominal X
Tipo de escala Procedimiento estadstico
Mediana Ji cuadrada Media geomtrica Correlacin
Nominal X
Ordinal X
Intervalar X
Razn X
Actividad 1.
Instrucciones: a continuacin se presentan dos columnas, las cuales debers relacionar. La
columna de la izquierda contiene conceptos de los apartados que se revisaron en el tema 2 y
la columna de la izquierda las caractersticas. Anota dentro del parntesis la letra que
corresponda.
a. Confiabilidad ( g ) Versiones diferentes de una prueba
b. Longitud de un instrumento ( a ) Es sinnimo de consistencia
c. Test-retest ( d ) Se basa en el modelo Binomial
d. Modelo de Millman ( b ) Nmero de items que componen una prueba
( f ) Se correlaciona dos pares de puntuaciones obtenidas

e. Formas Paralelas
de mitades equivalentes
( e ) Para cada tipo de examen las puntuaciones sern

f. Divisin por mitades
iguales
( c ) Correlaciona pares de puntuaciones de las mismas

g. Formas alternas
personas en dos aplicaciones diferentes
Actividad 2.
Queda sujeto al criterio del asesor.
Actividad 3.
Instrucciones: completa el siguiente mapa conceptual utilizando las palabras que se presentan
a continuacin en el siguiente recuadro.
Construccin de pruebas, motivacin, subjetividad,

carencia de descanso.
Fuentes de error
que afectan a la
confiabilidad
Construccin de Administracin Calificacin e

interpretacin de la
Pruebas de pruebas
prueba
Muestreo de Iluminacin Carencia de Subjetividad

reactivos descaso
Actividad 4.
Instrucciones: Menciona y escribe en tu cuaderno los tres aspectos que constituyen a un tem.
R= ndice de discriminacin, ndice de fiabilidad e ndice de dificultad.
Actividad 1 y 2.
Quedan sujetas al criterio del asesor de contenidos, cada actividad equivale a un 50%.
TEMA 4. VALIDEZ
Actividad 1.
Instrucciones: completa las siguientes oraciones con las palabras que se presentan en el
siguiente recuadro.
Validez, validez de contenido, validez de criterio, validez de constructo,

criterio, constructo, validez predictiva, validez concurrente, estimacin.
1. Criterio modelo contra el cual se compara una prueba o la puntuacin de la misma.
2. Validez concurrente se dice que es cuando el test y el criterio se miden al mismo tiempo.
3. Constructo es una idea informada, cientfica, desarrollada como una hiptesis para
describir o explicar el comportamiento.
4. Validez de criterio es un juicio de cun adecuado puede ser utilizada la puntuacin de una
prueba para inferir la posicin ms probable de un individuo.
5. Estimacin es un juicio numrico o verbal que coloca a una persona a lo largo de un
continuo.
6. Validez predictiva a partir de sta, la prueba podr ayudar a predecir alguna medida de
criterio.
7. Validez de constructo es fundamentalmente conceptual, terica, busca la comprensin ms
que la funcionalidad.
8. Validez de contenido describe un juicio de cun adecuadamente una prueba es una
muestra de la conducta representativa de un universo de conductas para la cual fue diseada.
9. Validez es un juicio de que tan bien una prueba mide lo que pretende medir.
ACTIVIDAD 2, 3 Y 4.
Quedan sujetos al criterio del asesor ya que debe existir una PARTICIPACIN activa y
dentro del aula.
Slo se realizarn dos actividades de autoevaluacin ya que estas son de anlisis y prctica.
Actividad 1.
El asesor debe proporcionar una copia de un test o prueba de los aspectos generales para que
el alumno pueda desarrollar la actividad, asimismo queda a criterio del asesor la calificacin
de sta.
Actividad 2.
Queda sujeta al criterio del asesor, ya que debe ser expuesta en una de las ltimas sesiones.
NOMBRE DE LA PRCTICA:
Construccin de reactivos
ASIGNATURA: CLAVE:
Teora de la medida B11
REA DE CONOCIMIENTO: DURACIN (nmero de sesiones)
Psicologa general 2
OBJETIVO:
Que el alumno distinga las caractersticas y usos de los diferentes tipos de reactivos, as
como que se ejercite en la elaboracin de reactivos.
PROCEDIMIENTO:
El alumno investigar previamente las caractersticas de los diferentes tipos de
reactivos.
Dado un tema especfico, los estudiantes elaborarn 5 reactivos de cada uno de los
siguientes tipos: falso-verdadero; seleccin mltiple; apareamiento; jerarquizacin;
completamiento y respuesta breve.
Se leern y discutirn en grupo para las correcciones y observaciones pertinentes.

NOMBRE DE LA PRCTICA:
Elaboracin de un instrumento de medida
ASIGNATURA: CLAVE:
Teora de la medida B11
REA DE CONOCIMIENTO: DURACIN (nmero de sesiones)
Psicologa general 10
OBJETIVO:
Que el alumno elabore un primer instrumento de medicin, el cual retomar el siguiente

cuatrimestre en la asignatura de medicin y cambio de actitudes.
PROCEDIMIENTO:
Primera Fase:
Definicin de la actitud (investigacin documental) a medir.

Elaboracin de reactivos
Definir y fundamentar el tipo de escala a utilizar.
Investigacin documental de tres artculos de investigaciones recientes relacionados
con su tema.
Presentacin de informe final.

Teoría de La Medida ME

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Teoría de La Medida ME

Enviado por

Direitos autorais:

Formatos disponíveis

Asignatura

QFB Argelia Hernndez Espinoza

Presentacin del material...

Estructura didctica de la asignatura...

I. Objetivo general de la asignatura..

II. Contenido temtico.

III. Metodologa de trabajo

IV. Criterios e instrumentos de evaluacin

contenidos educativos de acuerdo a los tiempos y formas que favorezcan el trabajo

autorregulado de los estudiantes. En este sentido, contar con un material de estudio

obligatorio, en el que se presentan desarrollados el cien por ciento de contenidos

metas educativas establecidas.

temas de la forma ms pertinente y favorecer la adquisicin de habilidades que

promuevan el aprendizaje autodirigido y autorregulado.

Es necesario mencionar que el presente material ofrece una base importante de

informacin que ser el punto de partida para investigaciones y construcciones ms

principales de este proceso educativo estudiante y asesor comenzarn la

construccin y aprehensin de los nuevos conocimientos.

El material se compone de una serie de elementos didcticos que permite la

construccin progresiva y efectiva de los aprendizajes esperados, por lo que integra

actividades de aprendizaje y de autoevaluacin, as como materiales de consulta que

facilitarn el proceso de enseanza-aprendizaje.

asignatura de Teora de la Medida, correspondiente a la Licenciatura de Psicologa, en

comprende el programa de estudios.

En el primer tema se presenta una introduccin sobre la medicin en psicologa, as

como en las ciencias sociales. En el segundo tema se abordarn aspectos de

Para desarrollar lo anterior, el material est integrado por una actividad de

autodiagnstico, desarrollo de contenidos, ejemplos y serie de actividades que sern

parte de tu evaluacin; asimismo, este recurso est complementado con algunas

referencias bibliogrficas y electrnicas que te permitirn ampliar tus conocimientos.

I. OBJETIVO GENERAL DE LA ASIGNATURA

Al finalizar el curso, el alumno aplicar los mtodos, tcnicas y procedimientos de

medicin de los procesos psicosociales bajo criterios estrictos de validez y confiabilidad,

a fin de lograr la efectiva aplicacin y construccin de instrumentos en problemas

II. CONTENIDO TEMTICO

1. INTRODUCCIN A LA MEDICIN EN PSICOLOGA Y EN CIENCIAS

1.1 Medicin en las ciencias.

1.2 Importancia de la medicin en psicologa.

1.3 Las matemticas y la estadstica en la medicin.

1.4 Escalas de medicin (sus criterios y parmetros; nominal, ordinal, de razn y de

intervalo y el tipo de operaciones estadsticas que soportan).

2.1 Definicin de confiabilidad.

2.2 Mtodos para obtener los coeficientes de confiabilidad.

2.3 Incremento de la longitud del instrumento.

2.4 Estimacin del nmero de reactivos o tems para obtener la confiabilidad

2.5 Tipo de error que afecta a la confiabilidad.

3.1 Error variable.

3.2 Error estndar.

3.3 Error constante.

3.4 Medidas de control.

4.1 Definicin de validez.

4.2 Tipos de validez.

4.3 Error que afecta la validez.

4.4 Mtodos para obtener la validez.

4.5 Anlisis factorial en la validez.

4.6 Definicin de varianza de comunidad especfica.

5.1 Unidades de calificacin. La comparacin con un evento o un estndar absoluto.

5.2 Unidades de calificacin de comparacin interindividual.

5.3 Elaboracin y clasificacin de normas.

5.4 Funcin de los parmetros, normas o escalas.

Revisin grupal o individual de actividades de aprendizaje.

IV. CRITERIOS E INSTRUMENTOS DE EVALUACIN

Entrega de las actividades prcticas que se mencionan al trmino de cada unidad