Diseño de Examen Residual de Conocimientos y Habilidades

“DISEÑO DE EXAMEN RESIDUAL DE CONOCIMIENTOS Y
HABILIDADES PARA LA ASIGNATURA DE CIENCIAS II, CON

ÉNFASIS EN FÍSICA, PARA NIVEL SECUNDARIA BÁSICA.”
Introducción.
Uno de los problemas más complejos que enfrenta la educación mexicana es la

evaluación de los aprendizajes. Sin duda alguna, se ha confundido siempre el
evaluar con el medir; comprobar el rendimiento o cualidades de los alumnos a través
del uso de instrumentos no válidos y mucho menos confiables para este cometido,
lo que tiene como consecuencia un sistema de evaluación sesgado. Esto es
claramente inadmisible si de verdad se quiere brindar una educación de calidad.
El proceso evaluativo debe ser considerado un sistema de indagación de los

avances en el aprendizaje de los alumnos, es decir, como un medio relevante de
mejora del proceso de enseñanza-aprendizaje. Su principal contribución es el
desarrollo óptimo de los procesos de aprendizaje y de enseñanza así como también
el desarrollo y promoción de los alumnos. La función docente que prestan los
profesores al servicio de la práctica evaluadora, no es solo el desarrollo de la
instrucción o transmisión de conocimientos, esto va más allá, se busca que el
docente brinde una formación intelectual en contenidos y estrategias cognitivas, el
logro de competencias y la educación en valores y actitudes de los alumnos como
ciudadanos de nuestra sociedad.
A la fecha la evaluación es un asunto importante en el entorno educativo. Gran parte

del personal inmerso en el ámbito está consciente de las implicaciones de evaluar
y ser evaluado. Ya que, el objetivo de la evaluación es comprender lo que
aprehende el alumno y la manera en que se da este desarrollo, lo que el docente
enseña y cómo lo enseña, los contenidos y las estrategias a través de las cuales se
logrará esta transformación.
En esta investigación se pretende diseñar un Examen Residual de Conocimientos

y Habilidades para la asignatura de Ciencias II, con énfasis en Física, para nivel
secundaria básica, a la par de ir mostrando una metodología sistemática, sobre el
diseño de pruebas estandarizadas, que como ya es sabido, permiten conseguir
resultados confiables puntuales, de los niveles de aprendizaje que alcanzan los
alumnos; y al mismo tiempo tener una perspectiva detallada que ayude en la toma
de decisiones en beneficio de la calidad educativa. Se abordan aspectos
metodológicos necesarios para la planeación consensuada de la evaluación del
aprendizaje, el diseño y elaboración de los instrumentos y algunas reflexiones
acerca del análisis e interpretación de la información para garantizar que las
decisiones tomadas sean válidas y por lo tanto útiles para la mejora del proceso
educativo.
La estructura general del presente trabajo, se desglosa en cinco capítulos, en cada

uno de ellos, se desarrollan contenidos relacionados con la investigación.
El primer capítulo es un acercamiento al problema detectado en el sistema

educativo mexicano por la falta de una sana cultura evaluadora en el proceso
educativo, debido a la sinonimia que existe entre los términos evaluar, medir y
calificar, y que el personal docente confunde, sesgando gravemente el proceso
evaluador.
El Segundo Capítulo contiene el Marco Teórico que permite identificar claramente

la estructura básica del proceso evaluador, el cual se da en tres sencillos pasos,
obtener la información, formular juicios y la toma de decisiones, esta estructura
permite ampliar el campo conceptual y competencial de la evaluación, según la
intencionalidad que se persiga con la misma.
En el Tercer Capítulo se describe la Metodología que se utilizó para el diseño y

construcción del Examen Residual de Conocimientos y Habilidades para la
asignatura de Ciencias II, con énfasis en Física, para nivel secundaria básica,
siendo presente investigación de tipo desarrollo tecnológico, ya que se hace uso
sistemático del conocimiento y la investigación encausados al diseño de
instrumentos pedagógicos, que permitan indagar y comprender auténticamente el
proceso de enseñanza-aprendizaje, con la finalidad de emitir juicios de valor
aislados de sesgos que velan las decisiones que son la base de la mejora y calidad
en el proceso educativo.
En el capítulo cuatro se analizan los resultados obtenidos por las pruebas de

validez, confiabilidad y poder de discriminación de los reactivos de los que se
constituye el instrumento.
Por último en el Quinto Capítulo podremos leer las Conclusiones del trabajo llevado
a cabo considerando las aportaciones que se espera brinde la implementación del
diseño del instrumento. Se describen algunas recomendaciones para posteriores
investigaciones y seguimiento en la mejora continua del instrumento.
Finalmente se presentan los anexos y la referencia bibliográfica utilizada durante la

investigación.
CAPÍTULO 1. Problema de investigación.
1.1. Planteamiento del problema.
Uno de los problemas más complejos que enfrenta la educación mexicana es la
evaluación de los aprendizajes. Sin duda alguna, se ha confundido siempre el
evaluar con el medir; comprobar el rendimiento o cualidades de los alumnos a través
del uso de instrumentos no válidos y mucho menos confiables para este cometido,
lo que tiene como consecuencia un sistema de evaluación sesgado. Esto es
claramente inadmisible si de verdad se quiere brindar una educación de calidad.
Este proceso evaluativo habituado en los sistemas educativos ha impedido
acrecentar los logros en los aprendizajes de los estudiantes, en particular en las
escuelas más alejadas del núcleo urbano. En efecto, los resultados escolares del
año 2000 difundidos por el Programa Internacional para la Evaluación del Estudiante
(PISA), dirigido por la Organización para la Cooperación y Desarrollo Económicos
(OCDE), desvelan insuficiencias que presentan los estudiantes en todos los niveles
educativos.
A la fecha la evaluación es un asunto sustancial en el entorno educativo. Gran parte
del personal que labora en el ámbito educativo está consciente de las implicaciones
de evaluar y ser evaluado en el proceso educativo. Ya que, la evaluación nos
permite comprender lo que aprehende el alumno y la manera en que se da este
desarrollo, lo que el docente enseña y cómo lo enseña, qué contenidos y a través
de qué estrategias se logrará esta transformación.
He aquí el interés de quienes se encuentran como activos participantes en la
formación básica, implementando estrategias que permitan el desarrollo
satisfactorio estudiantil, con la finalidad de que la evaluación colabore
destacadamente en la enseñanza y en la consecución del aprendizaje.
En México, en la década de los noventa del siglo pasado, la evaluación educativa
ha combinado el avance técnico de las pruebas estandarizadas a gran escala, con
la evaluación de los aprendizajes de los alumnos por parte de los docentes (SEP,
2012). En relación con lo anterior, es conveniente que las pruebas estandarizadas
no sean únicamente aplicadas a gran escala por el instituto encargado de la
evaluación educativa, sino que el docente que se encuentra inmerso en el contexto
cultural del centro educativo donde labora, sea capaz de diseñar y estandarizar sus
pruebas en concordancia con los aprendizajes esperados que el currículo demanda,
para medir el nivel de logro alcanzado por los alumnos, que además, permite regular
el proceso de enseñanza-aprendizaje.
En este estudio se pretende diseñar un examen residual de conocimientos y
habilidades para la asignatura de Ciencias II, con énfasis en Física, para nivel
secundaria a la par de ir mostrando una metodología sistemática, sobre el diseño
de pruebas estandarizadas, que como ya es sabido, permiten conseguir resultados
confiables puntuales, de los niveles de aprendizaje que alcanzan los alumnos; y al
mismo tiempo tener una perspectiva detallada que ayude en la toma de decisiones
en beneficio de la calidad educativa.
1.2. Justificación.
El enfoque actual de la evaluación de los aprendizajes no estriba en la
comprobación del logro de objetivos, por tal motivo se ha mudado a una práctica de
encauzamiento, regulación, reorientación y ordenación de los aprendizajes, para
mejorar el proceso educativo.
Este nuevo planteamiento de la evaluación centrada en el logro educativo, atiende
a las necesidades específicas de aprendizaje de cada uno de los estudiantes, lo
que se convierte en un aspecto sustantivo para mejorar este proceso en los tres
niveles que integran la Educación Básica. Tal como lo establece el Plan de estudios
2011, se debe “evaluar para aprender”. El propósito de la evaluación en el aula es
buscar las mejores oportunidades que propician el aprendizaje y desempeño de los
alumnos, a partir del rendimiento que obtienen en cada una de las evaluaciones que
presentan durante un ciclo escolar.
Un inconveniente que se presenta recurrentemente es la implementación de
instrumentos inválidos en el proceso de evaluación, lo que influye
perniciosamente en la valoración residual de conocimientos adquiridos por los
alumnos. Para compensar esta situación, se requiere que el docente diseñe o en su
defecto seleccione los instrumentos válidos de evaluación que considere aptos para
el acopio de información sustancial que adviertan oportunamente las necesidades
de aprendizaje del alumno.
El campo de estudio donde se desenvuelve esta investigación pertenece a la
evaluación sumativa o acumulativa, en la cual el objetivo que se persigue es
averiguar el dominio cognoscitivo del alumno, con la finalidad de ratificar el logro de
los aprendizajes, para asignar una calificación de aptitud o inaptitud, destrezas o
capacidades en función de los objetivos establecidos en el currículo.
Por tal motivo en esta investigación se pretende mostrar una metodología
estructurada para el diseño de pruebas válidas con aplicación estándar a la amplia
gama de asignaturas que se imparten en nuestro sistema educativo, que permitirán
recabar información objetiva de los aprendizajes alcanzados por el alumno. Aunque
para este caso en particular se realizó el estudio para la materia de Ciencias 2, con
énfasis en Física para nivel secundaria.
La profesión docente exige dar el mayor esfuerzo en la búsqueda de una sociedad
emancipada de la ignorancia, por lo cual se cree que brindado esta metodología se
facilitará el acopio de información objetiva que permita fortalecer las deficiencias de
aprendizaje personales de los alumnos, lo que repercute en la mejora cultural de
nuestra sociedad.
Este problema es grave ya que se corre el riesgo de hacer estimaciones sesgadas
sobre los aprendizajes alcanzados por el alumno, pero se cree que si el docente
emplea esta metodología para el diseño técnico-estructurado de los instrumentos
de evaluación se podrá disminuir esta oblicuidad hasta el punto de la erradicación.
1.3. Objetivos de la investigación.
1.3.1. Objetivo específico.
Diseño de examen residual de conocimientos y habilidades en la asignatura de
Ciencias II, con énfasis en Física, para nivel secundaria.
1.3.2. Objetivos particulares.

Desvelar la metodología que se siguió para la construcción de los ítems del
instrumento.
Capítulo 2. Marco teórico.
2.1. Evaluación.
El concepto de evaluación presenta concepciones diversas, que más bien puede
considerarse como la conjunción de componentes desiguales, con la finalidad de
sistematizarlo para lograr su adecuada funcionalidad. De tal forma que resulta
complicado pretender definir un concepto tan vasto de manera global por la infinidad
de vertientes que nos ofrece, por lo que al ser un término polisémico se debe
configurar una definición objetiva y operativa, teniendo en cuenta al hacerlo, el fin
de la educación.
No es el objetivo de este trabajo hacer una revisión exhaustiva del proceso evolutivo
del concepto de evaluación; sino más bien presentar la definición reconocida por la
colectividad de investigadores y académicos dedicados a la evaluación educativa a
nivel internacional la cual compagina con el modelo educativo que descuella en la
actualidad y al cual pretendemos adherirnos lo que nos permite una base sólida en
que sustentar esta investigación.
Para Jornet (2009 citado en Leyva, 2010) se entiende por evaluación…”al proceso
sistemático de indagación y comprensión de la realidad educativa que pretende la
emisión de un juicio de valor sobre la misma, orientado a la toma de decisiones y la
mejora”. (p. 2)
También se ofrece el análisis de esta definición, destacando los siguientes
aspectos:
 Se trata de un proceso sistemático; es decir, la evaluación debe ser un
proceso racionalmente planificado como parte del desarrollo de la
enseñanza, de forma que no debe entenderse como algo aislado, ni
improvisado, ni desconectado del diseño y desarrollo de la docencia.
 … de indagación y comprensión de la realidad educativa; en este sentido, el
elemento fundamental radica en el acercamiento a la realidad para conocerla
adecuadamente y comprenderla, de forma que no puede darse una
evaluación de calidad si no se sustenta sobre un grado de comprensión
suficiente de la situación educativa de lo evaluado.
 … que pretende la emisión de un juicio de valor sobre la misma; finalmente
se requiere emitir un juicio de valor, basado en criterios objetivos u
objetivables, se entiende que un elemento de objetivación imprescindible en
el contexto de la evaluación educativa es el consenso intersubjetivo que
pueden manifestar expertos en educación acerca de la calidad de los
fenómenos educativos evaluados.
 … orientado a la toma de decisiones; es la base necesaria para poder tomar
decisiones –de cualquier tipo, sean de mejora (evaluación formativa) o de
rendición de cuentas (evaluación sumativa) –.
 … y la mejora; sólo puede entenderse que una evaluación es de calidad, si
permite identificar no sólo los elementos que requieren mejora, sino el cómo
dinamizar el proceso de mejora o innovación, es decir, el carácter formativo
se identifica como un componente fundamental para cualquier evaluación.
Como más adelante analizaremos, el concepto formulado presenta una estructura
básica necesaria que nos permite concebir una auténtica evaluación.
2.1.1. Estructura de la evaluación.

En la raíz de la concepción actual de la evaluación, hay una estructura básica
característica, sin cuya presencia no es posible concebir la auténtica evaluación. Ya
que debemos considerarla como un proceso sistemático abierto y contextualizado,
enfocado en la contemplación de acciones integrales de desarrollo; cumpliendo una
serie de pasos sucesivos durante el proceso, lo que posibilita que se puedan dar las
tres características esenciales e irrenunciables de toda evaluación (Castillo, 2010):
1. Obtener información. Mediante la aplicación de procedimientos válidos y
fiables para conseguir datos e información sistemática, rigurosa, relevante
y apropiada que fundamente la consistencia y seguridad de los resultados
de la evaluación.
2. Formular juicios. Los datos obtenidos deben permitir fundamentar el
análisis y valoración de los hechos que se pretende evaluar, para que se
pueda formular un juicio de valor lo más ajustado posible.
3. Tomar decisiones. De acuerdo con las valoraciones emitidas sobre la
relevante información disponible, se deberán tomar las decisiones que
convenga en cada caso. (p. 17)
Castillo (2010) nos dice que para obtener la información es necesario contar con
suficientes instrumentos de evaluación que nos faciliten dicha información, que una
vez analizada debe permitirnos el establecimiento de juicios, que pueden tener un
carácter predictivo o no, pero que son consecuencia del análisis de los datos
obtenidos. El acopio de esta información facilitará un mejor análisis para tomar la
mejor decisión respecto a las necesidades detectadas en el proceso de aprendizaje-
enseñanza.
Esta estructura permite ampliar el campo conceptual y competencial de la
evaluación, según la intencionalidad que se persiga con la misma. De cualquier
manera, la evaluación debe ser considerada como un instrumento de acción
pedagógica que permita adaptar la actividad educativo-docente a las características
individuales del alumno en su proceso de aprendizaje y comprobar si ha conseguido
las competencias básicas que persigue la finalidad educativa. “En resultado
tenemos un concepto de evaluación que no se reduce al hecho habitual de evaluar
sólo los contenidos, sino a tomar en cuenta los distintos aspectos que intervienen
en el proceso educativo de los alumnos: habilidades, actitudes y valores, y las
estrategias de aprendizaje, además de los aspectos en el proceso de enseñanza
que influyen en el aprendizaje: metodología empleada, comunicación con los
alumnos, nivel de exigencia, etc.” (Castillo, 2010, p. 19)
Por lo tanto, podemos mencionar algunas de las características significativas de la
concepción actual de la evaluación: continua, global, integradora, e individualizada,
reguladora del proceso educativo, para mejorarlo y personalizarlo.
Esta estructura básica es estacionaria, lo que si pueden cambiar son sus
circunstancias: el momento (cuando evaluar), las funciones (para qué evaluar), los
contenidos (qué evaluar), los procedimientos (cómo evaluar), los ejecutores
(quienes evalúan), etc. “En definitiva, la evaluación educativa tiene un contexto
determinado; un espacio o contenido sobre el que actúa; unos momentos
continuados a lo largo del proceso; y persigue unas finalidades u objetivos
formativos concretos.” (Castillo, 2010, p. 21)
2.1.2. Diferencias entre evaluación, calificación y medida.

Para lograr un mejor entendimiento del concepto de evaluación es necesario fijar
las diferencias que existen entre los conceptos que se cree son sinónimos de
evaluación: los de calificación y medida. El concepto de evaluación es el más vasto
ya que incluye a los otros dos, como índices vitales a lo largo del proceso sistemático
de la evaluación, he aquí el porqué de esa sinonimia entre conceptos.
Para Cabrera y Espín (1986 citado en Castillo, 2010) el medir constituye: “Conjunto
de acciones orientadas a la obtención y registro de información cuantitativa
(expresada en número su cantidad o grado) sobre cualquier hecho o
comportamiento”. (p. 24)
Como podemos apreciar el medir son simple y llanamente las acciones que
permiten recolectar datos numéricos de hechos o comportamientos que tienen que
ser interpretados durante el proceso evaluativo, refiriéndolos a criterios establecidos
para cada objetivo. Los datos aportados por la medición facilitan, concluir en qué
medida se consiguieron los objetivos y las competencias básicas.
Ahora, en lo que respecta al término calificación Castillo (2010) dice que es la
expresión que se hace sobre la valoración de la conducta o del rendimiento de los
alumnos (calificación escolar), por lo que podemos interpretar este término como
más restrictivo y reduccionista que el de evaluación. La calificación suele expresarse
mediante una tipificación numérica o nominal que pretende expresar la valoración
de los aprendizajes logrados por el alumnado, y puede expresarse de forma
cualitativa (Apto/No apto, Suficiente/Insuficiente), o de forma cuantitativa (1, 5, 7, 8,
9...). En otras palabras, se pretende expresar de manera cualitativa o cuantitativa el
grado de suficiencia o de insuficiencia de los conocimientos, destrezas o habilidades
del alumno como resultado de la aplicación de algún tipo de prueba, actividad,
examen o proceso.
Como ya se mencionó con anterioridad, la evaluación es un proceso que incorpora
las actividades de medir y calificar, no se reduce a ellas dado el carácter
instrumental de estas, ya que, como se ha visto anteriormente, evaluar siempre
implica tomar decisiones. A tenor de estas clasificaciones podemos hablar de dos
polaridades en la evaluación: medida, (evaluación cuantitativa) y estimación
(evaluación cualitativa).
La evaluación entendida como medida está basada en el paradigma positivista,
mientras que la evaluación entendida como estimación está basada en el paradigma
naturalista. Cada uno de estos paradigmas ha sido la semilla impulsora en las
diferentes corrientes pedagógicas en la historia educativa, por esa razón son
relacionados con los modelos pedagógicos del conductismo y el naturalista o
romántico. El paradigma positivista está relacionado con una concepción
conductista de la enseñanza, y destaca por tanto la importancia de lo observable,
medible y cuantificable, con la pretensión de proporcionar al proceso de evaluación
la máxima objetividad posible.
Para Zabalza (1988 citado en Castillo, 2010) la utilización del paradigma positivista
por parte de los profesores: «Ha ido generando una mayor preocupación por utilizar
instrumentos más elaborados internamente,… y de métodos de recogida y análisis
de los datos capaces de reducir a mínimos aceptables los riesgos de distorsión
subjetiva o coyuntural del valor real de los comportamientos y situaciones
evaluadas». Por su parte, Casanova (1995 citado en Castillo, 2010) considera que:
«La evaluación cuantitativa (paradigma positivista) es válida cuando se trata de
evaluar productos ya acabados y se desea conocer el resultado obtenido
(evaluación sumativa)». (p. 25)
Frente al paradigma positivista y cuantificador encontramos el paradigma
naturalista, que concibe la evaluación como una estimación, esto le atribuye
orientación cualitativa, surgiendo con la intención de corregir las limitaciones del
paradigma positivista.
Para Filstead (1986 citado en Castillo, 2010): “El paradigma cualitativo constituye
un intercambio dinámico entre la teoría, los conceptos y los datos, con
retroinformación y modificaciones constantes de la teoría y de los conceptos,
basándose en los datos obtenidos”. (p. 26).
En otras palabras, el centro de la evaluación son los aprendizajes y no los alumnos,
esto es, se evalúa el desempeño y no la persona, demandando el uso de técnicas
e instrumentos para recolectar información de corte cualitativo con objeto de obtener
evidencias y dar seguimiento a los aprendizajes de los alumnos a lo largo de su
formación.
Desde este enfoque Díaz Barriga y Hernández (2002, citado en SEP, 2012), la
evaluación favorece el seguimiento al desarrollo del aprendizaje de los alumnos
como resultado de la experiencia, la enseñanza o la observación. Por tanto, la
evaluación cualitativa constituye un proceso en continuo cambio, producto de las
acciones de los alumnos y de las propuestas pedagógicas que promueva el
docente. (p. 24)
Realmente la evaluación no se desarrolla utilizando uno solo de estos dos
paradigmas de forma pura, sino más bien se implementan elementos de ambos, por
lo que ambos paradigmas coexisten.
Castillo (2010) considera necesario armonizar ambos paradigmas en aras de lograr
una evaluación más completa, ya que un posicionamiento radical en uno de ellos
empobrecería un proceso evaluador, que con la conjunción de ambos se ve
enriquecido y complementado. (p. 27)
Para Rivas (2003, citado en Castillo, 2010), “La evaluación educativa propiamente
dicha está más próxima a la función del médico. Se trata de una exploración,
diagnóstico, tratamiento y eliminación de específicas deficiencias en el aprendizaje
del alumno”. (p. 29)
Debe quedar claro, por lo tanto, que aunque la evaluación implica medición y
calificación, va mucho más allá.
2.1.3. Funciones de la evaluación.

Para Casanova (1992, citado en Castillo, 2010), dice que: “En concordancia con las
funciones que en cada caso asignemos a la evaluación, con las necesidades que
sea preciso cubrir en los diferentes momentos de la vida de un centro o con los
componentes que se hayan seleccionado, procede utilizar las modalidades o tipos
de evaluación que resulten más apropiados para el objeto del trabajo que se
emprende”.
Cardona (1994) asigna las siguientes funciones a la evaluación:
1. Diagnóstica, función que desempeña la evaluación inicial. Tiene por finalidad
el conocer los supuestos de partida para implementar cualquier acción
pedagógica.
2. Reguladora, regula los aprendizajes de los alumnos de manera
personalizada y específica según las necesidades de estos.
3. Previsora, facilita la estimación de posibles actuaciones o rendimientos.
4. Retroalimentadora, se ejerce desde la evaluación formativa, ya que permite
reconducir los distintos elementos que conforman el modelo didáctico.
5. De control, función que según el autor es necesaria por las exigencias que
se plantean por parte de la administración educativa, en todo lo referente a
la obtención de titulaciones académicas y las connotaciones que ello tiene.
Para Cardona, cada una de estas funciones se concibe claramente en todos o en
algunos de los distintos tipos de evaluación que se han establecido.
2.1.4. Modalidades de evaluación.

Según el momento de aplicación.
1. Evaluación inicial: Este tipo de evaluación se realiza al comienzo de un curso
académico. Consiste en la recogida de datos, personales y académicos, con
la finalidad de que el profesor inicie el proceso educativo con un conocimiento
real de las características de todos y cada uno de sus alumnos, para diseñar
de mejor manera las estrategias didácticas y acomodar su práctica docente
a la realidad del grupo y de sus singularidades individuales. Estas razones le
dan una vital importancia a este tipo de evaluación para que el alumnado
presente un adecuado desarrollo en el proceso educativo. Además, es un
referente a la hora de valora y comprobar si los resultados finales son
satisfactorios o insatisfactorios.
2. Evaluación procesual: consiste en la valoración, a través de la recogida
continua y sistemática de datos, del proceso educativo de un alumno, a lo
largo del ciclo escolar para el logro de metas y objetivos propuestos. Es una
estrategia de ajuste y regulación sobre la marcha con el objetivo de mejorar
el proceso educativo. Es por ello que tiene una estrecha relación con la
evaluación formativa y continua, hasta el punto de identificar a todas ellas
con un mismo tipo de evaluación. Permite recabar información del proceso
educativo de los alumnos en el tiempo en que se desarrolla el curso, con la
intención de reorientar, regular, modificar o reforzar el proceso educativo
individual del alumnado. La evaluación procesual-formativa permite la toma
de decisiones referente a la mejora sobre la marcha en beneficio de los
principales actores: alumnos y profesores. Este tipo de evaluación pone de
manifiesto la etapa en la cual se han dado los errores en el aprendizaje si los
hubiere, corrigiéndolos tomando como base la relación entre la situación de
partida (inicial) y la situación de llegada (final). Para comprobar de manera
sistemática el grado en que se logran los objetivos previstos y las
competencias básicas establecidas. Es una evaluación continua, porque
permite una recogida de datos sistemáticos y continuados (cualitativos y
cuantitativos), están puestos a disposición de la evaluación sumativa para
cada una de las situaciones.
3. Evaluación final: consiste en reunir y valorar los datos una vez finalizado el
periodo previsto para la consecución de un aprendizaje, programa, trabajo,
curso escolar, etc., a manera de comprobar el logro de los objetivos fijados y
de las competencias básicas establecidas. Este tipo de evaluación en su
función sumativa se aplica al finalizar un periodo determinado procurando la
aptitud del mismo, el nivel de aprovechamiento y las competencias básicas
adquiridas por el alumno. Sobre los resultados obtenidos en esta evaluación
puede concluirse sobre el logro de los aprendizajes al término del proceso o
periodo escolar, además de servir de punto de partida de la evaluación inicial
del siguiente periodo escolar. A este respecto dice Castillo (2010) “Aunque
no sea necesariamente sumativa, la evaluación final suele identificarse con
ella en la medida en que enjuicia o valora procesos finalizados haciendo
acopio de los datos seleccionados en los anteriores momentos de
evaluación.” (p. 36)
Tiene un carácter preciso debiendo realizarse lo más completa y exhaustiva
que sea posible, favoreciendo la implementación de todos los datos que se
obtuvieron a lo largo del proceso de la evaluación formativa. Nuevamente
Castillo (2010) dice: “Tiene una función sancionadora, por lo que debe
concluir con el establecimiento de un juicio en la medida en que mediante la
evaluación sumativa se decide si el alumno ha superado o no los objetivos,
si promociona o no promociona, si ha aprobado o no ha aprobado, o si se ha
obtenido no una determinada titulación.” (p. 36)
Según su finalidad.
1. Evaluación diagnóstica: tiene por objetivo que el profesor inicie con un
conocimiento pleno de las características de sus alumnos, en lo personal
como en lo académico. Lo que permitirá el diseño de estrategias didácticas
adecuadas al ambiente de aprendizaje en que se desenvuelven sus alumnos.
La evaluación diagnóstica debe darse al comienzo del curso, ya que los datos
obtenidos se utilizan como referente para iniciar una nueva actividad escolar.
La información recabada en cursos anteriores, especificada de modo
descriptivo y no simplemente numérico, son elementos de gran utilidad para
realizar también una buena evaluación diagnóstica del curso siguiente.
También este tipo de evaluación puede realizarse en cualquier momento del
curso, ya que sirve para detectar las necesidades educativas en aspectos
concretos. Aunque los términos diagnóstico y evaluación presentan un
significado diferente en la literatura pedagógica, podemos decir que la
evaluación está enfocada en la mejora de la calidad educativa, mientras que
el diagnóstico se enfoca en descubrir, describir y en su caso explicar, el
comportamiento de una persona al estudiar los factores intervinientes. De tal
manera, el diagnóstico pedagógico permite hacer un análisis de las
necesidades, retroalimentación sobre las estrategias de intervención, y con
la información que se aporta ayuda en la toma de decisiones en lo referente
al proceso educativo.
2. Evaluación formativa: Este tipo de evaluación se implementa como estrategia
de mejora, porque permite hacer ajustes y regulaciones sobre la marcha del
proceso educativo, para conseguir los objetivos y las competencias básicas
establecidas. Es idónea para evaluar procesos y se encuentra
estrechamente relacionada con la evaluación continua. Brinda información
de los elementos que componen el desarrollo del proceso educativo
individual de los alumnos a lo largo del curso, además de permitir reorientar,
modificar, regular, reforzar, comprobar, los aprendizajes de manera puntual.
3. Evaluación sumativa: Este tipo de evaluación permite la comprobación del
nivel de logros alcanzados al término del curso, actividad o periodo de tiempo
determinado; el grado de aprovechamiento y el grado de consecución de los
objetivos propuestos y de las competencias básicas establecidas, que el
alumno haya adquirido. La evaluación final tiene una función sancionadora,
debido a que se delibera si el alumnos ha aprobado o no una asignatura; es
promovido o no al siguiente curso, si obtiene o no una titulación. En esta
evaluación tiene una gran influencia las evaluaciones anteriores: inicial-
diagnóstica y procesual-formativa, ya que si se realizaron de manera
sistemática se reflejaran los buenos resultados en la evaluación sumativa. Y
como se vio en etapas anteriores los resultados de la evaluación sumativa
son el punto de partida de la evaluación diagnóstica del siguiente curso o
periodo escolar.
Según su extensión.
1. Evaluación global: Comprende a todos los componentes o dimensiones del
alumno, del centro educativo, del programa, etc. Se puede decir que es un
conjunto interactuante donde cualquier modificación en los componentes que
la integran impactan en el resto. Aplicada a la evaluación de los aprendizajes
de los alumnos, se relaciona con la evaluación integradora en la medida en
que se incluye la consecución de los objetivos propuestos de todas las áreas
o materias que ha cursado.
2. Evaluación parcial: Comprende el estudio o valoración de específicos
componentes o dimensiones de un centro, programa, materia, etc., por
separado o algún aspecto en concreto. Aplicada a la evaluación de los
aprendizajes de los alumnos podría darse en la evaluación de temas o
bloques concretos de una materia, habilidades, actitudes y valores o
estrategias de aprendizaje.
3. Evaluación interna: Este tipo de evaluación es promovida y llevada a cabo
desde dentro y por los propios integrante de un centro, de un programa, de
un equipo educativo o directivo, etc. Su intención es la de conocer
internamente la marcha del proceso a evaluar así como los resultados finales
del mismo.
Según sus agentes.
1. Autoevaluación: El individuo evaluador evalúa su propio desempaño, esto es,
las responsabilidades del evaluado y del evaluador recaen en la misma
persona. Por lo general es el profesor quien la lleva a cabo, con la intención
de conocer el desempeño del proceso educativo que se ha desarrollado así
como los efectos finales del mismo. Por el impacto que tiene este tipo de
evaluación lo ideal es que el alumno también realizase la autoevaluación. La
autoevaluación del profesor tiende a la autorreflexión, pudiéndose ayudar de
algún tipo de cuestionario, o instrumento de evaluación.
2. Heteroevaluación: En este tipo de evaluación los evaluadores y los
evaluados no son la misma persona. Es llevada a cabo en el mismo centro,
por personal que labora en él, ejemplo clásico, el docente que evalúa a sus
alumnos.
3. Coevaluación: En este tipo de evaluación ciertas personas o grupos que
pertenecen a un centro se evalúan mutuamente: es decir, evaluadores y
evaluados alternan su rol.
Según la procedencia de los agentes evaluadores.

1. Evaluación interna: Este tipo de evaluación se lleva a cabo desde dentro y
por los mismos integrantes de un centro. Su intención es la conocer desde la
estructura interna el desarrollo del proceso y los resultados finales del mismo.
2. Evaluación externa: En este tipo de evaluación evaluado y evaluador son
personas o instancias diferentes, y por lo general es realizada con la
intención de conocer el funcionamiento de los integrantes de un centro
escolar o de un programa. El ejemplo habitualmente realizado es el que hace
la supervisión en los centros de su jurisdicción. Cabe aquí mencionar la
denominada “evaluación por experto”, que por lo general es realizada por
personas de reconocido prestigio como investigadores, los cuales tratan de
evaluar los efectos de un programa experimental puesto en marcha reciente.
Las modalidades de evaluación, interna y externa, son complementarias
entre sí y el objetivo es la aplicación de las dos dependiendo de la naturaleza
de lo que vaya a ser evaluado.
Según el normotipo.
1. Evaluación normativa: En esta modalidad de evaluación el marco de
referencia es el nivel general de un grupo normativo determinado (el
promedio del grupo). Enfocada al aprendizaje del alumno, se hace la
comparación de cada alumno con el promedio del grupo en la que los
alumnos se encuentran situados. Se trata de una evaluación no
personalizada y por lo general perjudica a los alumnos en función de la clase
en la que se encuentran situados. Es una de las modalidades de evaluación
mayormente practicadas por el profesorado en general. El objetivo es el de
comparar el rendimiento de un alumno con el del resto de los alumnos de su
entorno, que suele ser el promedio general grupal. Esta evaluación establece
un modelo comparativo con una norma de apreciación subjetiva y diferente
de otra, por lo que las calificaciones obtenidas se van ajustando según sea
el caso a la norma que se va estableciendo. Podemos entender que si un
alumno se encuentra en dos clases diferentes, una con alumnos de alto nivel
y otra con alumnos de nivel más bajo, sería calificado de manera muy distinta
de acuerdo con la clase en la que se encuentre, aun desenvolviéndose de
manera habitual en las dos, lo que nos lleva a pensar en la invalidez del
proceso evaluador practicado. Este tipo de evaluación presenta una medición
sesgada del aprendizaje porque no está siendo valorado el verdadero
aprendizaje logrado por el alumno, sino más bien el aprendizaje que se
obtiene con relación al grupo de referencia que se toma como estándar, lo
que pone de manifiesto que las calificaciones obtenidas mediante la
evaluación del tipo normativo son muy diferentes a las que se obtendrían si
se hubiera implementado otra modalidad de evaluación paralela hecha a la
medida de las necesidades específicas del alumnado (criterios de
evaluación). Aunque la evaluación normativa es cuestionada al evaluar el
aprendizaje de los alumnos, una de sus mayores virtudes se da cuando se
implementa al conocer de manera estadística el rendimiento específico de un
alumno en relación con su grupo de alumnos, o con otros grupos, aunque
entendida de esa manera pierda una gran parte de su carácter educativo.
2. Evaluación criterial: La mejor alternativa a la evaluación normativa es evaluar
con referencia a un criterio previo (criterio de evaluación), conociendo el nivel
de rendimiento que se quiere los alumnos alcancen al término de periodo
escolar. Esto requiere de la formulación de objetivos educativos y criterios de
evaluación que delimiten y permitan reconocer si los alumnos han alcanzado
las competencias básicas. De tal manera que la evaluación criterial es la que
se utiliza cuando se requiere evaluar el logro de los aprendizajes de los
alumnos en función de los criterios de logro previamente establecidos. Para
lograrlo es necesario formular los criterios de evaluación de modo concreto y
claro, pretendiendo que el alumnado alcance el nivel adecuado en
determinada materia, o que aprenda a hacer algo previamente fijado,
estableciendo la relación entre el resultado observable y los objetivos
propuestos. Popham (1983, citado en Castillo, 2010) definía un objetivo
como: “Un propósito instructivo que describe con claridad lo que los
estudiantes podrán hacer o deberían ser capaces de hacer después de la
instrucción y que antes no podían hacerlo” (p. 42). Por medio de este tipo de
evaluación se quiere personalizar el proceso de aprendizaje de los alumnos
de la clase si el establecimiento de comparaciones entre ellos, y lo que se
realmente se evalúa es el logro alcanzado en función de los objetivos
previamente establecidos, y las competencias básicas previamente fijadas.
Con todo lo expuesto hasta este momento es fácil deducir que en la práctica diaria
de la evaluación, se pueden dar mezclas de algunos de los tipos de evaluaciones
mencionadas, pero siempre se tiene que tener presente la complejidad que presenta
la acción educativa requiere de una acción evaluadora sistemáticamente
coordinada y planeada que a veces se presenta bajo diferentes tipos y con distintos
procedimientos. Por lo que, las decisiones que el profesorado tome son
fundamentales en la adopción del tipo de evaluación más adecuado a llevar a cabo
en cada caso específico, con el objetivo de que la acción evaluadora sea eficaz y
personalizada, es decir, que sea coherente entre sus planteamientos como en su
aplicación, ya que tal como dice Casanova (1995, citado en Castillo, 2010):
“Enseñar puede ser fácil, lo difícil es enseñar bien. Enjuiciar a alguien puede
hacerse apresuradamente, pero evaluar a una persona o un proceso educativo es
una tarea seria y compleja”. (p. 43)
2.2. Tests psicológicos y evaluación.

2.2.1. Diseño y elaboración de tests.
El esfuerzo requerido en la elaboración de un test psicológico o educativo depende
del tipo de prueba y los fines para los cuales ha sido diseñado. Por lo general la
mayoría de los maestros dedican poco tiempo para el diseño de pruebas
encaminadas a evaluar el progreso de sus alumnos en una unidad de enseñanza.
Esto a diferencia de las pruebas de habilidad y personalidad diseñadas por
especialistas en evaluación psicológica que por lo general requieren del trabajo
arduo de bastantes individuos laborando por periodos prolongados.
Los procedimientos a seguir en la elaboración de estas pruebas varían con el tipo
de la misma y los propósitos de quien la necesita. Preparar un inventario de
reactivos, de intereses o de características de la personalidad, requiere de
estrategias diferentes a las necesarias para la construcción de pruebas de
aprovechamiento o de aptitudes. Esto es, los procedimiento utilizados por los
diseñadores profesionales suelen ser muy complejos y poco familiares para la
mayoría de los maestros en general.
Para la construcción de estas pruebas, se necesita cierto grado de planeación de
los contenidos antes de realizar la redacción de los reactivos que contendrá el
instrumento. Esta planeación debe incluir variables claramente definidas o
constructos que van a medirse, descripción de las personas a las cuales van
dirigidas, condiciones bajo las cuales se realizará la aplicación, e información de
calificación, interpretación de las puntuaciones y la utilidad de los resultados.
2.2.2. Planeación de un test.

El diseño de los test requiere de la consideración cuidadosa de los propósitos
específicos. Las pruebas están encaminadas a la obtención de información
diferente, por lo que esto impacta en su proceso de elaboración de acuerdo al
propósito que se quiere lograr. Al respecto Aiken (2003) dice: “De manera ideal, la
elaboración de una prueba u otro instrumento psicométrico empieza con la
definición de las variables o constructos que van a medirse y con el esbozo del
contenido propuesto”. (p. 18)
Revisión de la literatura.
Al inicio de la construcción de un instrumento, se tiene que investigar si existe un
instrumento o teoría previa encaminada a realizar la medición que se pretende
realizar, se debe indagar el conocimiento que se tiene hasta el momento del
concepto que se desea medir.
Según Supo (2013), en este paso se pueden presentar las siguientes situaciones:
Primera, el concepto se encuentra plenamente definido; segunda, el concepto está
parcialmente definido; y tercera circunstancia, el concepto no está definido. Veamos
un ejemplo en cada una de estas tres situaciones y lo que debemos hacer para
construir un instrumento que tenga validez de contenido. (p. 1)
Primero, totalmente definido:
Esta etapa se considera utópica para todo investigador, ya que como el concepto
que prima el objeto de estudio está totalmente explorado, puede ser que
simplemente se tenga que utilizar el instrumento diseñado para ese objetivo y quizás
haya que adaptarlo al contexto en el cuál se pretende realizar la investigación.
Pero la realidad de las cosas es que no siempre nos encontraremos con una
circunstancia tan sencilla si de investigación es el tema. Si bien una vez identificadas
las dimensiones del instrumento que queremos construir, nos faltaría conocer el
número de reactivos que deberemos incorporar para cada una de estas
dimensiones; por lo que podemos entender que, para cubrir exactamente con el
contenido del concepto que se desea medir debe ser revisada toda teoría
disponible.
Segundo, el concepto está parcialmente definido:
Hay ocasiones en donde encontramos teorías que no han desarrollado plenamente
un concepto, por lo que los instrumentos diseñados para ello no son fiables para
medirlo, poniendo en riesgo la investigación. Para estos casos la tarea consiste en
iniciar un proceso de exploración a fondo del concepto.
Ahora bien, para elegir el camino que debemos seguir, es necesario tener
conocimientos acerca del concepto, lo que no ocurre cuando el concepto está
plenamente definido. Lo primordial es que la línea de investigación del investigador
debe ser congruente con el instrumento que se quiere construir, es decir, el
investigador es el primer experto en la temática, debe contar con amplia experiencia
en el desarrollo de estudios referente al concepto a estudiar, pero de cualquier forma
deberá apoyarse en la literatura especializada y en el conocimiento acumulado de
los investigadores que pertenecen a la misma línea de investigación, para
consensuar el concepto.
Tercero, cuando el concepto no está definido:
A falta de teorías, publicaciones al respecto e investigadores dentro de la misma
línea de investigación del concepto para el cual se pretende construir el instrumento,
el investigador debe considerar si es pertinente de acuerdo a su experiencia
enunciar su propia teoría, definiendo el concepto para la elaboración del
instrumento.
Por lo anterior se está en el entendido que si el concepto no se encuentra definido,
el investigador será el experto número uno en el tema, por ser quien despertara el
interés en la temática a investigar.
En este caso el camino por seguir es encontrar a personas que no siendo
investigadores dentro del tema se pueden incluir como expertos, y por lo tanto, como
única fuente de información para la construcción del instrumento. Según Supo
(2013), “Un experto es una persona con mucha experiencia en un determinado
campo, no necesariamente es investigador científico y un juez es una persona con
criterio científico, habitualmente se trata de un investigador. (p. 5)
Estos expertos pueden ayudarnos a explorar el concepto, pero esto corresponde al
siguiente paso que analizaremos a continuación.
Explorar el concepto.
Este procedimiento solo se realizará cuando el concepto está definido parcialmente
o cuando el concepto no se encuentra definido, ya que si el concepto se encuentra
definido, construir el instrumento cuyo contenido alcance el constructo no presenta
ninguna complicación.
Para este caso debemos hacer una exploración del concepto mediante una
aproximación a la población y a expertos, para lo cual se echará mano de la
entrevista a profundidad, es decir, se entrevistará a sujetos que pueden ser nuestro
objeto de estudio (población), o la entrevista se realizará a personas que no siendo
investigadores tienen un conocimiento pleno del tema el cual nosotros queremos
medir. Una vez identificadas las dos instancias o niveles donde se realizará la
entrevista a profundidad, procedemos con la entrevista.
La entrevista no es más que una conversación en la cual el investigador estimula y
conduce un discurso continuo delimitado por la temática bajo estudio, esto se logra
con una sola pregunta y a medida que el entrevistado sugiera las respuestas el
investigador irá formulando preguntas adicionales. En otras palabras se trata de una
entrevista cualitativa y holista porque se quiere indagar sobre el tema en la persona
entrevistada de una manera amplia.
No hay reglas, solo se trata de identificar las percepciones personales de los
expertos a nivel individual, el objetivo es encontrar el mayor número de
características que nos puedan emitir las personas entrevistadas. Es una
conversación sin límites, más que el de la propia investigación, ya que no hay otra
forma de explorar un concepto que aún no ha sido desarrollado.
En algunos casos por ser personas que han aprendido de manera empírica,
desconocen de la terminología técnica, así que de alguna manera debemos ser
capaces de traducirles lo que se quiere conocer, para alcanzar el éxito debemos
estar plenamente conscientes de la finalidad de la entrevista.
Enlistar los temas.

Durante la entrevista, el entrevistado no ha ido dando palabras clave que se pueden
utilizar para definir el concepto, las iremos anotando en una hoja de trabajo sin orden
alguno, según se vayan siendo pronunciadas por nuestro experto. No existe criterio
alguno para la elaboración del listado, quizás muchas de las palabras se encuentren
repetidas pero de cualquier manera deberán ser anotadas el mismo número de
veces que han sido mencionadas.
Esas palabras serán registradas en un número igual a cinco veces el número de
ítems que queremos que tenga nuestro instrumento final. En caso de no completar
el número de ítems, se deberá seguir realizando entrevistas a más expertos o
población objeto, para seguir incrementando el número de palabras clave, incluso
si en la siguiente entrevista se vuelven a repetir palabras clave a las que ya
habíamos obtenido.
Este procedimiento se realiza cuando exploramos un concepto en cualquier campo
del conocimiento. No cuestionaremos la veracidad de las respuestas de los
entrevistados, no estamos emitiendo un juicio de valor sobre estas respuestas
provistas, aquí solo se tiene la convicción de hacer una lista de la información que
el entrevistado nos proporcione. Más adelante se realizaran los procedimientos
pertinentes para conocer si las palabras clave que conformarán nuestro instrumento
son adecuadas o son invenciones de las personas que han sido entrevistadas.
Enseguida agruparemos los conceptos, para simplificar el número de temas,
muchos quizás se encontrarán repetidos entre el total de entrevistados, o no
contengan las mismas palabras clave, pero pueden ir agrupándose en conceptos
únicos de acuerdo a la experiencia del investigador. El objetivo de esta segunda
parte es reducir el número de ítems o palabras clave hasta un total del 50% del
número inicial. Más adelante, se realizarán procedimientos estadísticos para
detectar si dos frases que a nuestra percepción dicen lo mismo se engloban en una
sola palabra clave.
Formular los ítems.

Supo (2013) dice que “Un ítem o reactivo es un enunciado u oración que escribimos
en forma interrogativa o afirmativa y que constituye el cuerpo fundamental del
instrumento que pretendemos construir.” (p. 16)
Los ítems serán formulados con el listado de respuestas sintetizadas que obtuvimos
en el anterior paso, esto con la finalidad de corroborar si existen las características
que hemos listado. Esta comprobación se realizará ahora con una segunda
entrevista enfocada a la población estudio, concentrándonos sobre el conjunto de
tópicos que definimos con anterioridad averiguando si realmente existen o no.
No contamos con un instrumento estructurado ya que se tiene la libertad de formular
las preguntas según las características de la población sobre a cual nos enfocamos,
para cumplir con esta tarea. Una vez concluida la entrevista a nuestra población
estudio procedemos a fusionar o ampliar sobre los conceptos, de manera que algún
tema pueda convertirse finalmente en dos o tres ítems.
Luego de dividir los conceptos y fusionar otros, procedemos a formular nuestro
instrumento con alternativas de posibles respuestas. Es en este punto donde se
toma la decisión del instrumento que pretendemos construir (cuestionario o una
escala). Dependiendo del concepto que vamos a medir, si es conocimiento
corresponde un cuestionario, pero si medimos actitudes, conductas u opiniones, la
escala es el instrumento idóneo.
En conclusión, este cuarto paso termina cuando hemos formulado los ítems y
también hemos formulado las alternativas o posibles respuestas que debe tener
nuestro futuro instrumento.
Selección de los jueces.

Para Supo (2013), “Un juez dentro del tema de la validación de instrumentos, es
una persona que nos ayuda a evaluar los ítems que hemos formulado y si bien son
investigadores, su línea de investigación no necesariamente es la misma que la
nuestra, de manera que no necesariamente son expertos en el tema que estamos
investigando.” (p. 22)
En este momento contamos con un banco de reactivos con sus respectivas
respuestas, pero todavía lo consideraremos un instrumento una vez que lo hayamos
sometido a la evaluación por jueces, por lo que en primer lugar haremos una
selección adecuada de jueces.
La elección se hace de manera convencional en número de cinco y estos, en la
manera de lo posible, deben ser multidisciplinarios, es decir, deben pertenecer a
distintos campos del conocimiento para que sus opiniones sean variadas sobre el
tema o concepto que estamos evaluando.
Su tarea es evaluar los ítems que construimos, ellos no ayudan en la redacción de
los ítems, ya que no necesariamente son expertos en el tema, su función es la de
revisar los ítems en cuanto a suficiencia, pertinencia y claridad con la que estén
redactados.
En cuanto a suficiencia, los jueces se encargan de revisar que los ítems incluidos
en el instrumento abarquen todas las dimensiones de las cuales está conformado
el concepto. En lo que se refiere a la pertinencia, los jueces revisan que los ítems
no están fuera de contexto en relación con el concepto que se desea evaluar y, en
cuanto a la claridad, los jueces revisan que la terminología empleada en la redacción
de los ítems está íntimamente relacionada con el nivel de conocimientos que tiene
la población objetivo.
La valoración que los jueces hacen sobre los ítems del instrumento es netamente
cualitativa, ya que no existen procedimientos matemáticos ni algoritmos para decidir
con que ítems nos quedamos.
Aplicación de la prueba piloto.

Este es el punto donde ya podemos afirmar que hemos creamos un instrumento,
afirmando que tiene validez de contenido, restando solo evaluar sus propiedades
métricas. Para este tipo de valoración haremos uso de la estadística la cual nos
permite corroborar la suficiencia del instrumento que estamos evaluando, es en esta
etapa donde iniciamos la fase cuantitativa de validación.
Es recomendable que en esta etapa de aplicación, sea el mismo investigador quien
la realiza, por cuanto aún no está validado. Una de las funciones de la prueba piloto
es volver a evaluar la claridad con la que los ítems están redactados, que si bien los
jueces ya lo hicieron, no son la población objetivo, por lo tanto, en la aplicación de
la prueba piloto se debe contar con la presencia del creador del instrumento
(investigador), con la finalidad de aclarar las situaciones confusas que la población
objetivo pudiera presentar.
La finalidad del diseño de un instrumento es que podamos utilizarlo mediante la
técnica de recolección de datos llamada encuesta, donde el instrumento tiene la
capacidad de explicarse por sí solo y que no necesite de la presencia del
investigador que creó el instrumento.
Es por tal motivo que en la aplicación de la prueba piloto el investigador debe
asegurarse de que la población objetivo entiende claramente cada uno de los
conceptos que redactamos en los ítems que constituyen el instrumento, al estar
físicamente presente en la misma.
Evaluar la consistencia.
En este apartado se desea saber el grado en que un instrumento mide con precisión,
sin error. Es la condición de un instrumento de ser fiable, en otras palabras, la
capacidad de ofrecer en su empleo repetido resultados veraces y constantes en
condiciones similares de medición. Según Arribas (2004) la “Fiabilidad de un
instrumento es valorada a través de la consistencia, la estabilidad temporal y la
concordancia interobservadores.” (p. 27)
La consistencia de un instrumento es la relación que existe entre los diferentes ítems
o preguntas de una escala entre ellos mismos. Esta homogeneidad entre los ítems
nos indica el grado de acuerdo entre los mismos y, por tanto, lo que determinará
que éstos se puedan acumular y dar una puntuación global. El método estadístico
mayormente utilizado en la comprobación de la consistencia de un instrumento es
el Coeficiente Alfa de Cronbach, sus valores oscilan entre 0 y 1. Se considera que
existe una buena consistencia interna cuando el valor de alfa es superior a 0.7.
La estabilidad temporal es la concordancia obtenida entre los resultados del test al
ser evaluada la misma muestra por el mismo evaluador en dos situaciones distintas
(fiabilidad test-retest). La fiabilidad (normalmente calculada con el coeficiente de
correlación intraclase [CCI], para variables continuas y evaluaciones temporales
distantes) nos indica que el resultado de la medida tiene estabilidad temporal. Una
correlación de 0.7 indicaría una fiabilidad aceptable.
La concordancia interobservadores en el análisis del nivel de acuerdo obtenido al
ser evaluada la misma muestra en las mismas condiciones por dos evaluadores
distintos, o en diferente tiempo, se obtienen iguales resultados (fiabilidad
interobservadores). La concordancia entre observadores se puede analizar
mediante el porcentaje de acuerdo y el índice Kappa.
Análisis y calibración de reactivos.

Rodríguez (2012) nos die que “Un reactivo es la proposición de una situación que
requiere cierto tipo de respuestas del alumno y mediante el cual puede emitirse un
juicio de valor sobre su conocimiento o la calidad de su desempeño.” (p. 6)
Tristán (1998) menciona que “Cualquier prueba que tenga por finalidad medir
resultados del aprendizaje debe contener una seria de características que den
cuenta de su nivel de calidad y que aseguren que cumplen con eficiencia la función
para la cual ha sido diseñada. (p. 6)
Estas características son:

1. Validez la cual se refiere al grado en que una prueba mide lo que se pretende
medir realmente en términos de contenido, criterio, dificultad y
requerimientos de desempeño.
2. Confiabilidad que se logra cuando se obtienen resultados aproximadamente
similares al aplicar la misma prueba en diversas ocasiones.
3. Discriminación, es decir, si la prueba separa convenientemente a los
examinados en diversos niveles de rendimiento.
Se cuenta con una serie de índices que se utilizan para estimar la calidad de los
reactivos que componen un instrumento. A continuación los presentamos:
Índice de facilidad: es la proporción de alumnos que contestan acertadamente un
reactivo. La fórmula para calcular su valor es la siguiente:
Número de examinados que aciertan
Índice de Facilidad 
Número total de examinados
Índice de dificultad: es la proporción de alumnos que fallan al responder un
reactivo. La fórmula para calcular su valor es la siguiente:
Número de examinados que fallan
Índice de Dificultad 
Número total de examinados
Backhoff, Larrazolo & Rosas (2000 citado en Rodríguez, 2012) nos dicen que es
recomendable que el grado de facilidad promedio de una prueba oscile entre 0.5 y
0.6 con un conjunto pequeño de reactivos muy fáciles o muy difíciles y un porcentaje
alto de reactivos de dificultad media (ver tabla 1).
Dificultad del Rango del índice de Porcentaje de reactivos

reactivo facilidad recomendados
Muy difícil 0 - 0.19 5%
Difícil 0.2 - 0.39 20%
Media 0.4 - 0.59 50%
Fácil 0.6 - 0.79 20%
Muy fácil 0.8 - 1.0 5%
Tabla 1. Distribución sugerida del índice de facilidad de los reactivos contenidos en una prueba.
Backhoff, Larrazolo y Rosas (2000 citado en Rodríguez, 2012) argumentan que si
una prueba o un reactivo miden la misma habilidad podemos esperar que quien tuvo
una puntuación alta en el examen deberá tener una probabilidad alta de responder
correctamente al reactivo. De manera similar, un sujeto con baja calificación en el
examen, tendrá poca probabilidad de acertar al reactivo. Por tanto, se puede evaluar
el poder discriminativo de un reactivo con el índice de discriminación calculado de
la siguiente manera:
Aciertos GS  Aciertos GI
Índice de Discriminación 
n
Donde:
Aciertos GS es el número de aciertos al reactivo de las personas con las
puntuaciones más altas en las prueba o el llamado “grupo superior”, Aciertos GI es
el número de aciertos de las personas con las puntuaciones más bajas o el llamado
“grupo inferior” y n es el número de personas del grupo superior o inferior. Si los
grupos GS y GI no tienen igual número de examinados asignados, n será el número
mayor de los dos.
Por tanto, el índice de discriminación describe cómo se comportan ante un reactivo
dado los sujetos del grupo “superior” en comparación con los sujetos del grupo
“inferior”. Los criterios para definir los grupos inferior y superior son arbitrarios.
Generalmente, el GS se conforma con el 27% de los examinados con los puntajes
más altos y el GI con el 27% de los examinados con los puntajes más bajos. Otro
criterio comúnmente utilizado es dividir a los examinados a la mitad cuando los
datos están ordenados por puntaje total en orden descendente. Los sujetos que
queden arriban serán parte del GS y el resto será el GI.
Dado que el índice de facilidad es la proporción de examinados que aciertan en un
reactivo, una manera equivalente de determinar el índice de discriminación es
restando los índices de facilidad de los grupos que se comparan. Es decir,
Índice de Discriminación  Índice de Facilidad del GS  Índice de Facilidad del GI
Un reactivo con índice de discriminación positivo significa que esa pregunta es más
frecuentemente contestada correctamente por los alumnos de grupo superior en
comparación con los del grupo inferior. En cambio, una pregunta con un índice de
discriminación negativo debería ser revisada cuidadosamente o reemplazada. Ebel
y Frisble (1986 citado en Rodríguez, 2012) han sugerido los criterios de la tabla 2
para juzgar el poder discriminativo de un reactivo.
Rango del índice de discriminación Calidad del reactivo Sugerencia
Mayor de 0.39 Excelente Conservar
Entre 0.3 y 0.39 Buena Posibilidad de mejorar
Entre 0.2 y 0.29 Regular Necesidad de revisar
Entre 0 y 0.2 Pobre Descartar o revisar a profundidad
menor de - 0.01 Pésima Descartar definitivamente
Tabla 2. Criterios para juzgar la calidad de un reactivo según su índice de discriminación.
El modelo clásico para calibrar reactivos.

Los índices recién descritos pueden englobarse en el siguiente análisis o método
de calibración de reactivos, denominado “método clásico” que toma en cuenta los
índices de facilidad y discriminación.
Enseguida, se describe el proceso y se proporcionan los parámetros de calibración
de reactivos por el método clásico.
Fase de preparación:
1. Calificar a todos los alumnos, reactivo por reactivo, y obtener la suma de
aciertos o calificación total en la prueba para cada persona.
2. Ordenar a todos los sustentantes de la más alta puntuación (el más apto
en la prueba) al de menor puntuación (el menos apto en la prueba).
3. Contar el número total de alumnos (N).
4. Dividir al grupo en dos partes iguales, de tal modo que se define el grupo
de mayores puntuaciones (GS, grupo superior) y el de menores
puntuaciones (GI, grupo inferior). Si el número de personas es impar, se
sugiere pasar la persona impar al grupo superior.
Fase de calibración para cada reactivo k:
1. Para cada reactivo, contabilizar el número de aciertos en el grupo superior
e inferior.
2. Determinar el grado de facilidad (GF) del reactivo k de la siguiente
manera:
Aciertos GS  Aciertos GI
GF   100
N
3. Determinar el poder de discriminación (PD) del reactivo k de la siguiente
manera:
Aciertos GS  Aciertos GI
PD   100
N
4. Dibujar un plano que se componga de dos ejes con la finalidad de
dictaminar a dicho reactivo. En el eje horizontal, dibujar una escala del 0
al 100 para ubicar el grado de facilidad del reactivo. En el eje vertical,
dibujar una escala del 0 al 50 para ubicar el poder de discriminación del
reactivo. En el anexo 7 se muestra dicho plano.
Fase de decisión sobre cada reactivo:
Todos los reactivos caen dentro del triángulo mostrado en el anexo 7 (denominado
“dominio de los reactivos”). Las líneas superiores identifican a los “reactivos
perfectos” que son los que tienen la máxima discriminación para una dificultad dada.
Todos los reactivos que caen en la zona “óptima” se aceptan. Los que caen en las
otras zonas deben revisarse en el enunciado o en las opciones, con objeto de
corregirlos o mejorarlos. Los reactivos cuyo índice de discriminación sea nulo o
negativo deben ser desechados por no discriminar o hacerlo de manera inversa. La
norma discriminativa indica los valores mínimos aceptables para la discriminación.
La norma discriminativa establecida en este modelo supone que:
PD  0 .3 GF
Esta se representa por medio de la recta titulada “norma discriminativa” en el anexo
7.

Diseño de Examen Residual de Conocimientos y Habilidades

Enviado por

Dados do documento

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Diseño de Examen Residual de Conocimientos y Habilidades

Enviado por

Direitos autorais:

Formatos disponíveis

“DISEÑO DE EXAMEN RESIDUAL DE CONOCIMIENTOS Y

HABILIDADES PARA LA ASIGNATURA DE CIENCIAS II, CON

Uno de los problemas más complejos que enfrenta la educación mexicana es la

El proceso evaluativo debe ser considerado un sistema de indagación de los

A la fecha la evaluación es un asunto importante en el entorno educativo. Gran parte

En esta investigación se pretende diseñar un Examen Residual de Conocimientos

La estructura general del presente trabajo, se desglosa en cinco capítulos, en cada

El primer capítulo es un acercamiento al problema detectado en el sistema

El Segundo Capítulo contiene el Marco Teórico que permite identificar claramente

En el Tercer Capítulo se describe la Metodología que se utilizó para el diseño y

En el capítulo cuatro se analizan los resultados obtenidos por las pruebas de

Finalmente se presentan los anexos y la referencia bibliográfica utilizada durante la

1.3.2. Objetivos particulares.

2.1.1. Estructura de la evaluación.

2.1.2. Diferencias entre evaluación, calificación y medida.

2.1.3. Funciones de la evaluación.

2.1.4. Modalidades de evaluación.

Según la procedencia de los agentes evaluadores.

2.2. Tests psicológicos y evaluación.

2.2.2. Planeación de un test.

Enlistar los temas.

Formular los ítems.

Selección de los jueces.

Aplicación de la prueba piloto.

Análisis y calibración de reactivos.

Estas características son:

Dificultad del Rango del índice de Porcentaje de reactivos

El modelo clásico para calibrar reactivos.

Você também pode gostar