Você está na página 1de 33

LA EVALUACIÓN DE LA EDUCACIÓN

EN MÉXICO: RETOS Y PERSPECTIVAS

Felipe Martínez Rizo


3ª Reunión Nacional Académica del COMIE
Puebla, 7 de diciembre de 2010
Introducción

Es frecuente identificar evaluación con pruebas.


Hay que considerar otras dimensiones de la calidad
y otros tipos de evaluación, incluyendo los sistemas
de estadísticas e indicadores…
Un tipo de evaluación importante que se pierde de
vista es la que hace el maestro en el aulas.
Por el peso que tienen en las políticas educativas y
en la opinión pública, me referiré sobre todo a las
pruebas en gran escala, hoy omnipresentes.
La tendencia es ambivalente: bien manejadas
pueden ser valiosas; por diseño, implementación o
forma de usar los resultados, pueden traer daños.
Extensión de las pruebas

  La evaluación, presente desde hace mucho.


  La tradicional a cargo de cada maestro bastaba
para asegurar que quien terminaba un grado
tuviera nivel mínimo de conocimientos.
  Tras generalización de la educación terminar un
grado ya no garantiza nivel mínimo.
  Interesa poder comparar el nivel de grandes
grupos de manera consistente.
  Pruebas en USA 1900-1950; otros países más
tarde. Desde 1990 en la mayoría de países AL.
  En 2010 muchos tienen evaluaciones censales.
  Además crece participación en internacionales.
Las pruebas censales en AL

Censos o Simples o
Países Inicio Comentarios
muestras Mejoradas
Argentina 1993 Ambas Mejoradas Interrupciones
Bolivia 1997 Muestras Simples Suspendidas
Brasil 1990 Ambas Mejoradas INEP
Chile 1982 Censo Mejoradas SIMCE
Colombia 1991 Ambas Mejoradas ICFES
Costa Rica 1986 Ambas ¿? Irregular
Cuba 1996 Muestra Mejoradas ICCP
Dominicana 1991 Censo Simples ---
Ecuador 1996 Censo Mejoradas En desarrollo
Censos o Simples o
Países Inicio Comentarios
muestras Mejoradas
El Salvador 1993 Ambas Mejoradas ---
Guatemala 1992 Ambas Mejoradas SNEIE
Honduras 1990 Muestra Simples UPN
México 1993 Ambas Mejoradas SEP-INEE
Nicaragua 1996 Muestra ¿? ---
Panamá 1999 Muestra ¿? Irregular
Paraguay 1995 Muestra ¿? SNEPE
Perú 1996 Censo Simples UMC
Uruguay 1995 Ambas Mejoradas UMRE-IE
Venezuela 1998 --- --- ¿?
Balance de la situación actual

Hay avance significativo y dos riesgos fuertes:


  Antiguo: no continuidad por cambios políticos.
  Nuevo: efectos perversos por prácticas que se
derivan de comprensión pobre de alcances y
límites de evaluación en gran escala.
Hace una década las evaluaciones eran pocas y sus
resultados casi no se difundían.
Hoy proliferan y comienzan a cansar a las escuelas;
los resultados se discuten acaloradamente, muchas
veces con escaso conocimiento de su complejidad.
Necesaria visión objetiva de las posibilidades de la
evaluación vs visiones superficiales.
Ejemplos de mal uso de evaluación

1. Ordenamientos de secundarias basados en el


EXANI I del CENEVAL 2003-2004
Exani I: pruebas con referencia a norma estadística.
  128 preguntas: 32 de habilidades; 96 de
conocimientos (12 para cada una de 8 áreas).
  No se controla representatividad curricular ni
sensibilidad a la instrucción.
  Se aplican a todos los aspirantes a entrar a un
plantel; no importa cantidad ni proporción de
egresados de la escuela de origen.
Adecuadas para seleccionar, no para juzgar calidad
de las secundarias de origen de los sustentantes.
1. Ordenamientos de secundarias
basados en el EXANI I

Se decía que se cuidaba que las versiones tuvieran


dificultad similar, pero no se daban evidencias del
uso de procedimientos rigurosos de equiparación.
No se informaba sobre error de medición e intervalo
de confianza de resultados por plantel, esencial para
valorar significatividad de las diferencias.
Se daban resultados y se dejaba que cada lector
juzgue si las diferencias entre las posiciones son
importantes… lo que no es posible sin información.
Los lectores tenderán a interpretar las diferencias
como significativas, como han hecho los medios que
hablan del top ten de las secundarias del país…
1. Ordenamientos de secundarias
basados en el EXANI I
Los sustentantes no eran todos los alumnos de las
secundarias de origen ni una muestra representativa
de ellos. Dado el tamaño de las escuelas sería
necesaria una alta proporción de los sujetos (≈ 90%)
escogidos aleatoriamente y no autoseleccionados.
Los resultados del Exani I no son adecuados para
valorar la calidad de las escuelas de origen.
Difundir esos ordenamientos reflejaba desconocer los
principios básicos del muestreo. Lo confirmaba el que
se comparaban los sustentantes del Exani I con la
muestra de PISA 2003, cuyo pequeño tamaño y %
de la población se aducía como justificación del uso
del EXANI I para valorar las escuelas de origen.
1. Ordenamientos de secundarias
basados en el EXANI I
Las publicaciones de resultados que hemos editado
y seguiremos editando son muestra de que, entre
los riesgos de equívocos y malas interpretaciones
debidos a sesgos, información incompleta o no
equiparable, y la ausencia de información, el
CENEVAL ha optado por lo primero.
La disyuntiva entre no dar información y ofrecer
una que induzca a error es falsa, ya que hay otra
posibilidad, la única aceptable: procesar bien la
información, teniendo en cuenta sus características
y los principios técnicos aplicables, y difundir los
resultados precisando alcances y límites, de modo
que se maximice la probabilidad de usos correctos.
2. Ordenamientos de escuelas basados en
ENLACE 2007

Educación 2001 publicó listados de 5 primarias y 5


secundarias de cada entidad, que se presentaban
como las mejores de México, con base en ENLACE.
Se informaba sobre el puntaje promedio de los
alumnos de cada escuela; el total de los alumnos
de cada una; el número de los que participaron en
la aplicación 2007; y el de los estudiantes con
respuestas sospechosas de copia.
Un análisis sencillo muestra, que en la gran
mayoría de los casos, los resultados de ENLACE no
sustentan la designación de las escuelas de las
listas de referencia como particularmente buenas.
2. Ordenamientos de escuelas basados en
ENLACE 2007
Las interpretaciones de ENLACE deben considerar:
  Que, en poblaciones pequeñas, la ausencia de
muy pocos alumnos en la aplicación puede dar
lugar a un sesgo fuerte de los resultados.
  Que lo mismo ocurre si unos cuantos alumnos
responden la prueba con ayuda.
  Que en escuelas muy chicas unos cuantos
alumnos atípicos, de resultados muy altos o
bajos, influirán desmesuradamente en el
promedio, y no por la escuela ni el maestro.
  Que no se deben combinar en una escala los
puntajes que miden dimensiones distintas.
2. Ordenamientos de escuelas basados en
ENLACE 2007

Las escuelas se clasificaron según 3 criterios:


  Privadas, públicas generales, indígenas y CC.
  Por tamaño: 1-10 alumnos; 11 a 100; >100.
  Por la confiabilidad de los resultados, según % de
alumnos matriculados que presentaron realmente
la prueba y % de sospechosos de copia.
Se consideraron confiables datos de escuelas en que:
  Al menos el 80% de los alumnos matriculados
presentó efectivamente la prueba y
  No más de 20% de los alumnos fueron
identificados como sospechosos de haber copiado.
Escuelas según número de alumnos y
confiabilidad de resultados

1 - 10 11-100 >100 Total


Privadas 13 --- --- 13
Generales 5 --- --- 5
Con resultados
Indígenas --- --- --- ---
mas confiables
C. C. 17 1 --- 18
Sub-total 35 1 --- 36
Privadas 16 33 5 54
Con resultados Generales 6 27 7 40
menos Indígenas --- 1 --- 1
confiables C. C. 18 6 --- 24
Sub-total 40 67 12 119
TOTAL 75 68 12 155
2. Ordenamientos de escuelas basados en
ENLACE 2007

Sólo una de las 155 primarias del listado tiene


resultados relativamente confiables y más de 10
alumnos. El análisis recuerda la anécdota jocosa
sobre un experimento para probar la eficacia de
cierto fármaco en una muestra de ratones. Los
resultados se reportaban en estos términos:
El 33% de la muestra se curó; el 33% se
murió; el otro ratón se escapó.
3. Los ordenamientos de entidades
federativas del informe Contra la Pared
Ordenamientos de entidades, supuestamente con
base en la calidad de sus sistemas educativos en
primaria y secundaria, según seis indicadores:
Resultados: Aprendizaje, Eficacia y Permanencia.
Procesos de gestión: Profesionalización docente,
Supervisión y Participación de padres de familia.
No limitarse a aprendizaje, positivo. Forma de
manejar y presentar información, problemas como
los de ENLACE, negativo. Tres tipos de problemas:
  Deficiencias particulares de cada indicador;
  Integración de 6 indicadores en un solo índice;
  Uso de ordenamientos de entidades.
Deficiencias de cada indicador

Aprendizaje: N° y % alumnos con resultado mejor


a nivel insuficiente en matemáticas en ENLACE.
Ya se mostró escasa precisión de ordenamientos
de escuelas basados en ENLACE.
Eficacia: Probabilidad de tránsito normativo entre
niveles: un grado/año, sin repetir ni desertar.
OK. Puede ser más preciso, distinguiendo
retraso de un año, o de dos años o más.
Permanencia: 100-deserción. % de alumnos que
no abandonan la escuela antes de concluir.
Las estadísticas no permiten seguir alumnos en
forma individual y el indicador se debe estimar
sobre cohortes aparentes, poco preciso.
Deficiencias de cada indicador

Profesionalización docente: N° de docentes en


escuelas públicas (%) que acreditaron ENAMS.
Muy burdo; no considera contenido de cursos ni
calidad de ENAMS.
Supervisión escolar: % de zonas escolares con 20
escuelas o menos.
Muy burdo; dice algo sobre tamaño de zonas y
nada sobre calidad de trabajo de supervisores.
Participación en la escuela: % de escuelas con un
consejo escolar constituido.
Muchos consejos se constituyen formalmente y
no tienen actividad. El indicador probablemente
mide más bien el grado de simulación.
Integración de los seis indicadores en un
solo índice

Cuando varios indicadores pretenden medir una


misma dimensión es adecuado un índice que mida
mejor que cualquiera indicador por separado.
Tratándose de dimensiones distintas un principio
metodológico básico es que los indicadores NO se
deben integrar.
Este es el caso del informe que nos ocupa, lo que
hace inadecuado el uso de un índice, aún si cada
indicador fuera bueno; si no es así, como hemos
visto, el uso del índice integrado es aún más
desafortunado.
En cuanto al uso de ordenamientos

El uso de ordenamientos de entidades es:


Engañoso, porque los sistemas educativos de las
entidades están formados por subsistemas de
tamaño y condiciones distintas: esc. privadas,
públicas urbanas de clase media o marginadas,
rurales, indígenas, CC, Tvsec...
Injusto, porque el lugar que ocupan las entidades
tiene que ver con condiciones socioeconómicas,
culturales e incluso geográficas, tanto y más
que con la calidad de sus sistemas educativos.
Con serias consecuencias negativas que se
evidencian en el uso mediático y político de los
resultados, en detrimento del uso serio.
Conclusiones: el peso excesivo de las
pruebas censales

Hace poco pruebas sin consecuencias para alumno,


maestro o escuela. Hoy sustentan medidas que se
espera producirán mejora sustancial en corto plazo.
Pruebas censales atraen la atención porque no
conocen sus alcances y límites varios actores:
  Medios de comunicación que buscan formas
fáciles de dar resultados sensacionalistas;
  Empresarios con visión simplista de educación;
  Políticos que no aprovechan la información de
pruebas y estudios y tienen visión superficial y
simplista de evaluar y mejorar calidad.
Limitaciones de las pruebas censales

  No cubren aspectos importantes del currículo


que no se pueden evaluar con preguntas de
respuesta estructurada: actitudes y valores, la
capacidad de expresión escrita y oral, e incluso
los niveles cognitivos más complejos de la
lectura, las matemáticas y las ciencias.
  No se controlan factores del hogar y la escuela
que inciden en los resultados, por lo que no se
deben usar para evaluar escuelas o maestros.
  Tienen márgenes de error no derivados del
muestreo, que se vuelven mayores si se quiere
comparar resultados a lo largo del tiempo.
Tendencia extendida en Latinoamérica

La excesiva atención a las pruebas censales no es


exclusiva de nuestro país:
  México: Peso de ENLACE vs trabajos del INEE.
  Brasil: PROVA Brasil vs SAEB.
  Perú: pruebas censales desplazan muestrales.
  Dominicana: censales deficientes desde 1990s.
  Colombia: pruebas ICFES evitan alto impacto y
ordenamientos de escuelas, presiones en contra.
Consecuencias

La proliferación de pruebas censales y el excesivo


peso en las políticas debido a su alto impacto traen
consecuencias negativas serias:
  Banalización del debate público reducido a
discusión de ordenamientos.
  Mercadotecnia de escuelas basadas en ellos.
  Empobrecimiento del currículo, por tendencia
de los maestros a enseñar para la pruebas.
  Cansancio en las escuelas y actitud negativa
de los alumnos frente a educación.
  Empobrecimiento de las políticas públicas, que
descuidan otros elementos fundamentales.
El impacto de las pruebas

Aún si no se dan estímulos económicos a escuelas


y maestros según resultados de pruebas, difundir
ordenamientos de escuelas según esos resultados
las vuelve de alto impacto y propicia corrupción,
con prácticas como la preparación de alumnos para
la prueba, la subordinación del currículo a las
evaluaciones o la alteración de resultados.
Las estrategias de mejora basadas en estímulos
económicos y competencia entre escuelas con base
en resultados de pruebas parten de transferencia
no sustentada de la economía y desconocen las
peculiaridades de la oferta y la demanda
educativas, que no siguen la lógica del mercado.
Conclusión

Muchos no tienen conciencia de lo difícil que es


tener buenos resultados con alumnos pobres.
Los empresarios ven con simpatía estrategias
simplistas de mejora, pensando que las fallas de la
escuela pública se corregirían fácilmente con
escuelas privadas como las de sus hijos, ignorando
que sólo una minoría privilegiada, asiste a ellas.
Abundan opiniones de que bastará con aplicar
pruebas masivamente y tomar medidas correctivas
simples para que la calidad mejore.
Conclusión

Las estrategias simplistas de mejora parten de un


supuesto falso: que hacer buena educación en
cualquier contexto es fácil:
Los sistemas de rendición de cuentas basados en
pruebas se basan en creencia de que la educación
pública puede mejorar gracias a una estrategia
sencilla: haga que todos los alumnos presenten
pruebas estandarizadas de rendimiento, y asocie
consecuencias fuertes a las pruebas, en la forma
de premios cuando resultados suben y sanciones
cuando no ocurra así.
Conclusión
Hay que sustituir la intimidación como principal
motivación… el miedo a veces funciona, pero sólo
motiva a los que tienen esperanza de éxito…
Los empresarios creen que tendremos mejores
escuelas si las comparamos según sus resultados
en las pruebas y las premiamos o castigamos con
base en ello; no consiguen entender el impacto
negativo sobre las escuelas que continuamente
pierden en esa competencia…
Los políticos creen que si poca intimidación no
funciona, mucha lo hará, y la evaluación ha sido la
forma de aumentar la presión; tampoco entienden
las implicaciones de las pruebas sobre las escuelas
y sobre los alumnos en dificultades.
Conclusión

Estas tendencias reflejan preocupación con


sustento real sobre la calidad de la educación.
Contexto amplio: interés por rendición de cuentas
y transparencia en asuntos públicos; desconfianza
respecto de la educación pública y, en general,
respecto a la gestión pública de los servicios.
A todo ello se añade escasa cultura de evaluación,
no sólo entre el público general, sino también entre
maestros y autoridades educativas, e incluso entre
investigadores y especialistas.
Esto lleva a esperar resultados casi milagrosos en
las escuelas, gracias a la aplicación de pruebas, sin
tener en cuenta sus alcances y límites.
Dos tipos de críticas a las pruebas

  De opositores radicales que piensan que todas


son inapropiadas para el trabajo educativo, a
partir de postura ideológica, sin base empírica.
  De conocedores de las pruebas, partidarios de
su uso adecuado y preocupados por usos
ilegítimos que traen consecuencias negativas.
Me sitúo en el segundo grupo. Estoy convencido de
que nuestras escuelas –en particular públicas—
necesitan mejorar sustancialmente.
Creo que la evaluación puede ayudar, pero no de
cualquier tipo, en particular no pruebas con fallas
técnicas, aplicadas masivamente, y utilizadas como
única base para asignar estímulos económicos.
Para terminar

Se dice lo que no se evalúa no se puede mejorar, y


en educación evaluar se identifica con pruebas.
Finlandia no aplicaba pruebas, EEUU muchas. ¿Qué
pasa con esas ideas generalmente aceptadas?
Frases alternativas más precisas:
Lo que no se evalúa no se puede mejorar. Lo que
sí se evalúa tampoco, si no se trabaja duro…
Si se trabaja duro para hacer las cosas bien, se
puede tener buena calidad, aunque no se evalúe,
pero esto último puede ayudar.
Lo que no se evalúa sistemáticamente se puede
mejorar, pero no sistemáticamente.
Conclusión

Lo irremplazable para alcanzar la calidad es un


trabajo intenso y bien orientado; para ello hacen
falta muchas cosas, incluyendo buena evaluación.
Lo que NO hace falta es un uso de los resultados
que desorienta a los tomadores de decisiones y la
sociedad, lleva a unos a jactarse de logros dudosos
y a otros, entre los que se cuentan personas serias
y comprometidas, a perder la poca esperanza que
aún tenían.
¡Ojalá no sigamos por ese camino!
MUCHAS GRACIAS
POR SU ATENCIÓN

Você também pode gostar