Você está na página 1de 36

Estudos em Avaliao Educacional, n.

27, jan-jun/2003 41
Avallaes Naclonals em Larga Escala:
anllses e proposIas
HERALDO MARELlM VlANNA
Pesquisador Snior do Departamento de Pesquisas Educacionais da
Fundao Carlos Chagas, So Paulo, SP
hvianna@fcc.org.br
Resumo
O presente texto examina problemas ligados s avaliaes que abrangem um grande
nmero de sujeitos, fazendo, inicialmente, uma discusso das vrias maneiras de acesso ao
ensino superior. A seguir, as avaliaes sistmicas, iniciadas na dcada de 90, merecem
detalhadas consideraes sobre questes relacionadas anlise dos dados e s metodologias
estatsticas empregadas. A avaliao do SAEB Sistema de Avaliao do Ensino Bsico
vista em toda a sua amplitude, inclusive no referente validade conseqencial. Para a
avaliao do ENEM Exame Nacional do Ensino Mdio , aps ser examinada em relao
ausncia da validade de construto, o presente trabalho oferece propostas alternativas para
esse exame. Ao examinar o ENC- Exame Nacional de Cursos, o chamado PROVO, o
presente texto detm-se na questo da validade de contedo e faz restries ao uso da curva
normal na apresentao dos resultados. Ao final, examinado o significado da auto-
avaliao e da avaliao externa.
Palavras-chave: avaliao educacional, avaliao em larga escala, avaliao sistmica, SAEB,
ENEM, ENC.
Resumen
El presente escrito examina problemas relacionados con las evaluaciones que abarcan un
gran nmero de sujetos, proponiendo, al principio, una discusin sobre las varias maneras
de acceder la universidad. A continuacin, las evaluaciones sistmicas, iniciadas en la
dcada del 90, merecen consideraciones minuciosas sobre cuestiones referentes a la anlisis
de los datos y a las metodologas estadsticas empleadas. La evaluacin del SAEB
Sistema de Evaluacin de la Enseaza Bsica es considerada en toda su amplitud, incluso
en lo que se refiere a la validad consecuencial. La evaluacin del ENEM Examen
Nacional de la Secundria , despus de examinada sobre la ausencia de validad de
constructo, el trabajo fornece propuestas alternativas para esa evaluacin. Al examinar el
ENC Examen Nacional de Cursos , conocido por Provo, el presente trabajo se
detiene en la cuestin de la validad del contenido y hace restricciones al uso de la curvatura
normal para la presentacin de los resultados. Por ltimo, examina el significado de la auto-
evaluacin y de la evaluacin externa.
Palabras-clave: evaluacin educacional, evaluacin en larga escala, evaluacin sistmica,
SAEB, ENEM, ENC.
Estudos em Avaliao Educacional, n. 27, jan-jun/2003 42
Abstract
This text examines problems related to assessments of a large number of subjects and
engages, at first, in a discussion of the various types of college entrance examinations. Next,
the systemic assessments, which began in the 90s, are studied in detail in relation to the data
analyses and the statistical methods used. The assessment of the SAEB (Basic School
Evaluation System) is looked at in its totality, including its consequential validity. ENEMs
evaluation (Middle School National Exam) is examined with reference to the absence of the
constructs validity, after which alternative proposals are offered for this exam. Upon
examining the National Exam of Courses (ENC), this paper dwells on the problem of the
contents validity and puts restrictions on the use of the normal curve to present the results.
Finally, the meaning of self-evaluation and external evaluation are examined.
Key words: educational assessment, large-scale assessment, systemic assessment, SAEB,
ENEM, ENC.
Estudos em Avaliao Educacional, n. 27, jan-jun/2003 43
Rara felicidade de uma poca em
que se pode pensar o que se quer e
dizer o que se pensa. Tcito,
Histrias
1
INTRODUO E APRESENTAO DE PROBLEMAS
A avaliao educacional, especialmente a partir dos anos 90, passou
a ser usada, no contexto brasileiro, em diferentes nveis administrativos,
como tentativa de encontrar um caminho para a soluo de alguns
problemas educacionais mais prementes, esperando, possivelmente, que os
processos avaliativos determinariam, entre outros resultados, a elevao
dos padres de desempenho, caso fossem conduzidos com o uso de
tecnologias testadas na sua eficincia em outras experincias semelhantes,
realizadas em diversos pases, ainda que com culturas diferentes. Essa
expectativa no se restringe unicamente ao mbito nacional, sendo
ocorrncia bastante generalizada em quase todo o mundo ocidental, que
concentra suas melhores esperanas nos resultados dessas avaliaes. As
avaliaes apontam problemas, mas no os solucionam; outros caminhos
devero ser perseguidos.
A grande preocupao de educadores e de pessoas ligadas a
problemas educacionais est na qualidade da educao, como demonstra o
documento final da Conferncia Mundial sobre Educao para Todos, ocorrida
em Jomtien, Tailndia, em maio de 1990. O objetivo maior, na perspectiva
oferecida no decorrer desse encontro, centrou-se na aquisio de
conhecimentos, no desenvolvimento de habilidades e destrezas, na
formao de atitudes, no despertar de interesses e na interiorizao de
valores; entretanto, no se considerou em que medida esses resultados se
integrariam no contexto de uma sociedade em constante transformao,
sujeita interveno de mltiplas variveis nem sempre previsveis.
necessria uma reflexo sobre as avaliaes ora operacionalizadas
nos vrios nveis do nosso sistema educacional, especialmente avaliaes
em larga escala, abrangendo a diversidade da nossa geografia
multicultural, avaliaes estas de natureza amostral e supostamente
consideradas representativas em termos estatsticos. Fala-se, e com bastante

1
Tcito, Histrias, in Hume, David. Tratado da Natureza Humana - Uma tentativa de introduzir
o mtodo experimental de raciocnio nos assuntos morais. Livro I, Do entendimento. Traduo
de Dborah Danowski. 1 reimpresso. Editora UNESP: Imprensa Oficial do Estado. So
Paulo, 2001.
Estudos em Avaliao Educacional, n. 27, jan-jun/2003 44
destaque, ainda que nem sempre de forma consistente, na avaliao de
competncias e habilidades, mas de modo discutvel e muito pouco
consensual. Gostaramos de invocar, neste ponto, antes de darmos
prosseguimento s nossas reflexes, a citao de Tcito, em epgrafe, que
David Hume usou na abertura de um de seus livros, deixando evidente,
dessa forma, que os nossos comentrios no visam a despertar
susceptibilidades, mas to somente a contribuir com a nossa reflexo para a
anlise de uma temtica extremamente relevante no momento atual.
As questes que se impem imediatamente, com o objetivo de
aprofundar nossas percepes, podem ser propostas da seguinte forma:
so desenvolvidas competncias e habilidades em nosso sistema
educacional de uma forma sistemtica, ou, explicitando, o nosso ensino
orientado para o desenvolvimento de competncias? se for, qual a
natureza dessas competncias e supostas habilidades? Outra pergunta, que
tambm reflete a nossa perplexidade: se competncias e habilidades
foram promovidas, houve, efetivamente, preparo adequado dos
educadores em relao a esse complexo e controvertido assunto? E quanto
a atitudes, interesses e valores? As indagaes partem do princpio de que
somente se pode avaliar aquilo que efetivamente foi desenvolvido, alm de
considerar que no se avalia em abstrato, mas considerando a problemtica
em que se situam os avaliados.
Quando pensamos em qualquer dos nveis da avaliao, micro ou
macro
2
, faz-se necessrio que consideremos a complexidade do seu
processo, que, ao longo dos anos, foi perdendo muito do seu carter
relacional aluno/professor, com vistas orientao da aprendizagem,
passando a concentrar-se, sobretudo, conforme chama ateno Kellaghan
(2001), no desempenho institucional e no dos sistemas, como sucede
igualmente em outras avaliaes com objetivos mais amplos, de que so
exemplos, no nosso caso particular, as avaliaes promovidas na dcada de
90 pelo Governo Federal SAEB Sistema de Avaliao do Ensino Bsico,
ENEM Exame Nacional do Ensino Mdio, e ENC Exame Nacional de Cursos.
Se forem considerados alguns aspectos dessas avaliaes,
constataremos que usam provas escritas, com questes objetivas e questes
abertas, geralmente de resposta curta, havendo situaes, entretanto, em
que a prova de redao exigida. Observamos, assim, que no existem
provas prticas, orais ou avaliaes observacionais, como lembra Kellaghan

2
Sobre programas de avaliao em larga escala e seus problemas metodolgicos veja o
trabalho Vianna, H.M. (2001) Programas de Avaliao em Larga Escala: algumas
consideraes, apresentado 23th Annual IAEA Conference (International Association for
Educacional Assessment), no Rio de Janeiro, e publicado em Estudos em Avaliao
Educacional, n. 23, jan-jun/2001, da Fundao Carlos Chagas, So Paulo, SP. p. 93/104.
Estudos em Avaliao Educacional, n. 27, jan-jun/2003 45
(2001), que seriam desejveis para uma avaliao abrangente e conclusiva,
mas impossvel de se concretizar, somos forados a reconhecer, em
contextos que envolvem grandes massas, como no caso do ENEM/2002,
por exemplo, que abrangeu quase 1,5 milho de estudantes. Isso significa
que no temos realmente um quadro avaliativo completo, que seja
descritivo das diferentes dimenses do alunado, como seria desejvel, mas
uma simples mtrica do que se supe medir. possvel concluir, desse
modo, que muitas competncias e habilidades importantes no mundo atual
no so efetivamente avaliadas, ficando implicitamente comprometida a
definio do quadro educacional a ser configurado.
As avaliaes so realizadas para diferentes fins, ainda segundo o
posicionamento de Kellaghan (2001), destacando-se, inicialmente, como
uma de suas prioridades, a identificao de problemas de aprendizagem,
com o fito evidente de imediata superao do quadro apresentado.
(Evitamos a palavra recuperao, tendo em vista o seu atual descrdito no
meio educacional.) A realidade, entretanto, bem diversa do imaginado e
pretendido. O impacto dos resultados pode ser considerado mnimo, por
razes vrias: os relatrios, elaborados para administradores, tcnicos e,
em geral, para os responsveis pela definio e implementao de polticas
educacionais, no costumam chegar s mos dos professores para fins de
anlise, discusso e estabelecimento de linhas de ao. So
demasiadamente tcnicos, empregando um linguajar pleno de tecnalidades
muitas vezes desconhecidas dos docentes e que poderiam ser evitadas. Por
outro lado, esses mesmos resultados so apresentados em termos globais,
sem identificao, como seria desejvel, das unidades escolares, referindo-
se, quando muito, a unidades macro, os estados, e, nestes, eventualmente,
s regies geo-educacionais (superintendncias ou delegacias de ensino).
Ainda que os resultados dos desempenhos sejam apresentados em escalas
elaboradas por intermdio de rigorosos procedimentos estatsticos, e com a
especificao dos vrios nveis correspondentes de competncia,
dificilmente os professores tm condies tcnicas para interpretar dados
que resultam da expertise tcnica dos responsveis pelos relatrios.
Destaquemos, tambm, que h uma certa resistncia, nem sempre
explicitada, mas infundada, por parte de professores e alunos, aos
resultados de avaliaes amostrais, traduzindo, assim, certa dose de
incredulidade em relao generalizao das concluses. comum
ouvirmos: a minha escola no fez parte da amostra ou os meus alunos no
foram sorteados para a composio da amostra. Tudo isso faz com que
importantes avaliaes tenham o seu impacto, quando ocorre, bastante
restrito, ou at mesmo seja inexistente, em relao ao sistema e a suas
escolas.
Estudos em Avaliao Educacional, n. 27, jan-jun/2003 46
Ao pensarmos nos problemas da avaliao, no nos podemos
esquecer de que, assim como a motivao fundamental para a
aprendizagem, da mesma forma a motivao dos estudantes importante
para os trabalhos da avaliao. Entretanto, isso nem sempre ocorre e nem
objeto de considerao durante o seu processo. A avaliao quase sempre
impositiva, sem consulta a professores e muito menos a alunos. A
avaliao, por sua vez, igualmente repetitiva, no sentido de que, ao longo
de vrios semestres, os alunos fazem avaliaes internas e externas, sendo
que destas ltimas no conhecem os resultados de seus desempenhos e das
primeiras tm apenas um escore ou nota sem qualquer tipo de feedback que
lhes possa servir de orientao. Esquecem-se as autoridades
administrativas da educao e, s vezes, os prprios professores, que os
alunos necessitam ser motivados para a avaliao, assim como, idealmente,
so motivados para a aprendizagem, conforme destaque inicial. As
avaliaes, especialmente aquelas em larga escala, tornam-se montonas,
cansativas, geradoras de tenses e, muitas vezes, criadoras de conflitos, e
como as avaliaes no tm maiores conseqncias na vida dos avaliados,
reagem os mesmos mecanicamente e respondem la diable s vrias
questes apresentadas e, desse modo, as avaliaes, reiteramos, perdem o
seu significado, ainda que aos dados, resultantes de comportamentos
inteiramente descompromissados, sejam aplicados procedimentos
estatsticos complexos, que, por sua vez, geram todo um filosofar
supostamente baseado em elementos considerados cientficos e levam a
decises de repercusso, criando-se, assim, idias falaciosas em grande
parte da sociedade, que, apesar de tudo, passa a acreditar nas concluses
estabelecidas como se verdades absolutas fossem.
A avaliao sempre considerando o caso brasileiro procura,
igualmente, estabelecer a eficincia dos sistemas, avaliando, indiretamente,
o xito da ao docente dos professores. Avaliar professores, direta ou
indiretamente, sempre um processo que demanda grande sensibilidade,
pois gera mltiplas reaes com ressonncias negativas, qualquer que seja
o contexto. A avaliao do professor, por sua vez, vista com certa
suspeita, pois, na concepo dos avaliados, e s vezes com justa razo, pode
significar, em muitos casos, transferncia de escola ou de cidade, reduo
salarial, diminuio do nmero de aulas, concesso de bnus para os
supostamente melhores e, ainda, numa situao extrema, demisso. Tudo
isso integra a mitologia educacional, bastante frtil em imaginar situaes
as mais diversas.
Avaliar o professor sempre tarefa difcil e ingrata, mas deve ser
feita, desde que com competncia e, sobretudo, bom senso. A avaliao
indireta, por meio do desempenho dos alunos, por sua vez, representa
Estudos em Avaliao Educacional, n. 27, jan-jun/2003 47
grande risco, com amplas conseqncias. evidente que o processo
ensino/aprendizagem se realiza por intermdio da interao
professor/aluno, mas, por si, essa interao no resolve inteiramente a
questo. Fatores externos escola, inteiramente conhecidos pelos que
transitam no mundo da pesquisa educacional, tambm tm importante
papel no sucesso escolar, sendo suficiente citar alguns poucos como, entre
outros, a equivalncia idade/srie; horas de estudo no lar e a participao
efetiva da famlia no acompanhamento das atividades escolares. O fracasso
ou o baixo desempenho numa avaliao, portanto, nem sempre est
relacionado ao professor, que, muitas vezes, por si, no tem condies de
atuar visando eliminao desses fatores. O ato de avaliar implica,
necessariamente, considerar mltiplas variveis, inclusive sociais,
econmicas e culturais, que podem invalidar as aes subseqentes ao
trabalho de avaliao.
At que ponto as avaliaes devem ser exclusivamente internas,
eliminando-se a ocorrncia de avaliaes externas? Quando nos referimos a
avaliaes internas temos em mente as que so realizadas pelas escolas.
evidente que a avaliao na escola parte do processo formativo,
constituindo o trinmio ensino-aprendizagem-avaliao, sob orientao do
professor. A avaliao interna pelos rgos centrais do sistema
imprescindvel, para fins de acompanhamento e reorientao dos
procedimentos, se for o caso, alm de constituir-se em fonte de
desenvolvimento de competncias e de apropriao de novas tecnologias
por parte do pessoal do prprio sistema. As avaliaes externas, realizadas
quase sempre por proposta dos rgo diretivos do sistema (Ministrio da
Educao; Secretarias de Estado da Educao), so recomendveis, na
medida em que representam um trabalho no comprometido com a
administrao educacional e as polticas que a orientam; so avaliaes que
traduzem uma viso de fora e supostamente isenta em relao a possveis
idiossincrasias prprias dos sistemas educacionais. Estas avaliaes,
entretanto, como ser analisado mais adiante, representam um problema,
quando abrangem regies com grande amplitude de variao nas suas
condies sociais, econmicas e culturais, face ocorrncia de possveis
comparaes destitudas de sentido e a generalizaes comprometidas,
tendo em vista as diversidades apontadas que deveriam ser levadas em
considerao na constituio de escores compsitos com valores agregados
que traduziriam a maior ou menor influncia da escola no desempenho
educacional dos estudantes avaliados.
Estudos em Avaliao Educacional, n. 27, jan-jun/2003 48
ACESSO AO ENSINO SUPERIOR UM QUADRO DISCUTVEL
Um aspecto a considerar, especialmente em relao s avaliaes em
larga escala, para fins de selecionar os melhores e mais capazes para o
ensino superior, refere-se ao perodo de tempo em que so realizadas,
sendo admissveis duas situaes:- a avaliao ocorre de forma global,
abrangendo alguns poucos dias seguidos; ou, ento, em diferentes
perodos, ao longo de vrios semestres, no decorrer de trs anos, em
correspondncia ao final de cada srie do Ensino Mdio, sendo esta
modalidade bastante discutvel. O primeiro modelo seguido pela maior
parte das instituies brasileiras de ensino superior, inclusive
universidades e centro universitrios. O perodo de tempo das avaliaes
quase nunca ultrapassa a quatro dias, mas num passado recente houve
avaliaes que duravam quase toda uma semana. Uma alternativa a esse
tipo de avaliao, ora sendo executado por muitas instituies, consiste na
avaliao em duas fases, sendo a primeira seletiva, com o objetivo de
eliminar parte do grande nmero de candidatos ao ensino superior, e a
segunda, classificatria, para atendimento do numerus clausus que regula o
acesso por curso.
As avaliaes anteriormente apresentadas, institudas h mais de 90
anos, so altamente controversas, na formulao dos seus propsitos e no
instrumental empregado. um tipo de avaliao associada problemtica
do alto nmero de sujeitos que terminam o ensino mdio sem
possibilidades do exerccio de qualquer atividade profissional, restando-
lhes a tentativa do acesso ao ensino de terceiro grau, que tambm tem
graves problemas, mas com caractersticas especficas. uma avaliao
estressante e a qualidade dos instrumentos bastante comprometida, salvo
em algumas universidades e fundaes dedicadas especificamente
pesquisa e avaliao, que desenvolveram e aprimoraram o seu know-how
docimolgico, inclusive usando complexas metodologias estatsticas para
fins de anlise de questes e da identificao de atributos psicomtricos
desejveis; contudo, grosso modo, pode-se dizer que so avaliaes ad hoc,
com a construo reiterada, ano aps ano um trabalho de Ssifo , de
novos instrumentos que nem sempre se revestem das caractersticas
desejveis, especialmente em relao validade de contedo e de
predio, no havendo, tambm, preocupao maior com a fidedignidade
(preciso) dos resultados, que quase nunca estimada, mas que, por
intermdio de uma anlise qualitativa crtica, pode ser inferida,
considerando a no representatividade amostral dos contedos e das
capacidades, e as deficincias tcnicas na construo dos itens ou questes.
Estudos em Avaliao Educacional, n. 27, jan-jun/2003 49
As avaliaes em duas fases, uma seletiva e outra classificatria, no
acesso ao ensino superior, inicialmente restrita a poucas instituies, hoje,
entretanto, conta com maior nmero de adeses. A adoo desse modelo
no resultou, salvo melhor juzo, de anlises e consideraes sobre a
melhoria do processo; na verdade, procurou solucionar problema
operacional, tendo em vista que, em muitos casos, h o envolvimento de
centenas de milhares de estudantes. A segunda fase estabelece a priori
como ponto de corte um valor igual, aproximadamente, a trs vezes, em
mdia, o nmero de vagas por curso, e com uma nica avaliao, realizada
por meio de um nico instrumento voltado apenas para conhecimentos e
algumas poucas capacidades, consegue reduzir a grande massa de sujeitos
a um nvel razovel, em termos econmicos, tendo em vista os custos
operacionais das avaliaes em larga escala. Estes selecionados passam,
ento, para a segunda fase classificatria. Uma situao extremamente
bizarra se configura no caso, quando se relacionam os resultados das duas
fases e so obtidos coeficientes elevados e positivos. Isso significa,
primeiramente, que os melhores da segunda fase foram os igualmente
melhores, em princpio, na fase inicial (seletiva), sendo a segunda fase,
consequentemente, redundante, alm de evidenciar a natureza repetitiva
desta ltima fase.
Ao longo do Ensino Mdio, em alguns casos, temos avaliaes
parceladas, ao fim de cada srie, que, depois de terem seus resultados
consolidados, geram um escore compsito que servir para a fase
classificatria do processo seletivo. Algumas poucas universidades, bem
verdade, seguem esse procedimento, reservando para os sujeitos
submetidos a essa avaliao determinados percentuais de vagas. A nova
sistemtica, na viso de muitos, revestir-se-ia de maior racionalidade,
evitando, inclusive, a chamada situao de stress de uma nica avaliao;
entretanto, necessrio atentar para o fato de que essa metodologia gera
um desvirtuamento do Ensino Mdio, que, supostamente, dedicado
formao geral, mas, no caso presente, passa a ser inteiramente direcionado
para o ensino superior, transformando-se em um curso meramente
preparatrio para o terceiro grau, e quanto ao stress, este acaba sendo
triplicado ou, como colocou ilustre professor preocupado com problemas
de ensino e repetncia, o aluno ao invs de passar uma vez pela guilhotina,
passa trs vezes, sem maiores contemplaes.
Ainda com relao avaliao para acesso ao terceiro grau, e com
apoio de rgos do executivo e do legislativo estadual, comea a ser
desenhado, sem maiores estudos e anlises, e sem considerar suas
numerosas implicaes e srios efeitos, um novo modelo de reserva de
vagas sistema de cotas para estudantes oriundos do sistema pblico de
Estudos em Avaliao Educacional, n. 27, jan-jun/2003 50
ensino e estudantes negros, candidatos a instituies oficiais, na tentativa
de superar um problema que na realidade se concentra na baixa qualidade
do ensino fundamental e do ensino mdio pblico, comprovada por
pesquisas empricas, inclusive muitas realizadas por rgos oficiais. As
primeiras novas experincias, nesse sentido, ocorreram no incio de 2003,
no Rio de Janeiro, rompendo, desse modo, o princpio da isonomia
igualdade de condies para todos existente no sistema ora vigente de
avaliao.
AVALIAES SISTMICAS ALGUMAS QUESTES CRUCIAIS
Ainda nos anos 90 houve grandes avaliaes dos sistemas estaduais
de ensino no Brasil, ligadas, na maioria das vezes, a projetos educacionais
financiados pelo Banco Mundial. Essas avaliaes apresentaram-se de
diferentes formas: algumas, realizadas pelas prprias Secretarias de
Educao; outras, por rgos estaduais nem sempre diretamente ligados
rea da educao; um terceiro grupo, com a colaborao de Fundaes,
instituies de direito privado especializadas na avaliao e seleo de
recursos humanos; finalmente, um quarto grupo realizou suas avaliaes
sistmicas estabelecendo consrcios com mltiplas instituies de ensino
pblico e privado de terceiro grau, sob a coordenao de uma universidade
de prestgio orientadora de todo o processo. Tudo isso gerou diferentes
experincias, mas no contribuiu para a formao de um know how coletivo,
pois, na maioria dos casos, essas experincias no se transformaram em
vivncias que pudessem ser intercambiveis e a prpria divulgao dos
resultados foi precria, sem atender aos diversos segmentos educacionais
potencialmente interessados nos resultados e nas concluses das
avaliaes.
Algumas avaliaes sistmicas tiveram um carter censitrio, mas a
maioria optou pela adoo de avaliaes amostrais. As primeiras, ainda
que apresentassem custos elevados, tendo em vista o nmero expressivo
de alunos e a problemtica de uma logstica complexa, foi resultado de
uma deciso poltica: fazer com que todo o sistema participasse da
problemtica da avaliao e no se limitasse apenas a colaborar na
aplicao dos instrumentos, mas fosse partcipe inclusive da construo dos
instrumentos e dos trabalhos de uma correo preliminar nas respectivas
escolas, discutindo, imediatamente, os primeiros problemas identificados e
fossem antecipadas as primeiras providncias para o seu saneamento, antes
da divulgao dos resultados globais pelos rgos centralizadores. Outros
sistemas comearam com avaliaes amostrais, que nem sempre tinham
Estudos em Avaliao Educacional, n. 27, jan-jun/2003 51
grande impacto, e evoluram para avaliaes censitrias, supostamente
pelas razes anteriormente apontadas. A maioria, entretanto, optou por
uma avaliao amostral, por representar economia de problemas
operacionais e minimizar os custos, alm de oferecer resultados igualmente
confiveis. As avaliaes censitrias tinham a vantagem de apresentar os
resultados por escola, municpio, Delegacia ou Superintendncia de Ensino,
e os dados globalizados por estado.
Observa-se nessas avaliaes que o grau de sofisticao do
tratamento estatstico dos dados variou grandemente. Inicialmente, houve
uma tendncia a apresentar os resultados de forma que fosse palatvel para
o sistema, que estivesse de acordo com a cultura educacional de todos os
segmentos e seria ingenuidade imaginar que os professores do ensino
fundamental ou do ensino mdio tivessem suficiente conhecimento
estatstico para entender prticas de anlise supostamente novas, mas que
j vigoravam em pases mais avanados desde os anos sessenta, como o
caso da anlise das questes por intermdio da metodologia da Teoria da
Resposta ao Item (TRI).
3
A impossibilidade de aplicao imediata dessas
novas tecnologias decorreu, tambm, da inexistncia de hardware nas
Secretarias de Estado da Educao, que se utilizavam de outros rgos, no
necessariamente ligados educao, para o processamento de dados, alm,
naturalmente, da falta de domnio na utilizao dos pacotes estatsticos
com os novos procedimentos de anlise.
A tendncia atual que se observa, decorrido um decnio das
primeiras avaliaes sistmicas, a da opo por avaliaes amostrais,
seguindo as linhas gerais das grandes avaliaes institudas pelo Governo
Federal, inclusive com o uso de questes integrantes do Banco de Dados do
Instituto Nacional de Estudos e Pesquisas Educacionais INEP e j
submetidas pr-testagem. Naturalmente, a situao ao longo dos anos se
alterou e nos dias fluentes as chamadas novas metodologias de anlise
so utilizadas com bastante freqncia, ainda que o seu entendimento seja
precrio, tanto por parte do pblico mais diretamente interessado a escola
e os educadores , como por muitos especialistas em avaliao que ainda
no superaram os procedimentos cannicos em que foram formados,
sobretudo os integrantes da gerao que se formou nos anos sessenta,
muitos dos quais optaram por abordagens qualitativas ou permaneceram
identificados com a chamada Teoria Clssica das Medidas.

3
Sobre a TRI, consultar LORD, Frederic M. Applications of Item Response Theory to Practical
Testing Problems. Hillsdade: Lawrence Erlbaum Associaters, 1980; LORD, Frederic M. e
NOVICK, M. R. Statistical Theory of Mental Test Score. Reading, Addison-Wesley, 1968;
VALLE, Raquel da C. Teoria da Resposta ao Item. Estudos em Avaliao Educacional, n. 21,
2000. Fundao Carlos Chagas, SP.
Estudos em Avaliao Educacional, n. 27, jan-jun/2003 52
Outra questo observada nas primeiras avaliaes relacionou-se ao
tipo de instrumento a ser empregado, ocorrendo discusses se seriam
instrumentos referenciados a critrio ou referenciados a normas.
4
O debate
foi em termos da realidade nacional, que, inclusive, naquele momento,
desconhecia os fundamentos desses dois tipos de instrumentos e,
conseqentemente, no tinha um domnio da sua tecnologia e da sua
metodologia de anlise. Ainda que ambos os tipos de instrumentos fossem
viveis para os fins desejados, prevaleceu o bom senso e a opo foi a de
utilizar instrumentos referenciados a normas, mais adequado tradio da
nossa cultura pedaggica, que j o utilizava sem um conhecimento
aprofundado dos seus fundamentos tericos. Alm do mais, nessas
avaliaes foi polmica a considerao de que a mesma seria de natureza
somativa, para usar a expresso de Michael Scriven, na sua obra clssica,
Methodology of Evaluation. A discusso teve, entretanto, algum mrito.
Foram realizadas palestras e cursos sobre avaliao por critrio, mas esse
novo tipo de instrumento passou a ser conhecido apenas por uma minoria
de professores.
A avaliao por critrio seria ideal para a avaliao de processo,
para correo e superao de dificuldades de aprendizagem, mas esse tipo
de avaliao ainda no foi incorporado cultura nacional e deveria integrar
o processo de educao continuada que se desenvolveu nos anos 90.
Lamentavelmente, a chamada progresso continuada, impropriamente
chamada de promoo automtica, denominao que inclusive concorreu
para o seu desvirtuamento, ainda no bem aceita pela comunidade,
apesar de esforos para esclarecimento da sua lgica e do seu significado,
que pressupem constante uso de diferentes tipos de trabalho avaliativo
em todos os momentos do processo instrucional. Essa seria a ocasio
apropriada para a introduo da avaliao referenciada a critrio e aos
trabalhos com grupos diversificados pelo mesmo professor, que muito teria
a aprender com a prtica das professoras nas escolas rurais, que trabalham
simultaneamente com alunos que apresentam diferentes nveis de
rendimento. Os professores deveriam ter treinamento especfico, dispor de
recursos e materiais didticos para suprir possveis deficincias dos grupos
com caractersticas diferenciadas, mas nada disso ocorreu, criando-se, dessa
forma, um certo confronto entre professores, alunos, comunidade e a
progresso continuada, pela ausncia de uma avaliao prpria para
atender a diversidade dos desempenhos.
A avaliao de sistemas durante os anos 90 e, sobretudo, no seu
incio apresentou um problema realmente crtico e somente parcialmente

4
Sobre o assunto, ver VIANNA, H. M. A perspectiva das medidas referenciadas a critrios.
Educao e Seleo, dezembro, 1980, n. 2. Fundao Carlos Chagas, So Paulo, SP.
Estudos em Avaliao Educacional, n. 27, jan-jun/2003 53
superado nos dias fluentes: ausncia de pessoal com formao especfica
em avaliao educacional, que, no contexto nacional, no considerada
rea de concentrao. Alguns problemas surgiram em decorrncia dessa
realidade, como as improvisaes, em alguns casos, a subordinao aos
chamados especialistas, em outros, e a adoo de novas metodologias,
sobretudo estatsticas, sem a posse do seu domnio, determinando, como
decorrncia, algumas situaes verdadeiramente bizarras. Apesar de
passado mais de um decnio do incio das grandes avaliaes, o problema
ainda persiste e dificilmente ser resolvido a curto prazo sem uma
mudana de mentalidade e a criao de uma nova cultura educacional.
SISTEMA DE AVALIAO DO ENSINO BSICO SAEB
O Governo Federal, ao implantar um programa de avaliao
abrangendo o ensino bsico, o mdio e o superior teve um gesto
extremamente corajoso, considerando, entre outros aspectos, a amplitude
da tarefa, a dificuldade na definio de padres, os problemas tcnicos nas
decises sobre os instrumentos e sua tecnologia, a possvel subjetividade
dos julgamentos de valor e a complexidade das operaes logsticas. E
chegamos, agora, a um ponto crtico em que se impe a avaliao da
prpria avaliao (metavaliao) e, simultaneamente, a auto-avaliao de
seus procedimentos, para rever antigas aes e propor novas outras aes,
luz da experincia acumulada. A avaliao para aprimoramento do
prprio projeto avaliativo um imperativo a que no se pode escapar.
O Sistema de Avaliao do Ensino Bsico SAEB , sem sombra de
dvida, a nosso juzo, o melhor e o mais bem delineado dos projetos
propostos pelo Ministrio da Educao. Nele dever-se-ia concentrar todo o
empenho governamental, por ser o ensino bsico o fundamento para a
construo do esprito de cidadania e o alicerce sobre o qual se apiam os
demais nveis educacionais; por isso, acreditamos que seus responsveis se
deveriam preocupar, particularmente, com duas das caractersticas dos
instrumentos de medida voltados para o rendimento escolar, a validade de
contedo e a validade conseqencial
5
.
A validade, segundo o consenso dos especialistas, no uma
caracterstica geral, antes de tudo ela especfica. Um instrumento de
medida no vlido em tese, pode ser vlido para um curso, mas no para
outro. Pode ser vlido para um currculo, mas no para outro; para um
professor, mas no para outro, inclusive, pode ser vlido para uma escola,

5
Sobre o assunto, ver MESSICK, Samuel. Validity, in LINN, Robert L. Educational
Measurement. American Council on Education. McMillan. New York,1989.
Estudos em Avaliao Educacional, n. 27, jan-jun/2003 54
mas no o ser para outra instituio. A questo da validade extremamente
delicada em qualquer contexto educacional e, no nosso caso particular,
precisamos considerar a formao da nossa nacionalidade, a grande
diversidade social, econmica e cultural, demonstrada em todo o territrio
brasileiro, que varia de regies desenvolvidas, passando por zonas de
transio e chega a imensas reas com estruturas arcaicas. O problema da
validade, reiteramos, precisa ser tratado com extrema cautela, a fim de
evitar que a posterior anlise dos dados possa levar a inferncias
destitudas de sentido. Tudo isso um desafio, sendo foroso atentar para a
validade amostral ou de contedo dos instrumentos utilizados, para que
sejam os dados representativos da diversidade da nossa geografia cultural.
Os programas de pesquisa sobre o SAEB deveriam incluir,
necessariamente, uma parte dedicada a estudos de validade, nas suas
diferentes modalidades, evitando-se o tratamento tangencial da questo,
como vem ocorrendo em alguns poucos trabalhos que discutem a
problemtica da avaliao.
Outro problema a considerar, no caso do SAEB, relaciona-se
validade conseqencial, que se refere ao impacto da avaliao sobre o
sistema, determinando mudanas de pensamento, gerando novos
comportamentos, formando novas atitudes e promovendo novas aes. A
validade conseqencial reflete em que medida a avaliao faz realmente
alguma diferena para a comunidade. At agora a influncia do SAEB, na
nossa viso, tem sido bastante restrita na comunidade escolar, em que pese
o sucesso jornalstico, com a publicao dos seus resultados nos vrios
rgos da mdia.
O SAEB, ao divulgar o relatrio de suas avaliaes, apresenta a
metodologia, os tratamentos a que foram submetidos os resultados e uma
grande riqueza de dados e informaes sobre os diferentes desempenhos;
entretanto, esse documento, elaborado com extremo rigor tcnico, acaba
por se tornar inacessvel grande massa de interessados dentro e fora do
campo da educao. A sociedade, por intermdio da publicao dos
resultados em jornais, com inmeros e bem construdos grficos e tabelas,
que procuram ser auto-explicativos, assiste a tudo sem entender bem o que
se passa e, acreditamos, muitos pais se indagaro: a escola do meu filho se
saiu bem? o meu filho teve uma boa nota na avaliao? o meu filho foi
melhor ou pior que os seus companheiros de classe? e os seus colegas de
srie se saram melhor ou pior do que ele? So grandes incgnitas em uma
situao pouco compreensvel para a grande massa.
Queremos mais uma vez destacar a importncia e o significado do
SAEB, como avaliao de sistemas, mas preciso que os responsveis pela
sua administrao compreendam que diferentes setores da sociedade esto
Estudos em Avaliao Educacional, n. 27, jan-jun/2003 55
interessados em conhecer e discutir os dados do SAEB e a cada um desses
segmentos deveria corresponder diferentes documentos, apresentados
desde a sua forma mais completa, incluindo diferentes estatsticas, estudos
de validade e anlises dos vrios desempenhos e suas capacidades,
relatrios tcnicos, enfim, at a sua verso mais simples, que poderia ser
apenas um folder informativo, para divulgao entre os pais e demais
integrantes da sociedade. Devemos confessar, por ser de inteira justia, que,
em 2001, o INEP, compreendendo a relevncia do problema ora exposto,
promoveu em Curitiba, na Secretaria de Estado da Educao, uma reunio
de elementos das outras Secretarias e pessoas ligadas avaliao
educacional para discutir a questo da disseminao do SAEB, ficando
assentado que em 2002 apresentaria seus dados em relatrios com
diferentes abordagens, para atender os vrios segmentos da sociedade.
Assim procedendo, e havendo a integrao das escolas para discusses dos
dados, acreditamos ser possvel que, a mdio prazo, talvez se possa
comear a falar da validade conseqencial do SAEB.
EXAME NACIONAL DO ENSINO MDIO ENEM propostas
alternativas
A idia de uma avaliao ao trmino do Ensino Mdio provocou
grandes expectativas em alguns ambientes educacionais, por corresponder
a uma necessidade, considerando, entre outros aspectos, a expanso
descontrolada da rede de ensino, especialmente no mbito privado, que
apresenta, como do conhecimento geral, diferentes nveis, variando desde
as escolas realmente excelentes, com elevado padro de ensino, a escolas
sem maiores compromissos. A criao de um Exame de Estado, idia que
surge recorrentemente, provoca grandes discusses, por ser uma medida
bastante problemtica, que acarretaria inmeros e srios problemas,
sobretudo no atual quadro nacional. Felizmente, essa idia no prosperou.
Outros chegaram a falar na introduo de um exame semelhante ao
Baccalaurat francs
6
, o que poderia, primeira vista, ser visto como um
avano, mas provocaria reaes do sistema e seria de uma logstica
muitssimo complicada, alm de onerosa e inteiramente intil para o caso
brasileiro. A nossa expectativa, considerando o conhecimento de outros
contextos e experincias pessoais, centrou-se na possibilidade de um
exame, obrigatrio para todos os aspirantes a estudos superiores, que

6
O Baccalaurat o primeiro dos graus universitrios no sistema educacional da Frana. Ver
Encyclopdie Pratique de lducation en France. Institut Pdagogique National. Ministre de
lducation National. Paris, 1969. p.150-153.
Estudos em Avaliao Educacional, n. 27, jan-jun/2003 56
tivesse alguma identidade com as grandes linhas do SAT Scholastic
Aptitude Test, desenvolvido e aprimorado no Educational Testing Service
(Princeton, New Jersey, USA), e que, considerando-se as peculiaridades do
nosso sistema educacional, tivesse diferentes normas de interpretao,
conforme veremos mais adiante.
A concretizao da louvvel idia do ENEM Exame Nacional do
Ensino Mdio fez surgir alguns problemas que merecem discusso, a
comear pelo seu prprio nome. Trata-se de um exame, circunstncia que
nos remete imediatamente idia de medida, que, eventualmente, pode ser
usada numa avaliao, sem que isso, entretanto, signifique o comeo
necessrio de toda e qualquer avaliao. Temos, tambm, um exame que
no obrigatrio nos termos em que foi institudo; contudo, mecanismos
de cautela foram criados para promover a sua aceitao e contornar
resistncias, que de fato vieram a ocorrer e ainda persistem. Alguns
sistemas oficiais a va sans dire assumiram o pagamento da taxa cobrada
aos alunos e que era um dos motivos de oposio ao exame;
posteriormente, os alunos carentes, certamente a grande maioria dos que
freqentam o sistema pblico de ensino, ressalvados alguns bolses da
chamada classe mdia baixa, foram liberados dessa mesma taxa de
inscrio. Ao conjunto de diferentes estmulos, para garantia da aceitao
do exame, foi agregada a proposta, algo temerria, convenhamos, do uso
dos seus resultados no acesso seleo para o ensino superior, medida
recebida com entusiasmo por algumas instituies e aceita com reserva por
outras, inclusive oficiais, que passaram a admitir o resultado desse exame,
mas, cautelosamente, fixaram alguma forma de ponderao, para evitar
que os resultados do seu prprio processo seletivo fossem invalidados.
A aceitao do escore ENEM, para fins de acesso ao ensino
superior, precisa ser cuidadosamente repensada, porque influencia no
aumento do ponto de corte (e isso efetivamente ocorre, e vem ocorrendo,
em vestibulares de primeira linha), sendo que, em alguns casos, esse
acrscimo chega a ser acima de cinco pontos, tornando ainda mais elitista o
processo de seleo para a Universidade e para algumas outras instituies
de nvel superior. foroso reconhecer que o uso do escore ENEM no
vestibular acaba com o princpio da isonomia, porquanto dois estudantes,
em igualdades de condies no processo seletivo, um, favorecido, aquele
que fez o ENEM, e o outro, ainda que com bons resultados, preterido,
simplesmente por no ter participado do ENEM.
O ENEM foi concebido para verificar competncias e habilidades,
segundo a formulao dos seus responsveis, e pretende avaliar cinco
competncias e vinte e uma habilidades, conforme reitera a sua literatura
de divulgao. O assunto, evidentemente, no pacfico, havendo
Estudos em Avaliao Educacional, n. 27, jan-jun/2003 57
contestaes solidamente fundamentadas que apresentam dvidas quanto
ao conceito e natureza dessas competncias e habilidades. So dvidas
no necessariamente acadmicas e que precisariam ser dirimidas, dada a
sua complexidade. A situao se nos afigura bastante conflituosa, quando
se observa que o prprio rgo responsvel pela avaliao proclama, alto e
em bom som, que o ENEM no mede contedos, mas apenas
competncias e habilidades. Confessamos a nossa perplexidade e a forma
dogmtica da assertiva faz-nos lembrar a lio do mestre da Universidade
de Chicago, Benjamin Bloom, injustamente esquecido entre ns, quando
afirmava com bastante clareza que, ao avaliarmos um contedo, estamos,
implicitamente, avaliando algo mais, as capacidades. Se considerarmos
alguns exemplos, veremos que impossvel verificar a habilidade numrica
de uma criana, sem constatar seus contedos de matemtica; impossvel
certificar a habilidade mecnica de um jovem, no conserto de um carro, por
exemplo, sem considerar seus contedos de mecnica de automvel;
invivel atestar a habilidade cirrgica de um mdico, sem considerar seus
contedos de clnica mdica, tcnicas cirrgicas e outros contedos mais
ligados a uma determinada patologia.
Os princpios que baseiam o ENEM ficam comprometidos quando
se examina o prprio instrumento utilizado, que parte de situaes que
demandam, liminarmente, conhecimentos de contedos, s vezes bastante
complexos, e entendimento da sua verbalizao, muitas vezes excessiva.
Acreditamos que o ENEM poderia se tornar um instrumento eficiente de
avaliao, e ser mais palatvel para a sua clientela, assim como para a
comunidade das instituies de nvel superior, evitando contestaes e
confrontaes, se ficasse restrito a apenas duas capacidades bsicas,
fundamentais na vida prtica e indispensveis em estudos superiores a
capacidade VERBAL e a capacidade NUMRICA, como veremos a seguir,
na anlise de trs situaes.
Teste de aptido verbal e numrica a verso SAT
O Scholastic Aptitude Test SAT um instrumento desenvolvido a
partir dos anos 20 e utilizado pelo College Entrance Examination Board
CEEB, nos Estados Unidos, para medir habilidades de raciocnio nas duas
reas anteriormente referidas: verbal e numrica, conforme a
apresentao de Donlon e Angoff (1971). Oferece escores separados para
essas duas reas e visa a verificar a competncia dos estudantes que
pretendem o ingresso em instituies de ensino superior. A funo desse
instrumento consiste em complementar informaes, confirmando ou
Estudos em Avaliao Educacional, n. 27, jan-jun/2003 58
questionando, o desempenho em reas de contedo, eliminando erros e
inconsistncias que possam ter ocorrido em avaliaes anteriores restritas
unicamente a contedos programticos. , reiteramos, um instrumento de
habilidades bsicas, cujos resultados vo integrar uma equao de
regresso composta do SAT verbal, SAT numrico, escores do nvel mdio
e outros elementos, no sendo usado apenas, e exclusivamente, o escore do
SAT como um fator isolado, conforme crena de muitos. As pesquisas
demonstraram que o SAT, que uma medida padronizada em uma escala
comum, possui alta validade preditiva dos melhores desempenhos nos
colleges e nas universidades, acrescentando algo mais aos elementos de
informao que integram a equao final usada para fins de seleo e
classificao.
O SAT baseou-se na definio expressa por Ryans e Fredericksen
(1951) e, sobretudo, na definio operacional de Cronbach (1960), com
vistas a medir aspectos de habilidades desenvolvidas ao longo do tempo,
fixando-se em habilidades verbais e numricas, partindo do princpio de
que as mesmas se constituram no decurso da interao do estudante com
o meio e, dessa forma, passaram a ser um equipamento relativamente
independente da aprendizagem formal na escola. O contedo do SAT
balanceado a fim de compensar diferenas de interesses e de background
dos vrios segmentos da populao. Ao longo dos anos, necessrio
destacar, o SAT procurou introduzir outros elementos alm do verbal e do
numrico, mas nenhum deles demonstrou altas associaes com
desempenhos posteriores; desse modo, o SAT continuou identificado com a
sua definio inicial centrada nos dois conjuntos de habilidades j referidas.
Ao longo dos anos, a parte verbal tem sido bastante diversificada,
partindo de subsdios de diferentes reas social, poltica e cientfica s
quais so agregados elementos de outras reas literria, artstica e
filosfica , enquanto a parte numrica do SAT procurou afastar-se de
contedos curriculares, na medida do possvel, concentrando-se em
raciocnio lgico e na percepo de relaes matemticas. O SAT, ressalte-
se, possui vrias formas ou verses para aplicao em diversos momentos
do ano, ao longo de anos sucessivos, e para fins de evitar problemas com a
interpretao dos escores, so os mesmos padronizados em uma escala com
mdia pr-fixada de 500 e desvio padro igualmente preestabelecido de
100.
Vejamos a estrutura bsica do SAT, conforme a descrio
apresentada em Donlon e Angoff (1971), atentando, entretanto, para o fato
de que, ao longo dos anos, o SAT vem sofrendo alteraes bastante
cautelosas e muito controladas, ao introduzir algumas poucas alteraes no
seu contedo e na apresentao de novos tipos de itens, considerando a
Estudos em Avaliao Educacional, n. 27, jan-jun/2003 59
complexa problemtica do equating (tornar equivalentes resultados de
diferentes verses do mesmo teste) e da estrutura fatorial do teste. A ltima
alterao de que temos notcia foi a ocorrida no incio da dcada de 90,
conforme comunicao durante a reunio anual da International Association
for Assessment in Education, realizada no Saint Patricks College, em Dublin
(1992); assim sendo, a verso ora apresentada refere-se quela que
analisada no relatrio coordenado por William Angoff, inicialmente
referido. Nesse formato, a parte verbal do SAT, composta de 90 itens,
envolve antnimos, sentenas a completar, analogias e compreenso de
leitura de textos. A parte numrica, com 60 itens, apresenta dois conjuntos de
itens, sendo que um deles reflete questes habitualmente encontradas em
testes de matemtica e o outro usa itens sobre suficincia de dados. Os
itens esto organizados em ordem de dificuldade crescente, igualmente
padronizada pelo coeficiente Delta
7
, a partir dos mais fceis, em cada um
dos blocos, e a dificuldade mdia de cada bloco igual dificuldade do
teste no seu conjunto, o que possvel tendo em vista as cuidadosas
estatsticas levantadas na fase de pr-testagem.
Os itens no SAT so de mltipla escolha, com cinco alternativas, e os
folhetos de prova contm alguns itens a mais (25), chamados de itens
variantes, pois variam de aluno para aluno e de prova para prova, sendo
que alguns desses itens variantes destinam-se a obter informaes
necessrias equalizao das vrias formas; outros, usados como se a
aplicao fosse uma fase de pr-teste, sero incorporados mais tarde a
futuras verses do SAT, e um terceiro conjunto de itens destina-se
realizao de pesquisas. Esclarea-se, tambm, que os itens variantes no
diferem dos demais itens operacionais. So itens paralelos, na medida do
possvel, com o objetivo de evitar a ocorrncia de resultados enviesados
(item bias) em relao a determinadas variveis. A aplicao total do SAT
de trs horas, sendo duas e meia horas para os itens operacionais e a
restante meia hora para as questes variantes.
O SAT, ainda que seja um teste de aptido, , igualmente, um teste
de desempenho (achievement), mas deste difere pelo fato de que mnima a
sua dependncia em relao aos currculos tradicionais. Um aspecto a
ressalvar na parte verbal relaciona-se aos itens de compreenso de textos,
que so em nmero de sete e envolvem cincias biolgicas, cincias fsicas,
humanidades, estudos sociais, havendo outros trs itens que abrangem
narrao, sntese e argumentao. As questes esto distribudas em trs
amplas categorias, que, por sua vez, so subdivididas em categorias mais
restritas. Temos itens de COMPREENSO, abrangendo (1) compreenso

7
O coeficiente Delta padronizado em funo de uma mdia 13 e desvio 4, variando seus
valores de 1 a 25.
Estudos em Avaliao Educacional, n. 27, jan-jun/2003 60
da idia principal e (2) compreenso de idias secundrias; itens de
RACIOCNIO LGICO, envolvendo (3) completar inferncia pretendida,
(4) o uso de generalizao e (5) a avaliao da lgica da linguagem do
texto; e, finalmente, itens relacionados a ASPECTOS EMOCIONAIS DA
LINGUAGEM, (6) envolvendo a percepo do estilo e do tom do texto.
A dimenso contedo do subteste numrico do SAT abrange trs
categorias: aritmtica-lgebra, geometria e outros. A combinao de
aritmtica e lgebra resulta de que as regras bsicas de combinao para
ambas so as mesmas e, em muitos casos, os itens podem admitir uma
soluo por mtodos aritmticos ou algbricos. A categoria geometria
apresenta itens que demandam exclusivamente conhecimentos da
geometria euclidiana dedutiva; por sua vez, a categoria outros inclui
problemas que versam sobre lgica, topologia intuitiva, smbolos no
usuais, operaes e definies. Quanto s capacidades exigidas, os itens
compreendem, habilidade computacional, julgamento numrico e
estabelecimento de relaes, alm de outras mais classificadas como
miscelnea.
Outros testes de aptido verbal e numrica exemplos
Aps as consideraes sobre o SAT, veremos, em suas linhas gerais,
a experincia do Swedish Scholastic Test (SweSAT), aplicado desde 1991
para fins de acesso s universidades na Sucia, abrangendo ampla gama
de contedos e de nveis cognitivos, alm de solicitar o desempenho em um
subteste de Compreenso de Leitura em Ingls. A aplicao total do
SweSAT, com 148 itens, de quatro horas e o instrumento consta de seis
subtestes, medindo habilidades verbais e no-verbais, uso de informaes e
conhecimentos de carter geral, incluindo, ainda, compreenso de textos
em ingls. A configurao geral do teste a seguinte:
(1) o subteste PALAVRA consta de 30 itens e mede a
compreenso de palavras e conceitos;
(2) o subteste RACIOCNIO QUANTITATIVO possui 20 itens
e mede habilidades de raciocnio numrico na soluo de
problemas;
(3) o subteste COMPREENSO DE LEITURA - formado por 24
itens, mede a capacidade de compreenso de textos, sendo
composto de quatro textos com seis itens cada um;
(4) o subteste DIAGRAMAS, TABELAS e MAPAS engloba 20
itens e consiste em um conjunto de informaes sobre um
determinado assunto e a sua complexidade varia da
Estudos em Avaliao Educacional, n. 27, jan-jun/2003 61
interpretao de um grfico soluo de problemas com
dados de diferentes fontes;
(5) o subteste INFORMAO GERAL compreende 30 itens,
baseados em informaes adquiridas ao longo dos anos de
escolaridade, versando as mesmas sobre aspectos ligados ao
trabalho, educao, a problemas sociais, culturais e a
atividades polticas;
(6) o subteste de COMPREENSO de LEITURA em INGLS,
formado por 24 itens, possui uma formatao semelhante ao
subteste de Compreenso de Leitura (3) e compreende de 8 a
10 textos de diferentes tamanhos.
O teste usa questes de mltipla escolha com quatro alternativas e
suas funes bsicas e caractersticas esto descritas por Wedman (1995),
professor da Universidade de Ame (Sucia), que tambm faz uma
discusso sobre o seu desenvolvimento, uso e pesquisa em outro trabalho
(1994)
Beller (1995), do National Institute for Testing and Evaluation, em
Jerusalm, ao discutir os atuais dilemas e as solues propostas para Israel,
apresentou o esquema do Psychometric Entrance Test PET (1990),
construdo com o objetivo de estimar sucesso em futuros estudos
acadmicos, que consta de trs subitens:
(1) RACIOCNIO VERBAL com 60 itens que, basicamente,
procuram avaliar a habilidade de analisar e compreender
material escrito de natureza complexa; a habilidade de
pensar sistemtica e logicamente, e a habilidade de
distinguir o significado de palavras e conceitos. A parte
verbal contm diferentes tipos de questes, como antnimos,
analogias, completamento de sentenas, lgica e
compreenso de leitura;
(2) RACIOCNIO QUANTITATIVO possui 50 itens que
procuram avaliar a habilidade de usar nmeros e conceitos
matemticos na soluo de problemas algbricos e equaes,
assim como em problemas geomtricos. O subteste, alm
disso, verifica a capacidade de resolver problemas
quantitativos e a de analisar informaes apresentadas sob a
forma de grficos, tabelas e diagramas;
(3) a parte do subteste de INGLS avalia o domnio do ingls
como segunda lngua e os seus resultados integram o escore
total do PET, servindo, tambm, para a organizao de
Estudos em Avaliao Educacional, n. 27, jan-jun/2003 62
classes de recuperao para os que no tm um bom
desempenho lingstico. O subteste consta de 54 itens,
compreendendo sentenas para completar e reescrever, alm
de compreenso de textos.
Todos os itens do PET so de mltipla escolha e cada subteste
corrigido separadamente, numa escala padronizada com a mdia 100 e o
desvio 20. O escore total do PET a mdia ponderada dos escores nos trs
subtestes (40% Verbal; 40% Quantitativo e 20% Ingls), transformados
numa escala padronizada com a mdia 500 e o desvio 100, variando os
escores, assim como no SAT, de 200 a 800. O teste apresentado nas
seguintes lnguas: hebreu, rabe, espanhol, francs, ingls e russo, sendo
os escores nas diferentes verses equalizados em relao aos resultados do
teste em hebreu. Os candidatos que fizeram o teste em outra lngua que no
o hebreu devem fazer um teste de domnio nessa lngua, por ser o hebreu a
lngua oficial nas universidades. O artigo de Beller tambm analisa e
esclarece trs aspectos em relao ao PET eficincia, vis e efeitos
(pessoal, social e educacional).
O ENEM algumas questes bsicas
O instrumento usado no ENEM, tal como se apresenta no momento,
carece de requisitos fundamentais, como mostra uma simples inspeo
visual da distribuio dos itens, destacando-se, inicialmente, a validade de
contedo. A essa deficincia, acrescenta-se outra, igualmente grave ou
talvez mais grave ainda, por suas implicaes, relacionada validade de
construto. O teste, medindo competncias e habilidades, conforme sua
literatura de divulgao, por sua prpria natureza se baseia em construtos,
mas, ao que nos consta, at a presente data no ofereceu evidncias
empricas de que estaria efetivamente medindo aquelas variveis que,
supostamente, se prope a medir. O teste, apesar dos esforos daqueles que
participam da sua construo, salvo melhor juzo, no se fundamenta em
dados empricos slidos, apoiados em pesquisas que no deixem dvidas
quanto sua estrutura fatorial e a outros elementos oriundos de estudos
psicomtricos que evidenciem estar medindo aqueles atributos
proclamados.
Existem numerosas metodologias j assinaladas h mais de trinta
anos por Brown (1970) que poderiam ser utilizadas, inclusive a proposta
por Campbell e Fiske (1959) que, comprovadamente, se adapta ao estudo
dessa caracterstica fundamental, j evidenciada h quase meio sculo por
Estudos em Avaliao Educacional, n. 27, jan-jun/2003 63
Cronbach e Meehl (1955), inicialmente, para os testes psicolgicos, mas,
depois, incorporada teoria dos testes educacionais pelo prprio Cronbach
(1971), no seu seminal ensaio sobre validao dos instrumentos de medida.
Esse instrumento deve merecer aprofundados estudos psicomtricos e
discutidos os seus resultados, alm de considerar suas mltiplas
implicaes educacionais, especialmente tendo em vista que h quem
advogue o seu emprego em substituio ao atual processo de seleo para
acesso a universidades e a outras instituies de ensino superior.
preciso lembrar que, considerando a destinao do instrumento
usado no ENEM, criado para medir competncias e habilidades, deve o
mesmo apoiar-se em uma teoria devidamente comprovada do ponto de
vista emprico. A verificao do seu funcionamento em relao a diferentes
grupos impositiva, sobretudo no caso nacional, que apresenta imensa
diversidade social, econmica, cultural e educacional, oferecendo quadros
bastante contrastantes. sabido que os escores de um teste so
influenciados por mudanas nos indivduos e em decorrncia de fatores
ambientais, sendo que em nosso caso, numa mesma rea geogrfica,
coexistem o 1 e o 3 Mundo, acentuando mais as gritantes disparidades
regionais. Outro aspecto importante a verificar seria a constatao da no
exigncia de outras habilidades especiais, alm das que supostamente
estariam sendo medidas, para evitar turbulncias que se podem refletir nas
matrizes de correlaes. H exatos 20 anos, tentamos chamar a ateno da
comunidade educacional para a relevncia da validade de construto
(Vianna, 1983), mas as coisas continuam como estavam em priscas eras. A
inocncia docimolgica, assim como a inocncia em educao,
magistralmente analisada por Bloom (1976), ainda uma realidade.
AVALIAO E USO DE ESCALAS o mito das comparaes
A anlise das grandes avaliaes realizadas em territrio nacional,
independentemente do nvel administrativo que as promova, leva-nos a
alguns problemas complexos e de difcil soluo, como os relacionados s
escalas empregadas, ao tipo de instrumentao usado e aos julgamentos
comparativos que so emitidos sem maiores consideraes sobre suas
implicaes e conseqncias decorrentes das repercusses no ambiente
educacional e suas extrapolaes na sociedade.
O uso de diferentes tipos de escalas no constitui problema, desde
que seus referenciais apresentem pontos comuns que os tornem
equivalentes, o que nem sempre ocorre. Assim, os grandes referenciais so
quase sempre a mdia, o desvio padro e o chamado escore z, que
Estudos em Avaliao Educacional, n. 27, jan-jun/2003 64
expressa a relao da diferena entre o escore obtido e a mdia do grupo
em termos de desvio padro. Os escores passam a ter valores, teoricamente,
entre menos 3,0 e mais 3,0, passando por 0,0, que corresponde mdia.
evidente que, do ponto de vista tcnico, essa escala oferece resultados
satisfatrios para os especialistas, mas seria de difcil compreenso para a
grande massa, sendo, ento, transformada, acrescentando-se um fator
multiplicativo pr-definido, o desvio padro requerido, e um outro fator
aditivo, igualmente pr-definido, a mdia desejada. Assim, a escala estaria
linearmente padronizada, como no caso de 10z + 50, em que os escores
variariam de 20 a 80, ou um escore 100z + 500, com valores variando de 200
a 800, sendo a mdia no primeiro caso igual a 50 e no segundo a 500, como
acontece no SAT e em outros testes cujos escores so padronizados,
inclusive em avaliaes internacionais em larga escala.
Apresentamos uma viso simplificada do escore padronizado para
encaminharmos a nossa discusso e chegarmos a um ponto crtico em
relao s avaliaes do MEC com as suas escalas de proficincia, com
nveis que vo de 125 a 400, com intervalos de 25 pontos. As informaes
nem sempre claras dos relatrios no nos permitem entrar em maiores
detalhes sobre o processo de padronizao das escalas. Uma pergunta,
associada a essas escalas de proficincia, nos veio mente: ser razovel
colocar centenas de milhares de sujeitos em uma nica escala (ainda que com
base na chamada Teoria da Resposta ao Item (TRI) isso seja estatisticamente
possvel), ignorando completamente a diversidade social, econmica,
cultural e educacional dessa populao e as distores que influenciam a
caracterizao dos vrios ndices de desenvolvimento humano? No seria
razovel, considerando as variveis apontadas, construir normas
diferenciadas por regio, levando em conta a diversidade das
caractersticas individuais? Talvez, a ttulo de sugesto, fosse o caso de
termos uma norma para cada uma das regies geo-econmicas, fazendo-
se alguns ajustamentos em certos casos, como no Sudeste e no Sul.
Pensamos que se poderia ter uma viso menos distorcida da realidade
brasileira, desde que as escalas tivessem os mesmos referenciais,
relacionados s mdias e aos desvios padro de cada rea regional,
criando-se, desse modo, uma geografia da educao, a exemplo do que
feito na Frana, inclusive com a incorporao dos valores agregados que
ressaltariam o papel da educao, especialmente nas regies em que as
desigualdades sociais so mais acentuadas.
Antes de voltarmos ao problema das comparaes, ao mito das
comparaes, para usarmos a expresso de Nuttall (1995), mostraremos a
nossa dvida sobre como classificar o tipo de avaliao a que se propem o
SAEB e o ENEM. A dvida que nos assalta se seria uma avaliao
Estudos em Avaliao Educacional, n. 27, jan-jun/2003 65
referenciada a norma ou referenciada a critrio. O problema decorre do fato
de que, pelo esquema de planejamento, por sua estrutura final, pelos
processos de correo, entre outros elementos, tudo nos leva a crer que se
trataria de um instrumento referenciado a norma, ao desempenho do
grupo, refletido em diferentes tipos de estatsticas; contudo, quando
observamos as escalas de proficincias e vemos as diferentes habilidades
referenciadas a diferentes nveis especficos de desempenho (critrios),
ficamos na dvida norma ou critrio? , dvida, alis, que no
exclusivamente nossa, tendo sido inclusive objeto de considerao no Grupo
de Trabalho sobre Padres e Avaliao do PREAL (Programa de Promoo da
Reforma Educativa na Amrica Latina e no Caribe), no frum de discusso
sobre As polticas de avaliao do desempenho da aprendizagem nos sistemas
educativos da Amrica Latina (2003).
Voltando ao problema das comparaes, perguntamo-nos qual o
seu significado, qual , efetivamente, o seu objetivo? Quando ouvimos
algum dizer, por exemplo, que o desempenho de um aluno da 3 srie do
ensino mdio no vale do Gurupi corresponde ao desempenho de um aluno
de 8 srie do ensino fundamental do vale do Itaja, acreditamos que a
comparao se faa simplesmente pelo hbito de comparar, pois dessa
comparao nada efetivamente resulta, salvo maliciosos comentrios de
alguns segmentos da mdia, tendo em vista suas implicaes. Como
comparar um indivduo que vive numa zona de economia extrativista,
numa rea de ndices sociais comprometidos, com um outro sujeito de uma
regio com economia bem prxima da existente no primeiro mundo e
com altos ndices sociais positivos?
Alm de aspectos sociais e econmicos, precisamos atentar para a
diversidade das caractersticas dos sistemas educacionais em diferentes
regies, a natureza dos currculos, a formao e experincia do corpo
docente. Diante desse quadro, podemos fazer comparaes e imaginar que
os indivduos poderiam ter os mesmos conhecimentos e as mesmas
capacidades? bom lembrar, fazendo referncia novamente a Nuttall
(1995), que a comparao entre padres no significa, necessariamente,
identidade de desempenhos. O ato de comparar tem muito pouco de
certeza, no se constitui em um procedimento de rigorosa anlise
estatstica. A comparao resulta de um julgamento humano, sujeito, dessa
forma, falibilidade, considerando, tambm, que o conceito de comparar
extremamente vago. Apesar de tudo, comparar tornou-se um ato obsessivo
na prtica de algumas avaliaes so comparados sistemas, desempenhos
por disciplina, comparam-se disciplinas ao longo dos anos e o mesmo
procedimento adotado em relao a diferentes programas , chegando a
um lamentvel e absurdo exerccio, por ignorar o fato de que qualquer
Estudos em Avaliao Educacional, n. 27, jan-jun/2003 66
avaliao de um ser humano feita por um outro ser humano e os escores
resultantes nunca se revestem de uma preciso absoluta, que demandaria
instrumentos perfeitos isentos de erros de medida, o que impossvel na
prtica, mesmo que utilizadas tecnologias de ponta e processos estatsticos
sofisticados.
EXAME NACIONAL DE CURSOS ENC uma grande controvrsia
Chegamos, nesta fase da presente reflexo, a um terceiro momento
da discusso sobre a avaliao da educao brasileira o Exame Nacional de
Cursos ENC para as instituies de Ensino Superior, pblicas e
privadas, compreendendo Universidades, Centros Universitrios,
Faculdades Integradas e instituies isoladas de ensino de terceiro grau. O
ENC foi chamado pela massa estudantil de Provo, denominao esta
incorporada pelos rgos oficiais da educao, que a adotaram inclusive
como ttulo de uma revista de divulgao dos seus pressupostos e
objetivos. O novo Exame Nacional de Cursos, que vigora a partir de 1996,
sendo obrigatrio para todos os alunos formandos, por fora de
instrumento aprovado pelo Congresso Nacional, nasceu sob o signo da
contestao de alguns segmentos, inclusive professores e alunos, mas foi,
entretanto, inteiramente aceito pela sociedade, que passou a utilizar seus
resultados para fins de escolher cursos nas instituies mais bem situadas
na classificao final, baseada parcialmente no desempenho dos alunos em
instrumentos de verificao do rendimento acadmico. Houve nisso um
grande equvoco, pois o critrio de avaliao das instituies no se
restringe apenas a provas, inclui, tambm, a avaliao do corpo docente, a
do projeto pedaggico e a da infra-estrutura institucional, que, juntamente
com o Exame Nacional de Cursos, resultam na Avaliao das Condies de
Ensino. O chamado Provo apenas uma das dimenses de um processo
mais amplo (e bastante controverso, como veremos).
A avaliao do ensino superior constitui, sem sombra de dvida,
uma necessidade. O crescimento do atual Ensino Bsico, desde os anos 60, e
a nova configurao da rede de ensino, inclusive com o justo aumento dos
anos de escolaridade obrigatria, entre outros elementos, contriburam para
o surgimento de presses sobre o nvel de escolaridade subseqente,
promovendo, assim, a ecloso de numerosas faculdades e a abertura de
novos cursos
8
em diferentes instituies, sobretudo privadas, em um ritmo
inteiramente descontrolado. Ao aumento quantitativo corresponderam

8
Em 2002 foram solicitadas permisses para a abertura de quase 2700 novos cursos,
conforme dados da SESU/MEC.
Estudos em Avaliao Educacional, n. 27, jan-jun/2003 67
dvidas quanto qualidade do ensino, eficincia do corpo docente e
devida adequao das condies institucionais, que justificaram a ao
governamental, ainda que tardia.
A criao do ENC teve de imediato grande repercusso no ensino
privado, que se viu diante de uma situao indita no quadro educacional
brasileiro, e gerou, igualmente, reaes no ensino pblico, especialmente
tendo em vista a argumentao, nem sempre defensvel, da autonomia
universitria, que estaria sendo violada. Alguns problemas no foram
realmente definidos com a devida adequao, destacando-se, entre outros,
a mal dimensionada obrigatoriedade do Exame para todos os alunos
formandos sem a fixao de uma nota de corte, que refletisse um nvel
mnimo de competncia desejvel. A falta de um escore mnimo fez com
que prevalecesse simplesmente a presena do aluno, independentemente
do seu desempenho. Isso, traduzido em termos de ao, significou que
muitos estudantes contrrios ao exame, por motivos vrios, inclusive
ideolgicos, se limitassem a assinar o documento comprovante da sua
presena a folha de respostas da prova e ignorassem o contedo
curricular exigido, entregando a prova em branco ou nela expressando
protestos, e garantindo, dessa forma, a expedio do diploma, tendo em
vista o atendimento do ritual legal.
A diversidade dos numerosos cursos a serem avaliados levou o
MEC a constituir comisses que definissem para cada prova as vrias reas
objeto do Exame e estabelecessem uma certa filosofia para cada uma das
avaliaes, segundo a proposta oficial de verificar os conhecimentos
fundamentais necessrios aos formandos de cada curso. Vimos, desse
modo, que certas definies envolveram elementos dos cursos bsicos
ministrados nos primeiros momentos da seqncia formativa, omitindo ou
deixando de considerar outros aspectos objeto de estudos nas ltimas sries
da formao acadmica. Alm do mais, seria preciso que o MEC levasse em
considerao o fato de que similaridades curriculares nem sempre
traduzem identidades e cursos com a mesma designao podem ter
estruturas inteiramente diferenciadas; desse modo, na prtica, os
syllabus se assim podemos chamar , que foram divulgados pelo MEC,
e so dados a conhecer todos os anos, na poca do Exame, passaram a ser
programas de ensino em muitas instituies, mais preocupadas com o
que seria a avaliao institucional do que com a formao geral, cientfica e
profissional do seu alunado. Alm do mais, algumas instituies,
considerando as repercusses do desempenho dos alunos no seu
marketing promocional, desenvolveram imaginosas estratgias de
ensino com vistas ao preparo para o ENC ou, mais especificamente, para
Estudos em Avaliao Educacional, n. 27, jan-jun/2003 68
o hoje clebre Provo, configurando-se nova modalidade de cursinho
preparatrio.
Outras comisses, integradas por membros de diferentes
instituies, necessitam ser organizadas ao longo do processo de
desenvolvimento do ENC. Assim, definidos os contedos, constituem-se
grupos para a elaborao dos instrumentos, ressaltando-se que estes novos
grupos so diferentes dos que definiram a filosofia e desenvolveram o
que chamamos de syllabus. Apresentam-se muitas vezes situaes
conflitivas, pois os que devem elaborar o material do Exame nem sempre
tm as mesmas percepes tericas dos que integraram a primeira
comisso, dificultando, desse modo, a operacionalizao do Exame. bem
possvel, a ttulo de uma exemplificao inteiramente hipottica, mas no
absurda, que um grupo junguiano deva implementar uma programao de
sabor skinneriano ou vice-versa; ou que um programa de fsica orientado
no sentido eminentemente experimental deva ser trabalhado por um outro
grupo extremamente matematizado ou vice-versa; ou que um programa de
biologia inspirado na qumica molecular deva ser operacionalizado por um
grupo mais chegado a uma orientao tradicionalista ou vice-versa. Essas
so algumas hipteses levantadas para configurar situaes que podem ser
consideradas impossveis, mas que ocorrem na prtica do dia-a-dia, em que
divergncias conceituais, filosficas e de tratamento dos vrios assuntos
existem, sem dvida, dificultando ou mesmo impossibilitando o trabalho
dos responsveis pela definio operacional dos vrios contedos a
examinar.
Ainda com relao a conflitos entre o grupo que idealiza um
esquema e o que constri os instrumentos, podemos imaginar o seguinte:
suponhamos que o grupo idealizador, imbudo da idia traduzida no
binmio ensino/pesquisa, alis discutida recentemente com bastante
equilbrio por Moura e Castro (Veja, 22.12.02), resolva exigir a elaborao
de um projeto de pesquisa, numa situao de exame como o que ora
analisado. Como operacionalizar esse mito educacional denominado
ensino/pesquisa numa situao artificial de stress que envolve
milhares de pessoas que trabalham sem fontes de consulta e de referncia
dentro de um perodo de tempo bastante restrito? A situao proposta no
to estranha quanto pode parecer a um primeiro exame. A soluo desse
conflito poderia ser superada pela atuao conjunta das duas comisses a
que teoriza e a que implementa , que se proporiam a elaborar um
programa que traduzisse um certo consenso, admitindo-se que seja
possvel um consenso em questes educacionais.
Antes de referirmo-nos a uma terceira comisso participante do
ENC, queremos analisar aspectos ligados a pequenas comisses, integradas
Estudos em Avaliao Educacional, n. 27, jan-jun/2003 69
por funcionrios do MEC e/ou por pessoas da confiana do Ministrio, que
fazem a reviso formal das questes ou dos itens, depois de pronto o
instrumento e revisto pela prpria comisso elaboradora e por um revisor
especialista na rea. A comisso do MEC procura seguir de uma forma
bastante ortodoxa princpios definidos ao longo dos tempos por
psicometristas e algumas instituies especializadas, como o Educational
Testing Service (Princeton, New Jersey), e disseminados por pessoas direta
ou indiretamente ligadas a centros de pesquisa e avaliao, quase sempre
norte-americanos. O excesso de formalismo, queremos acentuar, nem
sempre traz grandes contribuies, mas quase sempre constitui fator de
perturbao, devendo prevalecer o bom senso no uso de pequenas regras,
que se podem transformar em verdadeiros preciosismos, quando usadas
sem as devidas cautelas.
Definidos os objetivos da avaliao, estabelecidos os parmetros
para a elaborao dos instrumentos, discutidas, revistas e aplicadas as
provas com a posterior divulgao dos resultados, inicia-se, na dinmica do
ENC, a atuao de uma nova comisso com elementos que no
participaram das vrias fases anteriores, com o objetivo de, em princpio,
fazer uma anlise crtica dos instrumentos elaborados. sabido que no
existem instrumentos perfeitos, especialmente no caso presente, pois
medem elementos no tangveis que englobam aspectos cognitivos e
diferentes capacidades relacionadas ao construto que, supostamente, est
sendo mensurado. Toda e qualquer discusso na rea sempre proveitosa,
dependendo dos seus termos e, no caso presente, as consideraes devem
basear-se nas matrizes compostas por diferentes elementos estatsticos
possveis de coletar sobre o desempenho dos que responderam s questes.
Isso no significa, ressaltemos, que no haja um certo subjetivismo sempre
que so expressos juzos de valor relacionados a assuntos e maneira como
foram abordados nas vrias questes; entretanto, esse subjetivismo no
pode resultar de posicionamentos ideolgicos, idiossincrasias pessoais e
nem decorrer de antagonismos acadmicos. O que se observa, no entanto,
que essas discusses possuem um tom eminentemente impressionista
eu acho; eu penso; eu acredito; eu julgo sem qualquer tipo de fundamentao
emprica ou terica; por outro lado, as crticas no incidem sobre o
instrumento como tal, sua estrutura, seus possveis e at mesmo
compreensveis defeitos, mas resultam de um posicionamento muitas vezes
contrrios filosofia, prtica do Exame Nacional de Cursos e sua razo
de ser, refletindo, por outro lado, um certo antagonismo a toda a poltica
educacional que fundamentou a deciso de instituir um amplo programa
de avaliao de todo o sistema educacional do pas. A anlise supostamente
crtica reflete com bastante freqncia um certo sabor xenfobo, digamos,
Estudos em Avaliao Educacional, n. 27, jan-jun/2003 70
ao considerar o instrumento com um vis regional, considerando a prova
como identificada com certas instituies, mas negando-lhe valor em
relao a outras.
O EXAME NACIONAL DE CURSOS E O USO DA CURVA NORMAL
A presente considerao do ENC nos leva de um ponto crtico a
outro, s vezes bem mais crtico que os anteriores, como o caso do que ora
passamos a considerar: a apresentao inicialmente feita dos resultados
do ENC expressos por conceitos associados a porcentagens fixas de tal
forma que sempre teramos, independentemente da distribuio dos
escores, os conceitos A, B, C, D e E, com o mesmo nmero percentual de
sujeitos em A e E, o mesmo nmero tambm percentual de elementos em B
e D, e a maior concentrao de estudantes na faixa do conceito C,
refletindo, assim, a crena mtica na curva normal gaussiana, como se esta
efetivamente traduzisse a distribuio das diferenas individuais. O uso da
idia da curva normal de Gauss, que nada mais do que a expresso de
uma determinada funo matemtica associada a grandes nmeros e a
fenmenos probabilsticos, foi uma tragdia de grandes propores e da
qual parte significativa do mundo da educao ainda no conseguiu se
refazer. Diferentes tipos de curvas podem ser obtidos, dependendo da
construo dos instrumentos e do grau de dificuldade dos itens (Cronbach
e Warrington, 1952 ) e crticas curva normal para explicar variveis
educacionais (e psicolgicas) foram devidamente dimensionadas por
Cronbach (1971 e 1977) e por Bloom, Hastings e Madaus (1971), sendo que
estes trs ltimos colocaram a questo nos seguintes termos:
Como educadores usamos a curva normal na atribuio de notas aos estudantes
h tanto tempo que passamos a nela acreditar. Medidas do desempenho so
planejadas para detectar diferenas entre nossos alunos ainda que as diferenas
sejam sem importncia em termos de contedos. Ento, distribumos nossas notas
segundo a curva normal. Em qualquer grupo de estudantes esperamos que uma
pequena porcentagem receba A. Ficamos surpresos quando o nmero de alunos
difere muito de cerca de 10 por cento. Estamos tambm preparados para que igual
proporo de alunos fracassem. Muito freqentemente esse fracasso determinado
pela posio dos estudantes no seu grupo e no pela incapacidade de perceber as
idias fundamentais do curso. Assim, acostumamo-nos a classificar os alunos em
cerca de cinco nveis de desempenho e a atribuir graus de uma maneira relativa.
No importa que os fracassados de um ano tenham o desempenho aproximado do
nvel daqueles que obtiveram conceito C no outro ano. Nem importa que os
Estudos em Avaliao Educacional, n. 27, jan-jun/2003 71
estudantes de nvel A de uma escola tenham um desempenho igual ao dos
estudantes que receberam F
9
em outra escola. (p.44/45)
evidente que, como as distribuies dos resultados no
apresentam uma normalidade perfeita e nem mesmo aproximada, mas, ao
contrrio, uma assimetria acentuada para a direita, positiva, com a maior
concentrao de escores baixos, o fato de um curso ter conceito A ou B no
significa, necessariamente, pelo critrio adotado, a excelncia dos
resultados; ao contrrio, a maioria dos resultados A poderia situar-se
abaixo da mdia terica de 50, numa escala de 0 a 100. Tendo em vista,
portanto, a bizarra mas no rara situao que se configurava com
propores pr-definidas para cada faixa conceitual, o MEC alterou seus
critrios, tomando a mdia de cada curso em funo da mdia e do desvio
da totalidade dos cursos para estabelecer seus conceitos, conforme se pode
ver no texto adiante reproduzido:
O critrio parte da mdia aritmtica das notas dos estudantes que fazem o exame
e considera a mdia geral da rea e o desvio padro, que mede a disperso das notas
em torno da mdia. Com isso, o conceito A atribudo a todos os cursos que obtm
notas acima de 1,0 desvio padro da mdia geral. O conceito B, aos que tm entre
0,5 e 1,0 desvio padro acima da mdia geral. O conceito C vai para as faculdades
que tiraram entre 0,5 desvio padro abaixo e 0,5 desvio padro acima da mdia
geral. Por fim, os cursos que ficam com os conceitos D e E tm notas entre 0,5 e 1,0
desvio padro abaixo da mdia geral(D) e notas abaixo de 1,0 desvio padro da
mdia geral.
Verifica-se, dessa forma, que pode haver casos em que no existiro
conceitos A e B, mas apenas conceitos C, D ou E, o que representou um
certo avano, ainda que no muito significativo, e persistiram ainda
insatisfaes, inclusive com recursos ao Poder Judicirio para impedimento
da divulgao dos desempenhos dos cursos, o que se configura, mais uma
vez, uma situao extremamente surpreendente, sobretudo tendo em vista
o atendimento de liminar ao pedido. Lamentavelmente, no fundo,
continuou a subsistir a idia (e a fervorosa crena) de que a clebre curva
normal traduz a distribuio de variveis ligadas ao desempenho dos seres
humanos.

9
F de failure, em ingls, que significa fracasso, falta de aproveitamento, uma pessoa
malsucedida.
Estudos em Avaliao Educacional, n. 27, jan-jun/2003 72
O PAPEL DO ESTADO EM AVALIAES possveis alternativas
O Estado como avaliador sofre bastante restries, mas no restam
dvidas de que uma avaliao, para fins de atestar a competncia ao
trmino de um curso, algo que se impe, inclusive com o apoio
generalizado da sociedade. Acreditamos que existam solues satisfatrias,
vivenciadas em outros pases e, em algumas situaes, no prprio Brasil:
a avaliao por rgos de classe, que podem exigir a comprovao da
eficincia de uma pessoa para o exerccio de determinada profisso,
credenciando-a, aps resultados satisfatrios, para a atuao em
determinada rea de conhecimento profissional selecionada para atuao
na sociedade. A Ordem dos Advogados do Brasil, por exemplo, no caso da
seo de So Paulo, realiza, anualmente, um exame ps-curso, a que todos
os formandos em direito esto sujeitos, fato este que lhe permite, inclusive,
identificar os cursos mais eficientes e os de menor sucesso, evitando, assim,
que sejam lanados no mercado de trabalho milhares de futuros
profissionais sem as requeridas qualificaes. A excelncia dessa medida
estaria ligada sua validade local, por Estado, ou seja, algum, mesmo
aprovado em um estado, ao se transferir para outro, seria obrigado a
submeter-se a novo exame junto ao rgo local, evitando-se tentativas de
burla a dispositivos que venham a regular a matria. Outros exemplos
podem ser citadas na rea mdica. Alguns rgos corporativos, como a
Sociedade Brasileira de Pediatria e a Sociedade Brasileira de Ortopedia e
Traumatologia realizam exames anuais, por intermdio dos quais atestam a
capacidade de especialistas em suas respectivas reas, e muitos hospitais j
comeam a exigir essa titulao para o exerccio profissional em seu quadro
mdico.
Acreditamos que o exame de competncia profissional e,
implicitamente, da competncia dos cursos superiores poderia ser realizado
com bastante eficincia pelos rgos corporativos regionais das diferentes
profisses, sob o controle do seu respectivo rgo central. A aplicao de
exames de competncia deveria ser de responsabilidade dos rgos
corporativos regionais, que, inclusive, poderiam atuar em associao com
outras instituies de direito privado especializadas em avaliao de
recursos humanos qualificados, para fins de elaborao dos instrumentos,
quando fosse o caso. A certificao de concluintes de cursos de licenciatura
ligados ao magistrio poderia ser feita pelas Secretarias de Estado da
Educao, com validade restrita aos seus respectivos estados.
Estudos em Avaliao Educacional, n. 27, jan-jun/2003 73
AUTO-AVALIAO E AVALIAO EXTERNA SEU SIGNIFICADO
Pensamos que essas e outras sugestes tenham praticabilidade e
possam vencer ou atenuar as resistncias ora oferecidas. Ao MEC e s
Secretarias de Estado da Educao caberiam a importante e significativa
misso de controlar os resultados das avaliaes e aplicar as possveis
punies s instituies que no atingissem os parmetros desejados. O
assunto polmico, temos plena conscincia, assim como quase tudo em
educao igualmente polmico ou objeto de polmicas. preciso lembrar,
alm dos problemas anteriormente apontados, os atuais custos elevados do
ENC e tememos que, em futuro bem prximo, seja o mesmo inviabilizado
do ponto de vista financeiro. O assunto deve ser discutido pela sociedade,
inclusive considerando outras alternativas alm das que foram
anteriormente propostas, a fim de alterar a atual situao, considerando
que as prprias instituies de terceiro grau precisam de informaes
consistentes que lhes permitam aprimorar os seus procedimentos e atender
a suas necessidades. A sociedade, sem dvida, necessita, igualmente, de
informaes vlidas e consistentes para julgar de forma criteriosa as
instituies que, de um modo ou de outro, so suas subsidiadas.
A avaliao institucional de Universidades, Centros Universitrios,
Faculdades Integradas e de todas as modalidades de Instituies de Ensino
Superior IES que possam existir no sistema educacional brasileiro, salvo
melhor juzo, deve basear-se, necessariamente, na AUTO-AVALIAO e
em AVALIAES EXTERNAS por iniciativa das prprias instituies, a
exemplo do que j ocorre em algumas universidades que tiveram um papel
pioneiro nessa iniciativa, como a Universidade Nacional de Braslia UnB
e em outras instituies mais, que, sendo subordinadas a Conselhos
Estaduais, como as universidades estaduais do Estado de So Paulo e os
Centros Universitrios de Santo Andr e So Caetano, no mesmo estado, j
promovem suas auto-avaliaes. preciso resgatar a promissora
experincia do Programa de Avaliao Institucional das Universidades
Brasileiras PAIUB
10
, que, lamentavelmente, no foi levada adiante.
A auto-avaliao e as possveis avaliaes externas, quando estas
ltimas se fizerem necessrias, a juzo das instituies, deveriam ser
complementadas com avaliaes eminentemente qualitativas dos programas

10
Sobre o PAIUB ver documento do MEC Programa de Avaliao Institucional das
Universidades Brasileiras (1994), que contm detalhes sobre a Avaliao das Universidades
Brasileiras/Proposta Nacional de Avaliao Institucional, Avaliao do Ensino de
Graduao e em Anexos apresenta Variveis, Indicadores Institucionais, Indicadores
relativos ao Ensino de Graduao e Fluxograma do Desenvolvimento do Projeto de
Avaliao da Graduao, entre outros documentos.
Estudos em Avaliao Educacional, n. 27, jan-jun/2003 74
de pesquisas pelas agncias financiadoras, como, por exemplo, o CNPq e a
FAPESP, e, finalmente, a avaliao tambm qualitativa, mas incluindo
elementos quantitativos, dos cursos de ps-graduao pela CAPES, o que j
vem ocorrendo. As auto-avaliaes, realizadas em intervalos a serem
fixados, cinco anos, suponhamos, juntamente com possveis avaliaes
externas para fins especficos, e mais os trabalhos de auditoria no campo da
pesquisa e da ps-graduao, forneceriam, sem dvida, elementos
preciosos para o MEC exercer sua funo principal de agncia controladora
da qualidade do ensino superior, podendo, inclusive, atravs de
procedimentos legais apropriados, isentar alguns cursos de graduao de
novos exames, a partir dos dados informativos oriundos dos rgos
corporativos responsveis pelos exames de fim de curso, como a OAB,
CFM, CREAs e outros conselhos mais, que tivessem comprovado de forma
indiscutvel a eficincia ao longo de quatro anos seguidos, suponhamos.
As presentes consideraes, acompanhadas de algumas sugestes,
que julgamos realistas face o atual quadro, visam a propor uma nova
formatao s pioneiras avaliaes em larga escala promovidas no anos 90
pelo MEC e implementadas com grande eficincia pelo Instituto Nacional
de Estudos e Pesquisas Educacionais INEP. Queremos, ao finalizar,
reiterar o significado da avaliao no processo educacional, como o fez
Kellaghan (2001), e destacar sua importncia no sentido de (1) elevar os
padres de ensino muitas vezes bastante comprometidos em algumas
instituies; (2) ajustar os processos de ensino aprendizagem com o uso
de metodologias adequadas e que devem ser de domnio dos professores, o
que nem sempre ocorre; (3) contribuir para a formao de cidados que
possam desafiar a complexidade de uma sociedade tecnolgica; e, ainda,
(4) proporcionar aos responsveis pela tomada de decises educacionais o
feed-back necessrio para que prevalea o bom senso que, na prtica, conduz
ao acerto das aes.
REFERNCIAS BIBLIOGRFICAS
BELLER, Michal. Admission to higher education: current dilemmas and
proposed solution. In: KELLAGHAN, Thomas (ed). Admission to higher
education: issues and practice. Dublin: Educational Research Centre; New
Jersey: International Association for Educational Assessment, 1995.
BLOOM, Benjamin S. Inocncia em educao. Cadernos de Pesquisa. So
Paulo: Fundao Carlos Chagas, n. 16, p.63-71, mar. 1976.
Estudos em Avaliao Educacional, n. 27, jan-jun/2003 75
BLOOM, Benjamin S.; HASTINGS, J. Thomas; MADAUS, George F.
Handbook on formative and summative evaluation of student learning. New
York: McGraw-Hill Book Company, 1971.
BROWN, Frederick G. Principles of educational and psychological testing.
Illinois: The Dryden Press, Inc., 1970.
CAMPBELL, Donald T.; FISKE, Donald W. Convergent and discriminant
validation by the multitrait-multimethod matrix. Psychological Bulletin, n.
59. 1959.
CRONBACH, Lee J. Essentials of psychological testing. 2. ed. New York:
Harper and Row, 1960.
________. Test validation. In: THORNDIKE, Robert L. Educational
measurement. 2. ed. Washington, D.C: American Council on Education,
1971.
________. Essentials of psychological testing. 3. ed. New York: Harper and
Row, Publishers, 1977.
CRONBACH, Lee J.; MEEHL, Paul F. Construct validity in psychological
tests. Psychological Bulletin, n. 52. 1955.
CRONBACH, Lee. J.; WARRINGTON, Willard G. Efficiency of multiples:
choice tests as function of spread of items difficulties. Psychometrika, n. 17.
1952.
DONLON, Thomas F.; ANGOFF, William H. The Scholastic aptitude test.
In: ANGOFF, W.H. (ed.). The College board admissions testing program: a
technical report on research and development activities relating to the SAT
and achievement tests. New York: College Entrance Examination Board,
1971.
KELLAGHAN, Thomas. The Use of assessment in educational reform. Rio de
Janeiro, 2001. [Paper presented at the 27
th
Annual Conference of the
International Association for Educational Assessment.]
NUTTALL, Desmond. The Myth of comparability. In: MURPHY, Roger;
BROADFOOT, Patricia. A Tribute to Desmond Nuttall. London: The Falmer
Press, 1995.
Estudos em Avaliao Educacional, n. 27, jan-jun/2003 76
RYANS, D. G.; FREDERICKSEN, N. Performance tests of educational
achievement. In: LINDQUIST, E. F. (ed.). Educational measurement.
Washington, D. C.: American Council on Education. 1951.
VIANNA, Heraldo M. Validade de construto em testes educacionais.
Educao e Seleo. So Paulo: Fundao Carlos Chagas, n. 8, p. 35-44,
jul./dez. 1983.
WEDMAN, Ingeman. Selection to higher education in Sweden. In:
KELLAGHAN, Thomas (ed.). Admission to higher education: issues and
practice. Dublin : Educational Research Centre; New Jersey: International
Association for Educational Assessment, 1995.

Você também pode gostar