Você está na página 1de 42

Fundao Carlos Chagas

TEXTOS FCC

23/2003

AVALIAES NACIONAIS em LARGA ESCALA:

Anlises e Propostas
Heraldo Marelim Vianna

Departamento de Pesquisas Educacionais

FUNDAO CARLOS CHAGAS


DEPARTAMENTO DE PESQUISAS EDUCACIONAIS

23/2003

AVALIAES NACIONAIS em LARGA ESCALA:


Anlises e Propostas
Heraldo Marelim Vianna

2003

FUNDAO CARLOS CHAGAS

DIRETORIA
Rubens Murillo Marques
Diretor-Presidente

Gerhard Malnic

Diretor Vice-Presidente

Nelson Fontana Margarido


Diretor Secretrio Geral

Catharina Maria Wilma Brandi


Diretora Secretria

Carlos Eugnio de Carvalho Ferreira


Diretor Tesoureiro Geral

Eugnio Aquarone
Diretor Tesoureiro

DEPARTAMENTO DE PESQUISAS EDUCACIONAIS


Bernardete Angelina Gatti
Coordenadora

AVALIAES NACIONAIS em LARGA ESCALA:


Anlises e Propostas
Heraldo Marelim Vianna

Editorao
Isolina Rodriguez Rodriguez
Impresso na grfica da Fundao Carlos Chagas
fevereiro - 2003
Elaborao da Ficha Catalogrfica
Biblioteca Ana Maria Poppovic

V67a

VIANNA, Heraldo Marelim


Avaliaes nacionais em larga escala: anlises e propostas /
Heraldo Marelim Vianna. So Paulo : DPE, 2003.
41p. (Textos FCC, 23)
Bibliografia: p. 39
1. Avaliao da Educao 2. SAEB 3. ENEM 4. Exame
Nacional de Cursos 5. Provo I. Ttulo II. Srie

CDU: 371.26(81)

SUMRIO

1 INTRODUO E APRESENTAO DE PROBLEMAS ...................................... 7


2 ACESSO AO ENSINO SUPERIOR um quadro discutvel .................................. 12
3 AVALIAES SISTMICAS algumas questes cruciais .................................... 14
4 SISTEMA DE AVALIAO DO ENSINO BSICO SAEB ............................... 17
5 EXAME NACIONAL DO ENSINO MDIO ENEM propostas alternativas ..... 19
5.1 Teste de Aptido Verbal e Numrica a verso SAT ....................................... 22
5.2 Outros testes de Aptido Verbal e Numrica exemplos ................................. 24
5.3 O ENEM algumas questes bsicas ............................................................... 26
6 AVALIAO E USO DE ESCALAS O MITO DAS COMPARAES ........... 28
7 EXAME NACIONAL DE CURSOS ENC uma grande controvrsia .............. 30
8 O EXAME NACIONAL DE CURSOS E O USO DA CURVA NORMAL .......... 34
9 O PAPEL DO ESTADO EM AVALIAES possveis alternativas ................... 36
10 AUTO-AVALIAO E AVALIAO EXTERNA seu significado ................ 37
REFERNCIAS BIBLIOGRFICAS ......................................................................... 39

Rara felicidade de uma poca em que


se pode pensar o que se quer e dizer o
que se pensa. Tcito, Histrias1

1 INTRODUO E APRESENTAO DE PROBLEMAS


A avaliao educacional, especialmente a partir dos anos 90, passou a ser usada,
no contexto brasileiro, em diferentes nveis administrativos, como tentativa de encontrar
um caminho para a soluo de alguns problemas educacionais mais prementes,
esperando, possivelmente, que os processos avaliativos determinariam, entre outros
resultados, a elevao dos padres de desempenho, caso fossem conduzidos com o uso
de tecnologias testadas na sua eficincia em outras experincias semelhantes, realizadas
em diversos pases, ainda que com culturas diferentes. Essa expectativa no se restringe
unicamente ao mbito nacional, sendo ocorrncia bastante generalizada em quase todo o
mundo ocidental, que concentra suas melhores esperanas nos resultados dessas
avaliaes.2 As avaliaes apontam problemas, mas no os solucionam; outros caminhos
devero ser perseguidos.
A grande preocupao de

educadores e de pessoas ligadas a problemas

educacionais est na qualidade da educao, como demonstra o documento final da


Conferncia Mundial sobre Educao para Todos, ocorrida em Jomtien, Tailndia, em
maio de 1990. O objetivo maior, na perspectiva oferecida no decorrer desse encontro,
centrou-se na aquisio de conhecimentos, no desenvolvimento de habilidades e
destrezas, na formao de atitudes, no despertar de interesses e na interiorizao de
valores; entretanto, no se considerou em que medida esses resultados se integrariam no
contexto de uma sociedade em constante transformao, sujeita interveno de
mltiplas variveis nem sempre previsveis.
necessria uma reflexo sobre as avaliaes ora operacionalizadas nos vrios
nveis do nosso sistema educacional, especialmente avaliaes em larga escala,
1

Tcito, Histrias, in HUME, David. Tratado da Natureza Humana - Uma tentativa de introduzir o mtodo
experimental de raciocnio nos assuntos morais. Livro I, Do entendimento. Traduo de Dborah
Danowski. 1 reimpresso. Editora UNESP: Imprensa Oficial do Estado. So Paulo, 2001.
As presentes consideraes e sugestes so de exclusiva responsabilidade do autor, no refletindo o
pensamento da instituio a que pertence.
7

abrangendo a diversidade da nossa geografia multicultural, avaliaes estas de natureza


amostral e supostamente consideradas representativas em termos estatsticos. Fala-se, e
com bastante destaque, ainda que nem sempre de forma consistente, na avaliao de
competncias e habilidades, mas de modo

discutvel e muito pouco consensual.

Gostaramos de invocar, neste ponto, antes de darmos prosseguimento s nossas


reflexes, a citao de Tcito, em epgrafe, que David Hume usou na abertura de um de
seus livros, deixando evidente, dessa forma, que os nossos comentrios no visam a
despertar susceptibilidades, mas to somente a contribuir com a nossa reflexo para a
anlise de uma temtica extremamente relevante no momento atual.
As questes que se impem imediatamente, com o objetivo de aprofundar nossas
percepes, podem ser propostas da seguinte forma: so desenvolvidas competncias e
habilidades em nosso sistema educacional de uma forma sistemtica, ou, explicitando, o
nosso ensino orientado para o desenvolvimento de competncias? se for, qual a natureza
dessas competncias e supostas habilidades? Outra pergunta, que tambm reflete a nossa
perplexidade: se competncias e habilidades foram promovidas, houve, efetivamente,
preparo adequado dos educadores em relao a esse complexo e controvertido assunto?
E quanto a atitudes, interesses e valores? As indagaes partem do princpio de que
somente se pode avaliar aquilo que efetivamente foi desenvolvido, alm de considerar que
no se avalia em abstrato, mas considerando a problemtica em que se situam os
avaliados.
Quando pensamos em qualquer dos nveis da avaliao, micro ou macro3, faz-se
necessrio que consideremos a complexidade do seu processo, que, ao longo dos anos, foi
perdendo muito do seu carter relacional aluno/professor, com vistas orientao da
aprendizagem, passando a concentrar-se, sobretudo, conforme chama ateno Kellaghan
(2001), no desempenho institucional e no dos sistemas, como sucede igualmente em
outras avaliaes com objetivos mais amplos, de que so exemplos, no nosso caso
particular, as avaliaes promovidas na dcada de 90 pelo Governo Federal SAEB
Sistema de Avaliao do Ensino Bsico, ENEM Exame Nacional do Ensino Mdio, e
ENC Exame Nacional de Cursos.

Sobre programas de avaliao em larga escala e seus problemas metodolgicos veja o trabalho
VIANNA, H.M. (2001) Programas de Avaliao em Larga Escala: algumas consideraes, apresentado
23th Annual IAEA Conference (International Association for Educacional Assessment), no Rio de
Janeiro, e publicado em Estudos em Avaliao Educacional, n. 23, jan-jun/2001, da Fundao Carlos
Chagas, So Paulo, SP. p. 93/104.

Se forem considerados alguns aspectos dessas avaliaes,

constataremos que

usam provas escritas, com questes objetivas e questes abertas, geralmente de resposta
curta, havendo situaes, entretanto, em que a prova de redao exigida. Observamos,
assim, que no existem provas prticas, orais ou avaliaes observacionais, como lembra
Kellaghan (2001), que seriam desejveis para uma avaliao abrangente e conclusiva,
mas impossvel de se concretizar, somos forados a reconhecer, em contextos que
envolvem grandes massas, como no caso do ENEM/2002, por exemplo, que abrangeu
quase 1,5 milho de estudantes. Isso significa que no temos realmente um quadro
avaliativo completo, que seja descritivo das diferentes dimenses do alunado, como seria
desejvel, mas uma simples mtrica do que se supe medir. possvel concluir, desse
modo, que muitas competncias e habilidades importantes no mundo atual no so
efetivamente avaliadas, ficando implicitamente comprometida a definio do quadro
educacional a ser configurado.
As avaliaes so realizadas para diferentes fins, ainda segundo o posicionamento
de Kellaghan (2001), destacando-se, inicialmente, como uma de suas prioridades, a
identificao de problemas de aprendizagem, com o fito evidente de imediata superao
do quadro apresentado. (Evitamos a palavra recuperao, tendo em vista o seu atual
descrdito no meio educacional.) A realidade, entretanto, bem diversa do imaginado e
pretendido. O impacto dos resultados pode ser considerado mnimo, por razes vrias:
os relatrios, elaborados para administradores, tcnicos e, em geral, para os responsveis
pela definio e implementao de polticas educacionais, no costumam chegar s mos
dos professores para fins de anlise, discusso e estabelecimento de linhas de ao. So
demasiadamente tcnicos, empregando um linguajar pleno de tecnalidades muitas vezes
desconhecidas dos docentes e que poderiam ser evitadas. Por outro lado, esses mesmos
resultados so apresentados em termos globais, sem identificao, como seria desejvel,
das unidades escolares, referindo-se, quando muito, a unidades macro, os estados, e,
nestes, eventualmente, s regies geo-educacionais (superintendncias ou delegacias de
ensino). Ainda que os resultados dos desempenhos sejam apresentados em escalas
elaboradas por intermdio de rigorosos procedimentos estatsticos, e com a especificao
dos vrios nveis correspondentes de competncia, dificilmente os professores tm
condies tcnicas para interpretar

dados que resultam da expertise tcnica

dos

responsveis pelos relatrios. Destaquemos, tambm, que h uma certa resistncia, nem
sempre explicitada, mas infundada, por parte de professores e alunos, aos resultados de
avaliaes amostrais, traduzindo, assim, certa dose de

incredulidade em relao
9

generalizao das concluses. comum ouvirmos: a minha escola no fez parte da


amostra ou os meus alunos no foram sorteados para a composio da amostra. Tudo
isso faz com que importantes avaliaes tenham o seu impacto, quando ocorre, bastante
restrito, ou at mesmo seja inexistente, em relao ao sistema e a suas escolas.
Ao pensarmos nos problemas da avaliao, no nos podemos esquecer de que,
assim como a motivao fundamental para a aprendizagem,

da mesma forma a

motivao dos estudantes importante para os trabalhos da avaliao. Entretanto, isso


nem sempre ocorre e nem objeto de considerao durante o seu processo. A avaliao
quase sempre impositiva, sem consulta a professores e muito menos a

alunos. A

avaliao, por sua vez, igualmente repetitiva, no sentido de que, ao longo de vrios
semestres, os alunos fazem avaliaes internas e externas, sendo que destas ltimas no
conhecem os resultados de seus desempenhos e das primeiras tm apenas um escore ou
nota sem qualquer tipo de feedback que lhes possa servir de orientao. Esquecem-se as
autoridades administrativas da educao e, s vezes, os prprios professores, que os
alunos necessitam ser motivados para a avaliao, assim como, idealmente, so
motivados para a aprendizagem, conforme destaque inicial. As avaliaes, especialmente
aquelas em larga escala, tornam-se montonas, cansativas, geradoras de tenses e, muitas
vezes, criadoras de conflitos, e como as avaliaes no tm maiores conseqncias na
vida dos avaliados, reagem os mesmos mecanicamente e respondem la diable s vrias
questes apresentadas e, desse modo, as avaliaes, reiteramos, perdem o seu significado,
ainda que aos dados, resultantes de comportamentos inteiramente descompromissados,
sejam aplicados procedimentos estatsticos complexos, que, por sua vez, geram todo um
filosofar supostamente baseado em elementos considerados cientficos e levam a decises
de repercusso, criando-se, assim, idias falaciosas em grande parte da sociedade, que,
apesar de tudo, passa a acreditar nas concluses estabelecidas como se verdades absolutas
fossem.
A avaliao sempre considerando o caso brasileiro procura, igualmente,
estabelecer a eficincia dos sistemas, avaliando, indiretamente, o xito da ao docente
dos professores. Avaliar professores, direta ou indiretamente, sempre um processo que
demanda grande sensibilidade, pois gera mltiplas reaes com ressonncias negativas,
qualquer que seja o contexto. A avaliao do professor, por sua vez, vista com certa
suspeita, pois, na concepo dos avaliados, e s vezes com justa razo, pode significar,
em muitos casos, transferncia de escola ou de cidade, reduo salarial, diminuio do
nmero de aulas, concesso de bnus para os supostamente melhores e, ainda, numa
10

situao extrema, demisso. Tudo isso integra a mitologia educacional, bastante frtil
em imaginar situaes as mais diversas.
Avaliar o professor sempre tarefa difcil e ingrata, mas deve ser feita, desde que
com competncia e, sobretudo, bom senso. A avaliao indireta, por meio do desempenho
dos alunos, por sua vez, representa grande risco, com amplas conseqncias. evidente
que o processo ensino/aprendizagem se realiza por intermdio da interao
professor/aluno, mas, por si, essa interao no resolve inteiramente a questo. Fatores
externos escola, inteiramente conhecidos pelos que transitam no mundo da pesquisa
educacional, tambm tm importante papel no sucesso escolar, sendo suficiente citar
alguns poucos como, entre outros, a equivalncia idade/srie; horas de estudo no lar e a
participao efetiva da famlia no acompanhamento das atividades escolares. O fracasso
ou o baixo desempenho numa avaliao, portanto, nem sempre est relacionado ao
professor, que, muitas vezes, por si, no tem condies de atuar visando eliminao
desses fatores. O ato de avaliar implica, necessariamente, considerar mltiplas variveis,
inclusive sociais, econmicas e culturais, que podem invalidar as aes subseqentes ao
trabalho de avaliao.
At que ponto as avaliaes devem ser exclusivamente internas, eliminando-se a
ocorrncia de avaliaes externas? Quando nos referimos a avaliaes internas temos em
mente as que so realizadas pelas escolas. evidente que a avaliao na escola parte do
processo

formativo, constituindo o trinmio ensino-aprendizagem-avaliao, sob

orientao do professor. A avaliao interna pelos rgos centrais do sistema


imprescindvel, para fins de acompanhamento e reorientao dos procedimentos, se for o
caso, alm de constituir-se em fonte de desenvolvimento de competncias e de
apropriao de novas tecnologias por parte do pessoal do prprio sistema. As avaliaes
externas, realizadas quase sempre por proposta dos rgo diretivos do sistema.
(Ministrio da Educao; Secretarias de Estado da Educao), so recomendveis, na
medida em que representam um trabalho

no comprometido com a administrao

educacional e as polticas que a orientam; so avaliaes que traduzem uma viso de fora
e supostamente isenta em relao a possveis idiossincrasias prprias dos sistemas
educacionais. Estas avaliaes, entretanto, como ser analisado mais adiante, representam
um problema, quando abrangem regies com grande amplitude de variao nas suas
condies sociais, econmicas e culturais, face ocorrncia de possveis comparaes
destitudas de sentido e a generalizaes comprometidas, tendo em vista as diversidades
apontadas

que deveriam ser levadas em considerao na constituio de escores


11

compsitos com valores agregados que traduziriam a maior ou menor influncia da escola
no desempenho educacional dos estudantes avaliados.
2 ACESSO AO ENSINO SUPERIOR UM QUADRO DISCUTVEL
Um aspecto a considerar, especialmente em relao s avaliaes em larga escala,
para fins de selecionar os melhores e mais capazes para o ensino superior, refere-se ao
perodo de tempo em que so realizadas, sendo admissveis duas situaes:- a avaliao
ocorre de forma global, abrangendo alguns poucos dias seguidos; ou, ento, em diferentes
perodos, ao longo de vrios semestres, no decorrer de trs anos, em correspondncia ao
final de cada srie do Ensino Mdio, sendo esta modalidade bastante discutvel. O
primeiro modelo seguido pela maior parte das instituies brasileiras de ensino superior,
inclusive universidades e centro universitrios. O perodo de tempo das avaliaes quase
nunca ultrapassa a quatro dias, mas num passado recente houve avaliaes que duravam
quase toda uma semana. Uma alternativa a esse tipo de avaliao, ora sendo executado
por muitas instituies, consiste na avaliao em duas fases, sendo a primeira seletiva,
com o objetivo de eliminar parte do grande nmero de candidatos ao ensino superior, e a
segunda, classificatria, para atendimento do numerus clausus que regula o acesso por
curso.
As avaliaes anteriormente apresentadas, institudas h mais de 90 anos, so
altamente controversas, na formulao dos seus propsitos e no instrumental empregado.
um tipo de avaliao associada problemtica do alto nmero de sujeitos que terminam
o ensino mdio sem possibilidades do exerccio de qualquer atividade profissional,
restando-lhes a tentativa do acesso ao ensino de terceiro grau, que tambm tem graves
problemas, mas com caractersticas especficas. uma avaliao

estressante

e a

qualidade dos instrumentos bastante comprometida, salvo em algumas universidades e


fundaes dedicadas especificamente pesquisa e avaliao, que desenvolveram e
aprimoraram o seu know-how docimolgico, inclusive usando complexas metodologias
estatsticas para fins de anlise de questes e da identificao de atributos psicomtricos
desejveis; contudo, grosso modo, pode-se dizer que so avaliaes ad hoc, com a
construo reiterada, ano aps ano um trabalho de Ssifo , de novos instrumentos que
nem sempre se revestem das caractersticas desejveis, especialmente em relao
validade de contedo e de predio, no havendo, tambm, preocupao maior com a
fidedignidade (preciso) dos resultados, que quase nunca estimada, mas que, por
intermdio de uma anlise qualitativa crtica, pode ser inferida, considerando a no
12

representatividade amostral dos contedos e das capacidades, e as deficincias tcnicas na


construo dos itens ou questes.
As avaliaes em duas fases, uma seletiva e outra classificatria, no acesso ao
ensino superior, inicialmente restrita a poucas instituies, hoje, entretanto, conta com
maior nmero de adeses. A adoo desse modelo no resultou, salvo melhor juzo, de
anlises e consideraes sobre a melhoria do processo; na verdade, procurou solucionar
problema operacional, tendo em vista que, em muitos casos, h o envolvimento de
centenas de milhares de estudantes. A segunda fase estabelece a priori como ponto de
corte um valor igual, aproximadamente, a trs vezes, em mdia, o nmero de vagas por
curso, e com uma nica avaliao, realizada por meio de um nico instrumento voltado
apenas para conhecimentos e algumas poucas capacidades, consegue reduzir a grande
massa de sujeitos a um nvel razovel, em termos econmicos, tendo em vista os custos
operacionais das avaliaes em larga escala. Estes selecionados passam, ento, para a
segunda fase classificatria. Uma situao extremamente bizarra se configura no caso,
quando se relacionam os resultados das duas fases e so obtidos coeficientes elevados e
positivos. Isso significa, primeiramente, que os melhores da segunda fase foram os
igualmente melhores, em princpio, na fase inicial (seletiva), sendo a segunda fase,
consequentemente, redundante, alm de evidenciar a natureza repetitiva desta ltima
fase.
Ao longo do Ensino Mdio, em alguns casos, temos avaliaes parceladas, ao fim
de cada srie, que, depois de terem seus resultados consolidados, geram um escore
compsito que servir para a fase classificatria do processo seletivo. Algumas poucas
universidades, bem verdade, seguem esse procedimento, reservando para os sujeitos
submetidos a essa avaliao determinados percentuais de vagas. A nova sistemtica, na
viso de muitos, revestir-se-ia de maior racionalidade, evitando, inclusive, a chamada
situao de stress de uma nica avaliao; entretanto, necessrio atentar para o fato de
que essa metodologia gera um desvirtuamento do Ensino Mdio, que, supostamente,
dedicado formao geral, mas, no caso presente, passa a ser inteiramente direcionado
para o ensino superior, transformando-se em um curso meramente preparatrio para o
terceiro grau, e quanto ao stress, este acaba sendo triplicado ou, como colocou ilustre
professor preocupado com problemas de ensino e repetncia, o aluno ao invs de passar
uma vez pela guilhotina, passa trs vezes, sem maiores contemplaes.
Ainda com relao avaliao para acesso ao terceiro grau, e com apoio de
rgos do executivo e do legislativo estadual, comea a ser desenhado, sem maiores
13

estudos e anlises, e sem considerar suas numerosas implicaes e srios efeitos, um


novo modelo de reserva de vagas sistema de cotas para estudantes oriundos do
sistema pblico de ensino e estudantes negros, candidatos a instituies oficiais, na
tentativa de superar um problema que na realidade se concentra na baixa qualidade do
ensino fundamental e do ensino mdio pblico, comprovada por pesquisas empricas,
inclusive muitas realizadas por rgos oficiais. As primeiras novas experincias, nesse
sentido, ocorreram no incio de 2003, no Rio de Janeiro, rompendo, desse modo, o
princpio da isonomia igualdade de condies para todos existente no sistema ora
vigente de avaliao.

3 AVALIAES SISTMICAS ALGUMAS QUESTES CRUCIAIS


Ainda nos anos 90 houve grandes avaliaes dos sistemas estaduais de ensino no
Brasil, ligadas, na maioria das vezes, a projetos educacionais financiados pelo Banco
Mundial. Essas avaliaes apresentaram-se de diferentes formas: algumas, realizadas
pelas prprias Secretarias de Educao; outras, por rgos estaduais nem sempre
diretamente ligados rea da educao; um terceiro grupo, com a colaborao de
Fundaes, instituies de direito privado especializadas na avaliao e seleo de
recursos humanos; finalmente, um quarto grupo realizou suas avaliaes sistmicas
estabelecendo consrcios com mltiplas instituies de ensino pblico e privado de
terceiro grau, sob a coordenao de uma universidade de prestgio orientadora de todo o
processo. Tudo isso gerou diferentes experincias, mas no contribuiu para a formao de
um know how coletivo, pois, na maioria dos casos, essas experincias no se
transformaram em vivncias que pudessem ser intercambiveis e a prpria divulgao dos
resultados foi precria, sem atender aos diversos segmentos educacionais potencialmente
interessados nos resultados e nas concluses das avaliaes. Algumas avaliaes
sistmicas tiveram um carter censitrio, mas a maioria optou pela adoo de avaliaes
amostrais. As primeiras, ainda que apresentassem custos elevados, tendo em vista o
nmero expressivo de alunos e a problemtica de uma logstica complexa, foi resultado
de uma deciso poltica: fazer com que todo o sistema participasse da problemtica da
avaliao e no se limitasse apenas a colaborar na aplicao dos instrumentos, mas fosse
partcipe inclusive da construo dos instrumentos e dos trabalhos de uma correo
preliminar nas respectivas escolas, discutindo, imediatamente, os primeiros problemas
14

identificados e fossem antecipadas as primeiras providncias para o seu saneamento,


antes da divulgao dos resultados globais pelos rgos centralizadores. Outros sistemas
comearam com avaliaes amostrais, que nem sempre tinham grande impacto, e
evoluram para avaliaes censitrias, supostamente pelas razes anteriormente
apontadas. A maioria, entretanto, optou por uma avaliao amostral, por representar
economia de problemas operacionais e minimizar os custos, alm de oferecer resultados
igualmente confiveis. As avaliaes censitrias tinham a vantagem de apresentar os
resultados por escola, municpio, Delegacia ou Superintendncia de Ensino, e os dados
globalizados por estado.
Observa-se nessas avaliaes que o grau de sofisticao do tratamento estatstico
dos dados variou grandemente. Inicialmente, houve uma tendncia a apresentar os
resultados de forma que fosse palatvel para o sistema, que estivesse de acordo com a
cultura educacional de todos os segmentos e seria ingenuidade imaginar que os
professores do ensino fundamental ou do ensino mdio tivessem suficiente conhecimento
estatstico para entender prticas de anlise supostamente novas, mas que j vigoravam
em pases mais avanados desde os anos sessenta, como o caso da anlise das questes
por intermdio da metodologia da Teoria da Resposta ao Item (TRI).4 A impossibilidade
de aplicao imediata dessas novas tecnologias decorreu, tambm, da inexistncia de
hardware nas Secretarias de Estado da Educao, que se utilizavam de outros rgos, no
necessariamente ligados educao, para o processamento de dados, alm, naturalmente,
da falta de domnio na utilizao dos pacotes estatsticos com os novos procedimentos de
anlise.
A tendncia atual que se observa, decorrido um decnio das primeiras avaliaes
sistmicas, a da opo por avaliaes amostrais, seguindo as linhas gerais das grandes
avaliaes institudas pelo Governo Federal, inclusive com o uso de questes integrantes
do Banco de Dados do Instituto Nacional de Estudos e Pesquisas Educacionais INEP
e j submetidas pr-testagem. Naturalmente, a situao ao longo dos anos se alterou e
nos dias fluentes as chamadas novas metodologias de anlise so utilizadas com
bastante freqncia, ainda que o seu entendimento seja precrio, tanto por parte do
pblico mais diretamente interessado a escola e os educadores , como por muitos
especialistas em avaliao que ainda no superaram os procedimentos cannicos em que
4

Sobre a TRI, consultar LORD, Frederic M. Applications of Item Response Theory to Practical Testing
Problems. Hillsdade: Lawrence Erlbaum Associaters, 1980; LORD, Frederic M. e NOVICK, M. R.
Statistical Theory of Mental Test Score. Reading, Addison-Wesley, 1968; VALLE, Raquel da C. Teoria
da Resposta ao Item. Estudos em Avaliao Educacional, n. 21, 2000. Fundao Carlos Chagas, SP.
15

foram formados, sobretudo os integrantes da gerao que se formou nos anos sessenta,
muitos dos quais optaram por abordagens qualitativas ou permaneceram identificados
com a chamada Teoria Clssica das medidas.
Outra questo observada nas primeiras avaliaes relacionou-se ao tipo de
instrumento a ser empregado, ocorrendo discusses se seriam instrumentos referenciados
a critrio ou referenciados a normas.5 O debate foi em termos da realidade nacional, que,
inclusive, naquele momento, desconhecia os fundamentos desses dois tipos de
instrumentos e, conseqentemente,

no tinha um domnio da sua tecnologia e da sua

metodologia de anlise. Ainda que ambos os tipos de instrumentos fossem viveis para os
fins desejados, prevaleceu o bom senso e a opo foi a de utilizar instrumentos
referenciados a normas, mais adequado tradio da nossa cultura pedaggica, que j o
utilizava sem um conhecimento aprofundado dos seus fundamentos tericos. Alm do
mais, nessas avaliaes foi polmica a considerao de que a mesma seria de natureza
somativa, para usar a expresso de Michael Scriven, na sua obra clssica, Methodology of
Evaluation. A discusso teve, entretanto, algum mrito. Foram realizadas palestras e
cursos sobre avaliao por critrio, mas esse novo tipo de instrumento passou a ser
conhecido apenas por uma minoria de professores.
A avaliao por critrio seria ideal para a avaliao de processo, para correo e
superao de dificuldades de aprendizagem, mas esse tipo de avaliao ainda no foi
incorporado cultura nacional e deveria integrar o processo de educao continuada que
se desenvolveu nos anos 90. Lamentavelmente, a chamada progresso continuada,
impropriamente chamada de promoo automtica, denominao que inclusive concorreu
para o seu desvirtuamento, ainda no bem aceita pela comunidade, apesar de esforos
para esclarecimento da sua lgica e do seu significado, que pressupem constante uso de
diferentes tipos de trabalho avaliativo em todos os momentos do processo instrucional.
Essa seria a ocasio apropriada para a introduo da avaliao referenciada a critrio e
aos trabalhos com grupos diversificados pelo mesmo professor, que muito teria a aprender
com a prtica das professoras nas escolas rurais, que trabalham simultaneamente com
alunos que apresentam diferentes nveis de rendimento. Os professores deveriam ter
treinamento especfico, dispor de recursos e materiais didticos para suprir possveis
deficincias dos grupos com caractersticas diferenciadas, mas nada disso ocorreu,
criando-se, dessa forma, um certo confronto entre professores, alunos, comunidade e a
5

Sobre o assunto, ver VIANNA, H. M. A perspectiva das medidas referenciadas a critrios. Educao e
Seleo, dezembro, 1980, n. 2. Fundao Carlos Chagas, So Paulo, SP.

16

progresso continuada, pela ausncia de uma avaliao prpria para atender a diversidade
dos desempenhos.
A avaliao de sistemas durante os anos 90 e, sobretudo, no seu incio apresentou
um problema realmente crtico e somente parcialmente superado nos dias fluentes:
ausncia de pessoal com formao especfica em avaliao educacional, que, no contexto
nacional, no considerada rea de concentrao. Alguns problemas surgiram em
decorrncia dessa realidade, como as improvisaes, em alguns casos, a subordinao aos
chamados especialistas, em outros, e a adoo de novas metodologias, sobretudo
estatsticas, sem a posse do seu domnio, determinando, como decorrncia, algumas
situaes verdadeiramente bizarras. Apesar de passado mais de um decnio do incio das
grandes avaliaes, o problema ainda persiste e dificilmente ser resolvido a curto prazo
sem uma mudana de mentalidade e a criao de uma nova cultura educacional.

SISTEMA DE AVALIAO DO ENSINO BSICO SAEB


O Governo Federal, ao implantar um programa de avaliao abrangendo o ensino

bsico, o mdio e o superior teve um gesto extremamente corajoso, considerando, entre


outros aspectos, a amplitude da tarefa, a dificuldade na definio de padres,

os

problemas tcnicos nas decises sobre os instrumentos e sua tecnologia, a possvel


subjetividade dos julgamentos de valor e a complexidade das operaes logsticas. E
chegamos, agora, a um ponto crtico em que se impe a avaliao da prpria avaliao
(metavaliao) e, simultaneamente, a auto-avaliao de seus procedimentos, para rever
antigas aes e propor novas outras aes, luz da experincia acumulada. A avaliao
para aprimoramento do prprio projeto avaliativo um imperativo a que no se pode
escapar.
O Sistema de Avaliao do Ensino Bsico SAEB , sem sombra de dvida, a
nosso juzo, o melhor e o mais bem delineado dos projetos propostos pelo Ministrio da
Educao. Nele dever-se-ia concentrar todo o empenho governamental, por ser o ensino
bsico o fundamento para a construo do esprito de cidadania e o alicerce sobre o qual
se apiam os demais nveis educacionais; por isso, acreditamos que seus responsveis se
deveriam preocupar, particularmente, com duas das caractersticas dos instrumentos de

17

medida voltados para o rendimento escolar, a validade de contedo e a validade


conseqencial6.
A validade, segundo o consenso dos especialistas, no uma caracterstica geral,
antes de tudo ela especfica. Um instrumento de medida no vlido em tese, pode ser
vlido para um curso, mas no para outro. Pode ser vlido para um currculo, mas no
para outro; para um professor, mas no para outro, inclusive, pode ser vlido para uma
escola, mas no o ser para outra instituio. A questo da validade extremamente
delicada em qualquer contexto educacional e, no nosso caso particular, precisamos
considerar a formao da nossa nacionalidade, a grande diversidade social, econmica e
cultural, demonstrada em todo o territrio brasileiro, que varia de regies desenvolvidas,
passando por zonas de transio e chega a imensas reas com estruturas arcaicas. O
problema da validade, reiteramos, precisa ser tratado com extrema cautela, a fim de evitar
que a posterior anlise dos dados possa levar a inferncias destitudas de sentido. Tudo
isso um desafio, sendo foroso atentar para a validade amostral ou de contedo dos
instrumentos utilizados, para que sejam os dados representativos da diversidade da nossa
geografia cultural. Os programas de pesquisa sobre o SAEB deveriam incluir,
necessariamente, uma parte dedicada a estudos de validade, nas suas diferentes
modalidades, evitando-se o tratamento tangencial da questo, como vem ocorrendo em
alguns poucos trabalhos que discutem a problemtica da avaliao.
Outro problema a considerar, no caso do SAEB, relaciona-se validade
conseqencial, que se refere ao impacto da avaliao sobre o sistema, determinando
mudanas de pensamento, gerando novos comportamentos, formando novas atitudes e
promovendo novas aes. A validade conseqencial reflete em que medida a avaliao
faz realmente alguma diferena para a comunidade. At agora a influncia do SAEB, na
nossa viso, tem sido bastante restrita na comunidade escolar, em que pese o sucesso
jornalstico, com a publicao dos seus resultados nos vrios rgos da mdia.
O SAEB, ao divulgar o relatrio de suas avaliaes, apresenta a metodologia, os
tratamentos a que foram submetidos os resultados e uma grande riqueza de dados e
informaes sobre os diferentes desempenhos; entretanto, esse documento, elaborado com
extremo rigor tcnico, acaba por se tornar inacessvel grande massa de interessados
dentro e fora do campo da educao. A sociedade, por intermdio da publicao dos
resultados em jornais, com inmeros e bem construdos grficos e tabelas, que procuram
6

Sobre o assunto, ver MESSICK, Samuel. Validity, in LINN, Robert L. Educational Measurement.
American Council on Education. McMillan. New York,1989.

18

ser auto-explicativos, assiste a tudo sem entender bem o que se passa e, acreditamos,
muitos pais se indagaro: a escola do meu filho se saiu bem? o meu filho teve uma boa
nota na avaliao? o meu filho foi melhor ou pior que os seus companheiros de classe? e
os seus colegas de srie se saram melhor ou pior do que ele? So grandes incgnitas em
uma situao pouco compreensvel para a grande massa.
Queremos mais uma vez destacar a importncia e o significado do SAEB, como
avaliao de sistemas, mas preciso que os responsveis pela sua administrao
compreendam que diferentes setores da sociedade esto interessados em conhecer e
discutir os dados do

SAEB e a cada um desses segmentos deveria corresponder

diferentes documentos, apresentados desde a sua forma mais completa, incluindo


diferentes estatsticas, estudos de validade e anlises dos vrios desempenhos e suas
capacidades, relatrios tcnicos, enfim, at a sua verso mais simples, que poderia ser
apenas um

folder informativo, para divulgao entre os pais e demais integrantes da

sociedade. Devemos confessar, por ser de inteira justia, que, em 2001, o INEP,
compreendendo a relevncia do problema ora exposto, promoveu em Curitiba, na
Secretaria de Estado da Educao, uma reunio de elementos das outras Secretarias e
pessoas ligadas avaliao educacional para discutir a questo da disseminao do
SAEB, ficando assentado que em 2002 apresentaria seus dados em relatrios com
diferentes abordagens, para atender os vrios segmentos da sociedade. Assim procedendo,
e havendo a integrao das escolas para discusses dos dados, acreditamos ser possvel
que, a mdio prazo, talvez se possa comear a falar da validade consequencial do SAEB.

5 EXAME NACIONAL DO ENSINO MDIO ENEM PROPOSTAS ALTERNATIVAS


A idia de uma avaliao ao trmino do Ensino Mdio provocou grandes
expectativas em alguns ambientes educacionais, por corresponder a uma necessidade,
considerando, entre outros aspectos, a expanso descontrolada da rede de ensino,
especialmente no mbito privado, que apresenta, como do conhecimento geral,
diferentes nveis, variando desde as escolas realmente excelentes, com elevado padro de
ensino, a escolas sem maiores compromissos. A criao de um Exame de Estado, idia
que surge recorrentemente, provoca grandes discusses, por ser uma medida bastante
problemtica, que acarretaria inmeros e srios problemas, sobretudo no atual quadro
nacional. Felizmente, essa idia no prosperou. Outros chegaram a falar na introduo de
19

um exame semelhante ao Baccalaurat francs7, o que poderia, primeira vista, ser visto
como um avano, mas provocaria reaes do sistema e seria de uma logstica muitssimo
complicada, alm de onerosa e

inteiramente intil para o caso brasileiro. A nossa

expectativa, considerando o conhecimento de outros contextos e experincias pessoais,


centrou-se na possibilidade de um exame, obrigatrio para todos os aspirantes a estudos
superiores, que tivesse alguma identidade com as grandes linhas do SAT Scholastic
Aptitude Test, desenvolvido e aprimorado no Educational Testing Service (Princeton,
New Jersey, USA), e que, considerando-se as peculiaridades do nosso sistema
educacional, tivesse diferentes normas de interpretao, conforme veremos mais adiante.
A concretizao da louvvel idia do ENEM Exame Nacional do Ensino Mdio
fez surgir alguns problemas que merecem discusso, a comear pelo seu prprio nome.
Trata-se de um exame, circunstncia que nos remete imediatamente idia de medida,
que, eventualmente, pode ser usada numa avaliao, sem que isso, entretanto, signifique o
comeo necessrio de toda e qualquer avaliao. Temos, tambm, um exame que no
obrigatrio nos termos em que foi institudo; contudo, mecanismos de cautela foram
criados para promover a sua aceitao e contornar resistncias, que de fato vieram a
ocorrer e ainda persistem. Alguns sistemas oficiais a va sans dire assumiram o
pagamento da taxa cobrada aos alunos e que era um dos motivos de oposio ao exame;
posteriormente, os alunos carentes, certamente a grande maioria dos que freqentam o
sistema pblico de ensino, ressalvados alguns bolses da chamada classe mdia baixa,
foram liberados dessa mesma taxa de inscrio. Ao conjunto de diferentes estmulos, para
garantia da aceitao do exame, foi agregada a proposta, algo temerria, convenhamos,
do uso dos seus resultados no acesso seleo para o ensino superior, medida recebida
com entusiasmo por algumas instituies e aceita com reserva por outras, inclusive
oficiais, que passaram a admitir o resultado desse exame, mas, cautelosamente, fixaram
alguma forma de ponderao, para evitar que os resultados do seu prprio processo
seletivo fossem invalidados.
A aceitao do escore ENEM, para fins de acesso ao ensino superior, precisa ser
cuidadosamente repensada, porque influencia no aumento do ponto de corte (e isso
efetivamente ocorre, e vem ocorrendo, em vestibulares de primeira linha), sendo que, em
alguns casos, esse acrscimo chega a ser acima de cinco pontos, tornando ainda mais
7

O Baccalaurat o primeiro dos graus universitrios no sistema educacional da Frana. Ver Encyclopdie
Pratique de lducation en France. Institut Pdagogique National. Ministre de lducation National.
Paris, 1969. p.150-153.

20

elitista o processo de seleo para a Universidade e para algumas outras instituies de


nvel superior. foroso reconhecer que o uso do escore ENEM no vestibular acaba com
o princpio da isonomia, porquanto dois estudantes, em igualdades de condies no
processo seletivo, um, favorecido, aquele que fez o ENEM, e o outro, ainda que com
bons resultados, preterido, simplesmente por no ter participado do ENEM.
O ENEM foi concebido para verificar competncias e habilidades, segundo a
formulao dos seus responsveis, e pretende avaliar cinco competncias e vinte e uma
habilidades, conforme reitera a sua literatura de divulgao. O assunto, evidentemente,
no pacfico, havendo contestaes solidamente fundamentadas que apresentam dvidas
quanto ao conceito e natureza dessas competncias e habilidades. So dvidas no
necessariamente acadmicas e que precisariam ser dirimidas, dada a sua complexidade. A
situao se nos afigura bastante conflituosa, quando se observa que o prprio rgo
responsvel pela avaliao proclama, alto e em bom som, que o ENEM no mede
contedos, mas apenas competncias e habilidades. Confessamos a nossa perplexidade e
a forma dogmtica da assertiva faz-nos lembrar a lio do mestre da Universidade de
Chicago, Benjamin Bloom, injustamente esquecido entre ns, quando afirmava com
bastante clareza que, ao avaliarmos um contedo, estamos, implicitamente, avaliando
algo mais, as capacidades. Se considerarmos alguns exemplos, veremos que impossvel
verificar a habilidade numrica de uma criana, sem constatar seus contedos de
matemtica; impossvel certificar a habilidade mecnica de um jovem, no conserto de
um carro, por exemplo, sem considerar seus contedos de mecnica de automvel;
invivel atestar a habilidade cirrgica de um mdico, sem considerar seus contedos de
clnica mdica, tcnicas cirrgicas e outros contedos mais ligados a uma determinada
patologia.
Os princpios que baseiam o ENEM ficam comprometidos quando se examina o
prprio instrumento utilizado, que parte de situaes que demandam, liminarmente,
conhecimentos de contedos, s vezes bastante complexos, e entendimento da sua
verbalizao, muitas vezes excessiva. Acreditamos que o ENEM poderia se tornar um
instrumento eficiente de avaliao, e ser mais palatvel para a sua clientela, assim como
para a comunidade das instituies de nvel superior, evitando contestaes e
confrontaes, se ficasse restrito a apenas duas capacidades bsicas, fundamentais na
vida prtica e indispensveis em estudos

superiores a capacidade VERBAL e a

capacidade NUMRICA, como veremos a seguir, na anlise de trs situaes.

21

5.1 Teste de Aptido Verbal e Numrica a verso SAT


O Scholastic Aptitude Test SAT um instrumento desenvolvido a partir dos anos
20 e utilizado pelo College Entrance Examination Board CEEB, nos Estados Unidos,
para medir habilidades de raciocnio nas duas reas anteriormente referidas: verbal e
numrica, conforme a apresentao de Donlon e Angoff (1971). Oferece escores
separados para essas duas reas e visa a verificar a competncia dos estudantes que
pretendem o ingresso em instituies de ensino superior. A funo desse instrumento
consiste em complementar informaes, confirmando ou questionando, o desempenho em
reas de contedo, eliminando erros e inconsistncias que possam ter

ocorrido em

avaliaes anteriores restritas unicamente a contedos programticos. , reiteramos, um


instrumento de habilidades bsicas, cujos resultados vo integrar uma equao de
regresso composta do SAT verbal, SAT numrico, escores do nvel mdio e outros
elementos, no sendo usado apenas, e exclusivamente, o escore do SAT como um fator
isolado, conforme crena de muitos. As pesquisas demonstraram que o SAT, que uma
medida padronizada em uma escala comum, possui alta validade preditiva dos melhores
desempenhos nos colleges e nas universidades, acrescentando algo mais aos elementos de
informao que integram a equao final usada para fins de seleo e classificao.
O SAT baseou-se na definio expressa por Ryans e Fredericksen (1951) e,
sobretudo, na definio operacional de Cronbach (1960), com vistas a medir aspectos de
habilidades desenvolvidas ao longo do tempo, fixando-se em habilidades verbais e
numricas, partindo do princpio de que as mesmas se constituram no decurso

da

interao do estudante com o meio e, dessa forma, passaram a ser um equipamento


relativamente independente da aprendizagem formal na escola. O contedo do SAT
balanceado a fim de compensar diferenas de interesses e de background dos vrios
segmentos da populao. Ao longo dos anos, necessrio destacar, o SAT procurou
introduzir outros elementos alm do verbal e do numrico, mas nenhum deles demonstrou
altas associaes com desempenhos posteriores; desse modo, o SAT continuou
identificado com a sua definio inicial centrada nos dois conjuntos de habilidades j
referidas.
Ao longo dos anos, a parte verbal tem sido bastante diversificada, partindo de
subsdios de diferentes reas social, poltica e cientfica s quais so agregados
elementos de outras reas literria, artstica e filosfica , enquanto a parte numrica do
SAT procurou afastar-se de contedos curriculares, na medida do possvel, concentrando22

se em raciocnio lgico e na percepo de relaes matemticas. O SAT, ressalte-se,


possui vrias formas ou verses para aplicao em diversos momentos do ano, ao longo
de anos sucessivos, e para fins de evitar problemas com a interpretao dos escores, so
os mesmos padronizados em uma escala com mdia pr-fixada de 500 e desvio padro
igualmente preestabelecido de 100.
Vejamos a estrutura bsica do SAT, conforme a descrio apresentada em Donlon
e Angoff (1971), atentando, entretanto, para o fato de que, ao longo dos anos, o SAT vem
sofrendo alteraes bastante cautelosas e muito controladas, ao introduzir algumas poucas
alteraes no seu contedo e na apresentao de novos tipos de itens, considerando a
complexa problemtica do equating (tornar equivalentes resultados de diferentes verses
do mesmo teste) e da estrutura fatorial do teste. A ltima alterao de que temos notcia
foi a ocorrida no incio da dcada de 90, conforme comunicao durante a reunio anual
da International Association for Assessment in Education, realizada no Saint Patricks
College, em Dublin (1992); assim sendo, a verso ora apresentada refere-se quela que
analisada no relatrio coordenado por William Angoff, inicialmente referido. Nesse
formato, a parte verbal do SAT, composta de 90 itens, envolve antnimos, sentenas a
completar, analogias e compreenso de leitura de textos. A parte numrica, com 60 itens,
apresenta dois conjuntos de itens, sendo que um deles reflete questes habitualmente
encontradas em testes de matemtica e o outro usa itens sobre suficincia de dados. Os
itens esto organizados em ordem de dificuldade crescente, igualmente padronizada pelo
coeficiente Delta8, a partir dos mais fceis, em cada um dos blocos, e a dificuldade mdia
de cada bloco igual dificuldade do teste no seu conjunto, o que possvel tendo em
vista as cuidadosas estatsticas levantadas na fase de pr-testagem.
Os itens no SAT so de mltipla escolha, com cinco alternativas, e os folhetos de
prova contm alguns itens a mais (25), chamados de itens variantes, pois variam de aluno
para aluno e de prova para prova, sendo que alguns desses itens variantes destinam-se a
obter informaes necessrias equalizao das vrias formas; outros, usados como se a
aplicao fosse uma fase de pr-teste, sero incorporados mais tarde a futuras verses do
SAT, e um terceiro conjunto de itens destina-se realizao de pesquisas. Esclarea-se,
tambm, que os itens variantes no diferem dos demais itens operacionais. So itens
paralelos, na medida do possvel, com o objetivo de evitar a ocorrncia de resultados
enviesados (item bias) em relao a determinadas variveis. A aplicao total do SAT

O coeficiente Delta padronizado em funo de uma mdia 13 e desvio 4, variando seus valores de 1 a 25.
23

de trs horas, sendo duas e meia horas para os itens operacionais e a restante meia hora
para as questes variantes.
O SAT, ainda que seja um teste de aptido, , igualmente, um teste de
desempenho (achievement), mas deste difere pelo fato de que mnima a sua dependncia
em relao aos currculos tradicionais. Um aspecto a ressalvar na parte verbal relaciona-se
aos itens de compreenso de textos, que so em nmero de sete e envolvem cincias
biolgicas, cincias fsicas, humanidades, estudos sociais, havendo outros trs itens que
abrangem narrao,

sntese e argumentao. As questes esto distribudas em trs

amplas categorias, que, por sua vez, so subdivididas em categorias mais restritas. Temos
itens de COMPREENSO, abrangendo (1) compreenso da idia principal e (2)
compreenso de idias secundrias; itens de RACIOCNIO LGICO, envolvendo (3)
completar inferncia pretendida, (4) o uso de generalizao e (5) a avaliao da lgica da
linguagem do texto; e, finalmente, itens relacionados a ASPECTOS EMOCIONAIS DA
LINGUAGEM, (6) envolvendo a percepo do estilo e do tom do texto.
A dimenso contedo do subteste numrico do SAT abrange trs categorias:
aritmtica-lgebra, geometria e outros. A combinao de aritmtica e lgebra resulta de
que as regras bsicas de combinao para ambas so as mesmas e, em muitos casos, os
itens podem admitir uma soluo por mtodos aritmticos ou algbricos. A categoria
geometria apresenta itens que demandam exclusivamente conhecimentos da geometria
euclidiana dedutiva; por sua vez, a categoria outros inclui problemas que versam sobre
lgica, topologia intuitiva, smbolos no usuais, operaes e definies. Quanto s
capacidades exigidas, os itens compreendem, habilidade computacional, julgamento
numrico e estabelecimento de relaes, alm de outras mais classificadas como
miscelnea.
5.2 Outros Testes de Aptido Verbal e Numrica exemplos
Aps as consideraes sobre o SAT, veremos,

em suas linhas gerais, a

experincia do Swedish Scholastic Test (SweSAT), aplicado desde 1991 para fins de
acesso s universidades na Sucia, abrangendo ampla gama de contedos e de nveis
cognitivos, alm de solicitar o desempenho em um subteste de Compreenso de Leitura
em Ingls. A aplicao total do SweSAT, com 148 itens,

de quatro horas e o

instrumento consta de seis subtestes, medindo habilidades verbais e no-verbais, uso de

24

informaes e conhecimentos de carter geral, incluindo, ainda, compreenso de textos


em ingls. A configurao geral do teste a seguinte:
(1)

o subteste PALAVRA consta de 30 itens e mede a compreenso de


palavras e conceitos;

(2)

o subteste RACIOCNIO QUANTITATIVO possui 20 itens e mede


habilidades de raciocnio numrico na soluo de problemas;

(3)

o subteste COMPREENSO DE LEITURA - formado por 24 itens, mede


a capacidade de compreenso de textos, sendo composto de quatro textos
com seis itens cada um;

(4)

o subteste DIAGRAMAS, TABELAS e MAPAS engloba 20 itens e


consiste em um conjunto de informaes sobre um determinado assunto e a
sua complexidade varia da interpretao de um grfico soluo de
problemas com dados de diferentes fontes;

(5)

o subteste INFORMAO GERAL compreende 30 itens, baseados em


informaes adquiridas ao longo dos anos de escolaridade, versando as
mesmas sobre aspectos ligados ao trabalho, educao, a problemas
sociais, culturais e a atividades polticas;

(6)

o subteste de COMPREENSO de LEITURA em INGLS, formado por


24 itens, possui uma formatao semelhante ao subteste de Compreenso
de Leitura (3) e compreende de 8 a 10 textos de diferentes tamanhos.

O teste usa questes de mltipla escolha com quatro alternativas e suas funes
bsicas e caractersticas esto descritas por Wedman (1995), professor da Universidade de
Ame (Sucia), que tambm faz uma discusso sobre o seu desenvolvimento, uso e
pesquisa em outro trabalho (1994)
Beller (1995), do National Institute for Testing and Evaluation, em Jerusalm, ao
discutir os atuais dilemas e as solues propostas para Israel, apresentou o esquema do
Psychometric Entrance Test PET (1990), construdo com o objetivo de estimar sucesso
em futuros estudos acadmicos, que consta de trs subitens:
(1)

RACIOCNIO VERBAL com 60 itens que, basicamente, procuram


avaliar a habilidade de analisar e compreender material escrito de natureza
complexa; a habilidade de pensar sistemtica e logicamente, e a habilidade
de distinguir o significado de palavras e conceitos. A parte verbal contm

25

diferentes tipos de questes, como antnimos, analogias, completamento


de sentenas, lgica e compreenso de leitura;
(2)

RACIOCNIO QUANTITATIVO possui 50 itens que procuram avaliar a


habilidade de usar nmeros e conceitos matemticos na soluo de
problemas algbricos e equaes, assim como em problemas geomtricos.
O subteste, alm disso, verifica a capacidade de resolver problemas
quantitativos e a de analisar informaes apresentadas sob a forma de
grficos, tabelas e diagramas;

(3)

a parte do subteste de INGLS avalia o domnio do ingls como segunda


lngua e os seus resultados integram o escore total do PET, servindo,
tambm, para a organizao de classes de recuperao para os que no tm
um bom desempenho lingstico. O subteste consta de 54 itens,
compreendendo sentenas para completar e reescrever, alm de
compreenso de textos.

Todos os itens do PET so de mltipla escolha e cada subteste corrigido


separadamente, numa escala padronizada com a mdia 100 e o desvio 20. O escore total
do PET a mdia ponderada dos escores nos trs subtestes (40% Verbal; 40%
Quantitativo e 20% Ingls), transformados numa escala padronizada com a mdia 500 e o
desvio 100, variando os escores, assim como no SAT,

de 200 a 800. O teste

apresentado nas seguintes lnguas: hebreu, rabe, espanhol, francs, ingls e russo,
sendo os escores nas diferentes verses equalizados em relao aos resultados do teste
em hebreu. Os candidatos que fizeram o teste em outra lngua que no o hebreu devem
fazer um teste de domnio nessa lngua, por ser o hebreu a lngua oficial nas
universidades. O artigo de Beller tambm analisa e esclarece trs aspectos em relao ao
PET eficincia, vis e efeitos (pessoal, social e educacional).
5.3 O ENEM algumas questes bsicas
O instrumento usado no ENEM, tal como se apresenta no momento, carece de
requisitos fundamentais, como mostra uma simples inspeo visual da distribuio dos
itens, destacando-se, inicialmente, a validade de contedo. A essa deficincia, acrescentase outra, igualmente grave ou talvez mais grave ainda, por suas implicaes, relacionada
validade de construto. O teste, medindo competncias e habilidades, conforme sua
literatura de divulgao, por sua prpria natureza se baseia em construtos, mas, ao que
26

nos consta, at a presente data no ofereceu evidncias empricas de que estaria


efetivamente medindo aquelas variveis que, supostamente, se prope a medir. O teste,
apesar dos esforos daqueles que participam da sua construo, salvo melhor juzo, no se
fundamenta em dados empricos slidos, apoiados em pesquisas que no deixem dvidas
quanto sua estrutura fatorial e a outros elementos oriundos de estudos psicomtricos que
evidenciem estar medindo aqueles atributos proclamados.
Existem numerosas metodologias j assinaladas h mais de trinta anos por Brown
(1970) que poderiam ser utilizadas, inclusive a proposta por Campbell e Fiske (1959) que,
comprovadamente, se adapta ao estudo dessa caracterstica fundamental, j evidenciada
h quase meio sculo por Cronbach e Meehl (1955), inicialmente,

para os testes

psicolgicos, mas, depois, incorporada teoria dos testes educacionais pelo prprio
Cronbach (1971), no seu seminal ensaio sobre validao dos instrumentos de medida.
Esse instrumento deve merecer aprofundados estudos psicomtricos e discutidos os seus
resultados, alm de considerar suas mltiplas implicaes educacionais, especialmente
tendo em vista que h quem advogue o seu emprego em substituio ao atual processo de
seleo para acesso a universidades e a outras instituies de ensino superior.
preciso lembrar que, considerando a destinao do instrumento usado no
ENEM, criado para medir competncias e habilidades, deve o mesmo apoiar-se em uma
teoria devidamente comprovada do ponto de vista emprico. A verificao do seu
funcionamento em relao a diferentes grupos impositiva, sobretudo no caso nacional,
que apresenta imensa diversidade social, econmica, cultural e educacional, oferecendo
quadros bastante contrastantes. sabido que os escores de um teste so influenciados por
mudanas nos indivduos e em decorrncia de fatores ambientais, sendo que em nosso
caso, numa mesma rea geogrfica, coexistem o 1 e o 3 Mundo, acentuando mais as
gritantes disparidades regionais. Outro aspecto importante a verificar seria a constatao
da no exigncia de outras habilidades especiais, alm das que supostamente estariam
sendo medidas, para evitar turbulncias que se podem refletir nas matrizes de correlaes.
H exatos 20 anos, tentamos chamar a ateno da comunidade educacional para a
relevncia da validade de construto (Vianna, 1983), mas as coisas continuam como
estavam em priscas eras. A inocncia docimolgica, assim como a inocncia em
educao, magistralmente analisada por Bloom (1976), ainda uma realidade.

27

6 AVALIAO E USO DE ESCALAS O MITO DAS COMPARAES


A

anlise

das

grandes

avaliaes

realizadas

em

territrio

nacional,

independentemente do nvel administrativo que as promova, leva-nos a alguns problemas


complexos e de difcil soluo, como os relacionados s escalas empregadas, ao tipo de
instrumentao usado e aos julgamentos comparativos que so emitidos sem maiores
consideraes sobre suas implicaes e conseqncias decorrentes das repercusses no
ambiente educacional e suas extrapolaes na sociedade.
O uso de diferentes tipos de escalas no constitui problema, desde que seus
referenciais apresentem pontos comuns que os tornem equivalentes, o que nem sempre
ocorre. Assim, os grandes referenciais so quase sempre a mdia, o desvio padro e o
chamado escore z, que expressa a relao da diferena entre o escore obtido e a mdia
do grupo em termos de desvio padro. Os escores passam a ter valores, teoricamente,
entre menos 3,0 e mais 3,0, passando por 0,0, que corresponde mdia. evidente que,
do ponto de vista tcnico, essa escala oferece resultados satisfatrios para os especialistas,
mas seria de difcil compreenso para a grande massa, sendo, ento, transformada,
acrescentando-se um fator multiplicativo pr-definido, o desvio padro requerido, e um
outro fator aditivo, igualmente pr-definido, a mdia desejada. Assim, a escala estaria
linearmente padronizada, como no caso de 10z + 50, em que os escores variariam de 20 a
80, ou um escore 100z + 500, com valores variando de 200 a 800, sendo a mdia no
primeiro caso igual a 50 e no segundo a 500, como acontece no SAT e em outros testes
cujos escores so padronizados, inclusive em avaliaes internacionais em larga escala.
Apresentamos uma viso simplificada do escore padronizado para encaminharmos
a nossa discusso e chegarmos a um ponto crtico em relao s avaliaes do MEC com
as suas escalas de proficincia, com nveis que vo de 125 a 400, com intervalos de 25
pontos. As informaes nem sempre claras dos relatrios no nos permitem entrar em
maiores detalhes sobre o processo de padronizao das escalas. Uma pergunta, associada
a essas escalas de proficincia, nos veio mente: ser razovel colocar centenas de
milhares de sujeitos em uma nica escala (ainda que com base na chamada Teoria da
Resposta ao Item (TRI) isso seja estatisticamente possvel), ignorando completamente a
diversidade social, econmica, cultural e educacional dessa populao e as distores que
influenciam a caracterizao dos vrios ndices de desenvolvimento humano? No seria
razovel, considerando as variveis apontadas, construir normas diferenciadas por regio,
levando em conta a diversidade das caractersticas individuais? Talvez, a ttulo de
28

sugesto, fosse o caso de termos uma norma para cada uma das regies geo-econmicas,
fazendo-se alguns ajustamentos em certos casos, como no Sudeste e no Sul. Pensamos
que se poderia ter uma viso menos distorcida da realidade brasileira, desde que as
escalas tivessem os mesmos referenciais, relacionados s mdias e aos desvios padro de
cada rea regional, criando-se, desse modo, uma geografia da educao, a exemplo do que
feito na Frana, inclusive com a incorporao dos valores agregados que ressaltariam o
papel da educao, especialmente nas regies em que as desigualdades sociais so mais
acentuadas.
Antes de voltarmos ao problema das comparaes, ao mito das comparaes, para
usarmos a expresso de Nuttall (1995), mostraremos a nossa dvida sobre como
classificar o tipo de avaliao a que se propem o SAEB e o ENEM. A dvida que nos
assalta se seria uma avaliao referenciada a norma ou referenciada a critrio. O
problema decorre do fato de que, pelo esquema de planejamento, por sua estrutura final,
pelos processos de correo, entre outros elementos, tudo nos leva a crer que se trataria
de um instrumento referenciado a norma, ao desempenho do grupo, refletido em
diferentes tipos de estatsticas; contudo, quando observamos as escalas de proficincias e
vemos as diferentes habilidades referenciadas a diferentes nveis especficos de
desempenho (critrios), ficamos na dvida norma ou critrio? , dvida, alis, que no
exclusivamente nossa, tendo sido inclusive objeto de considerao no Grupo de
Trabalho sobre Padres e Avaliao do PREAL (Programa de Promoo da Reforma
Educativa na Amrica Latina e no Caribe), no frum de discusso sobre As polticas de
avaliao do desempenho da aprendizagem nos sistemas educativos da Amrica Latina
(2003).
Voltando ao problema das comparaes, perguntamo-nos qual o seu significado,
qual , efetivamente, o seu objetivo? Quando ouvimos algum dizer, por exemplo, que o
desempenho de um aluno da 3 srie do ensino mdio no vale do Gurupi corresponde ao
desempenho de um aluno de 8 srie do ensino fundamental do vale do Itaja, acreditamos
que a comparao se faa simplesmente pelo hbito de comparar, pois dessa comparao
nada efetivamente resulta, salvo maliciosos comentrios de alguns segmentos da mdia,
tendo em vista suas implicaes. Como comparar um indivduo que vive numa zona de
economia extrativista, numa rea de ndices sociais comprometidos, com um outro sujeito
de uma regio com economia bem prxima da existente no primeiro mundo e com altos
ndices sociais positivos?

29

Alm de aspectos sociais e econmicos, precisamos atentar para a diversidade das


caractersticas dos sistemas educacionais em diferentes regies, a natureza dos currculos,
a formao e experincia do corpo docente. Diante desse quadro, podemos fazer
comparaes e imaginar que os indivduos poderiam ter os mesmos conhecimentos e as
mesmas capacidades? bom lembrar, fazendo referncia novamente a Nuttall (1995), que
a comparao entre padres no significa, necessariamente, identidade de desempenhos.
O ato de comparar tem muito pouco de certeza, no se constitui em um procedimento de
rigorosa anlise estatstica. A comparao resulta de um julgamento humano, sujeito,
dessa forma, falibilidade, considerando, tambm, que o conceito de comparar
extremamente vago. Apesar de tudo comparar tornou-se um ato obsessivo na prtica de
algumas avaliaes so comparados sistemas, desempenhos por disciplina, comparamse disciplinas ao longo dos anos e o mesmo procedimento adotado em relao a
diferentes programas , chegando a um lamentvel e absurdo exerccio, por ignorar o
fato de que qualquer avaliao de um ser humano feita por um outro ser humano e os
escores resultantes nunca se revestem de uma preciso absoluta, que demandaria
instrumentos perfeitos isentos de erros de medida, o que impossvel na prtica, mesmo
que utilizadas tecnologias de ponta e processos estatsticos sofisticados.

7 EXAME NACIONAL DE CURSOS ENC UMA GRANDE CONTROVRSIA


Chegamos, nesta fase da presente reflexo, a um terceiro momento da discusso
sobre a avaliao da educao brasileira o Exame Nacional de Cursos ENC para as
instituies de Ensino Superior, pblicas e privadas, compreendendo Universidades,
Centros Universitrios, Faculdades Integradas e instituies isoladas de ensino de terceiro
grau. O ENC foi chamado pela massa estudantil de Provo, denominao esta
incorporada pelos rgos oficiais da educao, que a adotaram inclusive como ttulo de
uma revista de divulgao dos seus pressupostos e objetivos. O novo Exame Nacional de
Cursos, que vigora a partir de 1996, sendo obrigatrio para todos os alunos formandos,
por fora de instrumento aprovado pelo Congresso Nacional, nasceu sob o signo da
contestao de alguns segmentos, inclusive professores e alunos, mas foi, entretanto,
inteiramente aceito pela sociedade, que passou a utilizar seus resultados para fins de
escolher cursos nas instituies mais bem situadas na classificao final, baseada
parcialmente no desempenho dos alunos em instrumentos de verificao do rendimento
30

acadmico. Houve nisso um grande equvoco, pois o critrio de avaliao das instituies
no se restringe apenas a provas, inclui, tambm, a avaliao do corpo docente, a do
projeto pedaggico e a da infra-estrutura institucional, que, juntamente com o Exame
Nacional de Cursos, resultam na Avaliao das Condies de Ensino. O chamado Provo
apenas uma das dimenses de um processo mais amplo (e bastante controverso, como
veremos).
A avaliao do ensino superior constitui, sem sombra de dvida, uma necessidade.
O crescimento do atual Ensino Bsico, desde os anos 60, e a nova configurao da rede
de ensino, inclusive com o justo aumento dos anos de escolaridade obrigatria, entre
outros elementos, contriburam para o surgimento de presses sobre o nvel de
escolaridade subseqente, promovendo, assim, a ecloso de numerosas faculdades e a
abertura de novos cursos9 em diferentes instituies, sobretudo privadas, em um ritmo
inteiramente descontrolado. Ao aumento quantitativo corresponderam dvidas quanto
qualidade do ensino, eficincia do corpo docente e devida adequao das condies
institucionais, que justificaram a ao governamental, ainda que tardia.
A criao do ENC teve de imediato grande repercusso no ensino privado, que se
viu diante de uma situao indita no quadro educacional brasileiro, e gerou, igualmente,
reaes no ensino pblico, especialmente tendo em vista a argumentao, nem sempre
defensvel, da autonomia universitria, que estaria sendo violada. Alguns problemas no
foram realmente definidos com a devida adequao, destacando-se, entre outros, a mal
dimensionada obrigatoriedade do Exame para todos os alunos formandos sem a fixao
de uma nota de corte, que refletisse um nvel mnimo de competncia desejvel. A falta
de um escore mnimo fez com que prevalecesse simplesmente a presena do aluno,
independentemente do seu desempenho. Isso, traduzido em termos de ao, significou
que muitos estudantes contrrios ao exame, por motivos vrios, inclusive ideolgicos, se
limitassem a assinar o documento comprovante da sua presena a folha de respostas da
prova e ignorassem o contedo curricular exigido, entregando a prova em branco ou
nela expressando protestos, e garantindo, dessa forma, a expedio do diploma, tendo em
vista o atendimento do ritual legal.
A diversidade dos numerosos cursos a serem avaliados levou o MEC a constituir
comisses que definissem para cada prova as vrias reas objeto do Exame e
estabelecessem uma certa filosofia para cada uma das avaliaes, segundo a proposta
9

Em 2002 foram solicitadas permisses para a abertura de quase 2700 novos cursos, conforme dados da
SESU/ MEC.
31

oficial de verificar os conhecimentos fundamentais necessrios aos formandos de cada


curso. Vimos, desse modo, que certas definies envolveram elementos dos cursos
bsicos ministrados nos primeiros momentos da seqncia formativa, omitindo ou
deixando de considerar outros aspectos objeto de estudos nas ltimas sries da formao
acadmica. Alm do mais, seria preciso que o MEC levasse em considerao o fato de
que similaridades curriculares nem sempre traduzem identidades e cursos com a mesma
designao podem ter estruturas inteiramente diferenciadas; desse modo, na prtica, os
syllabus se assim podemos chamar , que foram divulgados pelo MEC, e so dados a
conhecer todos os anos, na poca do Exame, passaram a ser programas de ensino em
muitas instituies, mais preocupadas com o que seria a avaliao institucional do que
com a formao geral, cientfica e profissional do seu alunado. Alm do mais, algumas
instituies, considerando as repercusses do desempenho dos alunos no seu marketing
promocional, desenvolveram imaginosas estratgias de ensino com vistas ao preparo
para o ENC ou, mais especificamente, para o hoje clebre Provo, configurando-se
nova modalidade de cursinho preparatrio.
Outras comisses, integradas por membros de diferentes instituies, necessitam
ser organizadas ao longo do processo de desenvolvimento do ENC. Assim, definidos os
contedos, constituem-se grupos para a elaborao dos instrumentos, ressaltando-se que
estes novos grupos so diferentes dos que definiram a filosofia e desenvolveram o que
chamamos de syllabus. Apresentam-se muitas vezes situaes conflitivas, pois os que
devem elaborar o material do Exame nem sempre tm as mesmas percepes tericas dos
que integraram a primeira comisso, dificultando, desse modo, a operacionalizao do
Exame. bem possvel, a ttulo de uma exemplificao inteiramente hipottica, mas no
absurda, que um grupo junguiano deva implementar uma programao de sabor
skinneriano ou vice-versa; ou que um programa de fsica orientado no sentido
eminentemente experimental deva ser trabalhado por um outro grupo extremamente
matematizado ou vice-versa; ou que um programa de biologia inspirado na qumica
molecular deva ser operacionalizado por um grupo mais chegado a uma orientao
tradicionalista ou vice-versa. Essas so algumas hipteses levantadas para configurar
situaes que podem ser consideradas impossveis, mas que ocorrem na prtica do dia-adia, em que divergncias conceituais, filosficas e de tratamento dos vrios assuntos
existem, sem dvida,

dificultando ou mesmo impossibilitando

responsveis pela definio operacional dos vrios contedos a examinar.

32

o trabalho dos

Ainda com relao a conflitos entre o grupo que idealiza um esquema e o que
constri os instrumentos, podemos imaginar o seguinte: suponhamos que o grupo
idealizador, imbudo da idia traduzida no binmio ensino/pesquisa, alis discutida
recentemente com bastante equilbrio por Moura e Castro (Veja, 22.12.02), resolva exigir
a elaborao de um projeto de pesquisa, numa situao de exame como o que ora
analisado. Como operacionalizar esse mito educacional denominado ensino/pesquisa
numa situao artificial de stress que envolve milhares de pessoas que trabalham sem
fontes de consulta e de referncia dentro de um perodo de tempo bastante restrito? A
situao proposta no to estranha quanto pode parecer a um primeiro exame. A soluo
desse conflito poderia ser superada pela atuao conjunta das duas comisses a que
teoriza e a que implementa , que se proporiam a elaborar um programa que traduzisse
um certo consenso, admitindo-se que seja possvel um consenso em questes
educacionais.
Antes de referirmo-nos a uma terceira comisso participante do ENC, queremos
analisar aspectos ligados a pequenas comisses, integradas por funcionrios do MEC e/ou
por pessoas da confiana do Ministrio, que fazem a reviso formal das questes ou dos
itens, depois de pronto o instrumento e revisto pela prpria comisso elaboradora e por
um revisor especialista na rea. A comisso do MEC procura seguir de uma forma
bastante ortodoxa princpios definidos ao longo dos tempos por psicometristas e algumas
instituies especializadas, como o Educational Testing Service (Princeton, New Jersey),
e disseminados por pessoas direta ou indiretamente ligadas a centros de pesquisa e
avaliao, quase sempre norte-americanos. O excesso de formalismo, queremos acentuar,
nem sempre traz grandes contribuies, mas quase sempre constitui fator de perturbao,
devendo prevalecer o bom senso no uso de pequenas regras, que se podem transformar
em verdadeiros preciosismos, quando usadas sem as devidas cautelas.
Definidos os objetivos da avaliao, estabelecidos os parmetros para a elaborao
dos instrumentos, discutidas, revistas e aplicadas as provas com a posterior divulgao
dos resultados, inicia-se, na dinmica do ENC, a atuao de uma nova comisso com
elementos que no participaram das vrias fases anteriores, com o objetivo de, em
princpio, fazer uma anlise crtica dos instrumentos elaborados. sabido que no
existem instrumentos perfeitos, especialmente no caso presente, pois medem elementos
no tangveis que englobam aspectos cognitivos e diferentes capacidades relacionadas ao
construto que, supostamente, est sendo mensurado. Toda e qualquer discusso na rea
sempre proveitosa, dependendo dos seus termos e, no caso presente, as consideraes
33

devem basear-se nas matrizes compostas por diferentes elementos estatsticos possveis
de coletar sobre o desempenho dos que responderam s questes. Isso no significa,
ressaltemos, que no haja um certo subjetivismo sempre que so expressos juzos de valor
relacionados a assuntos e maneira como foram abordados nas vrias questes;
entretanto, esse subjetivismo no pode resultar de posicionamentos ideolgicos,
idiossincrasias pessoais e nem decorrer de antagonismos acadmicos. O que se observa,
no entanto, que essas discusses possuem um tom eminentemente impressionista eu
acho; eu penso; eu acredito; eu julgo sem qualquer tipo de fundamentao emprica ou
terica; por outro lado, as crticas no incidem sobre o instrumento como tal, sua
estrutura, seus possveis e at mesmo compreensveis defeitos, mas resultam de um
posicionamento muitas vezes contrrios filosofia, prtica do Exame Nacional de
Cursos e sua razo de ser, refletindo, por outro lado, um certo antagonismo a toda a
poltica educacional que fundamentou a deciso de instituir um amplo programa de
avaliao de todo o sistema educacional do pas. A anlise supostamente crtica reflete
com bastante freqncia um certo sabor xenfobo, digamos, ao considerar o instrumento
com um vis regional, considerando a prova como identificada com certas instituies,
mas negando-lhe valor em relao a outras.

O EXAME NACIONAL DE CURSOS E O USO DA CURVA NORMAL


A presente considerao do ENC nos leva de um ponto crtico a outro, s vezes

bem mais crtico que os anteriores, como o caso do que ora passamos a considerar: a
apresentao inicialmente feita dos resultados do ENC expressos por conceitos associados
a porcentagens fixas de tal forma que sempre teramos, independentemente da
distribuio dos escores, os conceitos A, B, C, D e E, com o mesmo nmero percentual de
sujeitos em A e E, o mesmo nmero tambm percentual de elementos em B e D, e a
maior concentrao de estudantes na faixa do conceito C, refletindo, assim, a crena
mtica na curva normal gaussiana, como se esta efetivamente traduzisse a distribuio das
diferenas individuais. O uso da idia da curva normal de Gauss, que nada mais do que
a expresso de uma determinada funo matemtica associada a grandes nmeros e a
fenmenos probabilsticos, foi uma tragdia de grandes propores e da qual parte
significativa do mundo da educao ainda no conseguiu se refazer. Diferentes tipos de
curvas podem ser obtidos, dependendo da construo dos instrumentos e do grau de
34

dificuldade dos itens (Cronbach e Warrington, 1952 ) e crticas curva normal para
explicar variveis educacionais (e psicolgicas) foram devidamente dimensionadas por
Cronbach (1971 e 1977) e por Bloom, Hastings e Madaus (1971), sendo que estes trs
ltimos colocaram a questo nos seguintes termos:
Como educadores usamos a curva normal na atribuio de notas aos estudantes
h tanto tempo que passamos a nela acreditar. Medidas do desempenho so
planejadas para detectar diferenas entre nossos alunos ainda que as diferenas
sejam sem importncia em termos de contedos. Ento, distribumos nossas notas
segundo a curva normal. Em qualquer grupo de estudantes esperamos que uma
pequena porcentagem receba A. Ficamos surpresos quando o nmero de alunos
difere muito de cerca de 10 por cento. Estamos tambm preparados para que
igual proporo de alunos fracassem. Muito freqentemente esse fracasso
determinado pela posio dos estudantes no seu grupo e no pela incapacidade
de perceber as idias fundamentais do curso. Assim, acostumamo-nos a
classificar os alunos em cerca de cinco nveis de desempenho e a atribuir graus
de uma maneira relativa. No importa que os fracassados de um ano tenham o
desempenho aproximado do nvel daqueles que obtiveram conceito C no outro
ano. Nem importa que os estudantes de nvel A de uma escola tenham um
desempenho igual ao dos estudantes que receberam F10 em outra escola.
(p.44/45)
evidente que, como as distribuies dos resultados no apresentam uma
normalidade perfeita e nem mesmo aproximada, mas, ao contrrio, uma assimetria
acentuada para a direita, positiva, com a maior concentrao de escores baixos, o fato de
um curso ter conceito A ou B no significa, necessariamente, pelo critrio adotado, a
excelncia dos resultados; ao contrrio, a maioria dos resultados A poderia situar-se
abaixo da mdia terica de 50, numa escala de 0 a 100. Tendo em vista, portanto, a
bizarra mas no rara situao que se configurava com propores pr-definidas para cada
faixa conceitual, o MEC alterou seus critrios, tomando a mdia de cada curso em funo
da mdia e do desvio da totalidade dos cursos para estabelecer seus conceitos, conforme
se pode ver no texto adiante reproduzido:

10

F de failure, em ingls, que significa fracasso, falta de aproveitamento, uma pessoa malsucedida.
35

O critrio parte da mdia aritmtica das notas dos estudantes que fazem o exame
e considera a mdia geral da rea e o desvio padro, que mede a disperso das
notas em torno da mdia. Com isso, o conceito A atribudo a todos os cursos que
obtm notas acima de 1,0 desvio padro da mdia geral. O conceito B, aos que
tm entre 0,5 e 1,0 desvio padro acima da mdia geral. O conceito C vai para as
faculdades que tiraram entre 0,5 desvio padro abaixo e 0,5 desvio padro acima
da mdia geral. Por fim, os cursos que ficam com os conceitos D e E tm notas
entre 0,5 e 1,0 desvio padro abaixo da mdia geral(D) e notas abaixo de 1,0
desvio padro da mdia geral.
Verifica-se, dessa forma, que pode haver casos em que no existiro conceitos A e
B, mas apenas conceitos C, D ou E, o que representou um certo avano, ainda que no
muito significativo, e persistiram ainda insatisfaes, inclusive com recursos ao Poder
Judicirio para impedimento da divulgao dos desempenhos dos cursos, o que se
configura, mais uma vez, uma situao extremamente surpreendente, sobretudo tendo em
vista o atendimento de liminar ao pedido. Lamentavelmente, no fundo, continuou a
subsistir a idia (e a fervorosa crena) de que a clebre curva normal traduz a distribuio
de variveis ligadas ao desempenho dos seres humanos.

9 O PAPEL DO ESTADO EM AVALIAES POSSVEIS ALTERNATIVAS


O Estado como avaliador sofre bastante restries, mas no restam dvidas de que
uma avaliao, para fins de atestar a competncia ao trmino de um curso, algo que se
impe, inclusive com o apoio generalizado da sociedade. Acreditamos que existam
solues satisfatrias, vivenciadas em outros pases e, em algumas situaes, no prprio
Brasil: a avaliao por rgos de classe, que podem exigir a comprovao da eficincia
de uma pessoa para o exerccio de

determinada profisso, credenciando-a, aps

resultados satisfatrios, para a atuao em determinada rea de conhecimento profissional


selecionada para atuao na sociedade. A Ordem dos Advogados do Brasil, por exemplo,
no caso da seo de So Paulo, realiza, anualmente, um exame ps-curso, a que todos os
formandos em direito esto sujeitos, fato este que lhe permite, inclusive, identificar os
cursos mais eficientes e os de menor sucesso, evitando, assim, que sejam lanados no
36

mercado de trabalho milhares de futuros profissionais sem as requeridas qualificaes. A


excelncia dessa medida estaria ligada sua validade local, por Estado, ou seja, algum,
mesmo aprovado em um estado, ao se transferir para outro, seria obrigado a submeter-se
a novo exame junto ao rgo local, evitando-se tentativas de burla a dispositivos que
venham a regular a matria. Outros exemplos podem ser citadas na rea mdica. Alguns
rgos corporativos, como a Sociedade Brasileira de Pediatria e a Sociedade Brasileira de
Ortopedia e Traumatologia realizam exames anuais, por intermdio dos quais atestam a
capacidade de especialistas em suas respectivas reas, e muitos hospitais j comeam a
exigir essa titulao para o exerccio profissional em seu quadro mdico.
Acreditamos que o exame de competncia profissional e, implicitamente, da
competncia dos cursos superiores poderia ser realizado com bastante eficincia pelos
rgos corporativos regionais das diferentes profisses, sob o controle do seu respectivo
rgo central. A aplicao de exames de competncia deveria ser de responsabilidade dos
rgos corporativos regionais, que, inclusive, poderiam atuar em associao com outras
instituies de direito privado especializadas em avaliao de recursos humanos
qualificados, para fins de elaborao dos instrumentos, quando fosse o caso. A
certificao de concluintes de cursos de licenciatura ligados ao magistrio poderia ser
feita pelas Secretarias de Estado da Educao, com validade restrita aos seus respectivos
estados.

10 AUTO-AVALIAO E AVALIAO EXTERNA SEU SIGNIFICADO


Pensamos que essas e outras sugestes tenham praticabilidade e possam vencer ou
atenuar as resistncias ora oferecidas. Ao MEC e s Secretarias de Estado da Educao
caberiam a importante e significativa misso de controlar os resultados das avaliaes e
aplicar as possveis punies s instituies que no atingissem os parmetros desejados.
O assunto polmico, temos plena conscincia, assim como quase tudo em educao
igualmente polmico ou objeto de polmicas. preciso lembrar, alm dos problemas
anteriormente apontados, os atuais custos elevados do ENC e tememos que, em futuro
bem prximo, seja o mesmo inviabilizado do ponto de vista financeiro. O assunto deve
ser discutido pela sociedade, inclusive considerando outras alternativas alm das que
foram anteriormente propostas, a fim de alterar a atual situao, considerando que as
prprias instituies de terceiro grau precisam de informaes consistentes que lhes
37

permitam aprimorar os seus procedimentos e atender a suas necessidades. A sociedade,


sem dvida, necessita, igualmente, de informaes vlidas e consistentes para julgar de
forma criteriosa as instituies que, de um modo ou de outro, so suas subsidiadas.
A avaliao institucional de Universidades, Centros Universitrios, Faculdades
Integradas e de todas as modalidades de Instituies de Ensino Superior IES que
possam existir no sistema educacional brasileiro, salvo melhor juzo, deve basear-se,
necessariamente, na AUTO-AVALIAO e em AVALIAES EXTERNAS por
iniciativa das prprias instituies, a exemplo do que j ocorre em algumas universidades
que tiveram um papel pioneiro nessa iniciativa, como a Universidade Nacional de Braslia
UnB e em outras instituies mais, que, sendo subordinadas a Conselhos Estaduais,
como as universidades estaduais do Estado de So Paulo e os Centros Universitrios de
Santo Andr e So Caetano, no mesmo estado, j promovem suas auto-avaliaes.
preciso resgatar a promissora experincia do Programa de Avaliao Institucional das
Universidades Brasileiras PAIUB11, que, lamentavelmente, no foi levada adiante.
A auto-avaliao e as possveis avaliaes externas, quando estas ltimas se
fizerem

necessrias, a juzo das instituies, deveriam ser complementadas com

avaliaes eminentemente qualitativas dos programas de pesquisas pelas agncias


financiadoras, como, por exemplo, o CNPq e a FAPESP, e, finalmente, a avaliao
tambm qualitativa, mas incluindo elementos quantitativos, dos cursos de ps-graduao
pela CAPES, o que j vem ocorrendo. As auto-avaliaes, realizadas em intervalos a
serem fixados, cinco anos, suponhamos, juntamente com possveis avaliaes externas
para fins especficos, e mais os trabalhos de auditoria no campo da pesquisa e da psgraduao, forneceriam, sem dvida, elementos preciosos para o MEC exercer sua funo
principal de agncia controladora da qualidade do ensino superior, podendo, inclusive,
atravs de procedimentos legais apropriados, isentar alguns cursos de graduao de novos
exames, a partir dos dados informativos oriundos dos rgos corporativos responsveis
pelos exames de fim de curso, como a OAB, CFM, CREAs e outros conselhos mais, que
tivessem comprovado de forma indiscutvel a eficincia ao longo de quatro anos seguidos,
suponhamos.

11

38

Sobre o PAIUB ver documento do MEC Programa de Avaliao Institucional das Universidades
Brasileiras (1994), que contm detalhes sobre a Avaliao das Universidades Brasileiras/Proposta
Nacional de Avaliao Institucional, Avaliao do Ensino de Graduao e em Anexos apresenta
Variveis, Indicadores Institucionais, Indicadores relativos ao Ensino de Graduao e Fluxograma do
Desenvolvimento do Projeto de Avaliao da Graduao, entre outros documentos.

As presentes consideraes, acompanhadas de algumas sugestes, que julgamos


realistas face o atual quadro, visam a propor uma nova formatao s pioneiras avaliaes
em larga escala promovidas no anos 90 pelo MEC e implementadas com grande
eficincia pelo Instituto Nacional de Estudos e Pesquisas Educacionais INEP.
Queremos, ao finalizar, reiterar o significado da avaliao no processo educacional,
como o fez Kellaghan (2001), e destacar sua importncia no sentido de (1) elevar os
padres de ensino muitas vezes bastante comprometidos em algumas instituies; (2)
ajustar os processos de ensino aprendizagem com o uso de metodologias adequadas e
que devem ser de domnio dos professores, o que nem sempre ocorre; (3) contribuir para
a formao de cidados que possam

desafiar a complexidade de uma sociedade

tecnolgica; e, ainda, (4) proporcionar aos responsveis pela tomada de decises


educacionais o feed-back necessrio para que prevalea o bom senso que, na prtica,
conduz ao acerto das aes.

REFERNCIAS BIBLIOGRFICAS
BELLER, Michal. Admission to higher education: current dilemmas and proposed
solution. In: KELLAGHAN, Thomas (ed). Admission to higher education: issues and
practice. Dublin : Educational Research Centre; New Jersey : International Association
for Educational Assessment, 1995.
BLOOM, Benjamin S. Inocncia em educao. Cadernos de Pesquisa. So Paulo :
Fundao Carlos Chagas, n. 16, p.63-71, mar. 1976.
BLOOM, Benjamin S.; HASTINGS, J. Thomas; MADAUS, George F. Handbook on
formative and summative evaluation of student learning. New York : McGraw-Hill Book
Company, 1971.
BROWN, Frederick G. Principles of educational and psychological testing. Illinois : The
Dryden Press, Inc., 1970.
CAMPBELL, Donald T.; FISKE, Donald W. Convergent and discriminant validation by
the multitrait-multimethod matrix. Psychological Bulletin, n. 59. 1959.
CRONBACH, Lee J. Essentials of psychological testing. 2. ed. New York : Harper and
Row, 1960.
________. Test validation. In: THORNDIKE, Robert L. Educational measurement. 2.
ed.. Washington, D.C : American Council on Education, 1971.
________. Essentials of psychological testing. 3. ed. New York : Harper and Row,
Publishers, 1977.
39

CRONBACH, Lee J.; MEEHL, Paul F.


Psychological Bulletin, n. 52. 1955.

Construct validity in psychological tests.

CRONBACH, Lee. J.; WARRINGTON, Willard G. Efficiency of multiples: choice tests


as function of spread of items difficulties. Psychometrika, n. 17. 1952.
DONLON, Thomas F.; ANGOFF, William H. The Scholastic aptitude test. In:
ANGOFF, W.H. (ed.). The College board admissions testing program: a technical report
on research and development activities relating to the SAT and achievement tests. New
York : College Entrance Examination Board, 1971.
KELLAGHAN, Thomas. The Use of assessment in educational reform. Rio de Janeiro,
2001. [Paper presented at the 27th Annual Conference of the International Association for
Educational Assessment.]
NUTTALL, Desmond.
The Myth of comparability. In: MURPHY, Roger;
BROADFOOT, Patricia. A Tribute to Desmond Nuttall. London : The Falmer Press,
1995.
RYANS, D. G.; FREDERICKSEN, N. Performance tests of educational achievement. In:
LINDQUIST, E. F. (ed.). Educational measurement. Washington, D. C. : American
Council on Education. 1951.
VIANNA, Heraldo M. Validade de construto em testes educacionais. Educao e
Seleo. So Paulo : Fundao Carlos Chagas, n. 8, p. 35-44, jul./dez. 1983.
WEDMAN, Ingeman. Selection to higher education in Sweden. In: KELLAGHAN,
Thomas (ed.). Admission to higher education: issues and practice. Dublin : Educational
Research Centre; New Jersey : International Association for Educational Assessment,
1995.

40

41