Você está na página 1de 81

3. Definição de experimento.

Em ciências físicas e naturais, a noção de experimento está associada com a idéia de


laboratório. Os experimentos são realizados em laboratórios para tentar evitar
interferências, isto é, para isolar o fenômeno pesquisado de qualquer outra influência.
Nesse ambiente controlado se introduz a suposta causa e se verifica se o efeito se acontece.
Em algumas ciências sociais, como a psicologia social, também existem os laboratórios,
mas são muito menos freqüentes.
Em ciências sociais há três requisitos básicos para considerar que uma pesquisa é
um experimento:
a) a introdução da causa, ou melhor, da variável independente4, por parte do
pesquisador. A causa não acontece naturalmente; é artificialmente introduzida no
momento decidido pelo experimentador. Observa-se, então, quais os efeitos produzidos.
Não restam assim dúvidas de qual seja a causa e qual o efeito, já que a seqüência temporal
é controlada pelo pesquisador. Em conseqüência, a grande maioria das pesquisas em
ciências sociais são de tipo observacional e não experimental, já que se limitam a medir
variáveis independentes e dependentes tal como ocorrem naturalmente na realidade. Uma
pesquisa de opinião pública, uma análise de registros históricos ou administrativos, uma
etnografia, um censo demográfico não poderão nunca ser chamados de experimentos;
b) o controle da situação experimental, para evitar interferências de outros
fenômenos além dos pesquisados. Esta é a função que cumpre o laboratório em ciências
físicas e naturais. Em ciências sociais, este objetivo pode ser também alcançado usando o
laboratório ou através do controle da situação num contexto natural, o chamado
experimento natural. Assim, o experimentador não apenas introduz a variável
independente, mas exerce um forte controle sobre o processo e o contexto para poder
mensurar exclusivamente o efeito da variável introduzida, sem outras influências
improcedentes. A vantagem desse controle vem acompanhada pelo inconveniente de uma
maior artificialidade do ambiente experimental, de forma que muitos questionam se o que é
verdade num contexto artificial e formalizado poderia ser igualmente aplicado em um
ambiente natural;

4
Ver glossário.

11
c) a atribuição aleatória das unidades (pessoas, instituições, etc.) aos grupos
experimental e de controle, para garantir a equivalência de ambos.

Sem essas três condições, uma pesquisa não pode ser considerada um experimento.
Vale a pena analisar em detalhe a lógica experimental que está por trás dessas condições.
A lógica experimental parte de um contrafactual impossível. A princípio,
gostaríamos de comparar o resultado de uma mesma pessoa ou instituição na presença e na
ausência da causa pesquisada, num mesmo momento. Isto, obviamente, é logicamente
impossível, já que uma pessoa não pode experimentar simultaneamente a presença e a
ausência de uma certa causa. Uma opção é submeter uma pessoa, alternativamente, à
presença e à ausência da causa, em momentos sucessivos. Esta possibilidade não está livre
de problemas. Em primeiro lugar, a introdução da causa poderia ter efeitos permanentes e,
nesse caso, não faria sentido voltar a medir a pessoa num segundo momento depois de
retirar a causa. Em segundo lugar, como trata-se de dois momentos diferentes, existe a
possibilidade de que alguma outra coisa aconteça no meio que mude a medição. Outra
opção é aplicar a causa a um grupo de pessoas e não aplicá-la a outro grupo de pessoas que
seja o mais parecido possível com o primeiro grupo. O primeiro grupo, onde a causa
pesquisada está presente, é chamado de grupo experimental, e o segundo grupo, em que a
causa está ausente, é denominado grupo de controle. A comparação entre ambos os grupos
permite inferir qual o efeito de tal causa, já que ela é, a princípio, a única diferença entre os
dois grupos, que são iguais em tudo o mais. O grupo de controle pode ser considerado
como uma forma operativa de aplicar a velha fórmula lógica latina de 'ceteris paribus', isto
é, 'tudo o mais sendo constante', necessária para poder realizar inferências através da
comparação de duas situações que divergem apenas no elemento considerado.
A equiparação dos dois grupos pode ser feita através de dois tipos de mecanismos:
a) equalização dos grupos experimental e de controle nas dimensões mais
importantes. Por exemplo, se o sexo é uma variável relevante, pode-se estabelecer a mesma
proporção de homens e mulheres nos dois grupos. Dessa forma, o sexo, mesmo tendo um
efeito sobre a variável dependente, não terá nenhuma influência diferencial no grupo de
controle em relação ao grupo experimental. Esta é a forma mais intuitiva para tentar
controlar o efeito de uma variável, mas só garante igualdade em razão das dimensões

12
conhecidas, que foram levadas em consideração no processo de seleção. Quando várias
dimensões são consideradas simultaneamente, apresenta também problemas logísticos. Se
os grupos devem ser iguais na proporção dos sexos, a tarefa é simples. Mas se devem ser
equivalentes em termos de sexo, idade, origem sócio-econômica, pontuações no teste inicial
e tipo de escola, o propósito se complica bastante. Isto pode implicar, às vezes, a busca de
pessoas com caraterísticas muito incomuns e pouco representativas.
b) aleatorização da atribuição dos indivíduos ao grupo experimental e de controle.
É um procedimento guiado pela sorte que decide quem participará num grupo e quem fará
parte do outro. A aleatoridade do processo garante, probabilisticamente, uma similaridade
entre os dois grupos, mesmo que não garanta uma equivalência absoluta, desde que o
tamanho da amostra seja suficientemente grande. Por exemplo, se o pertencimento ao grupo
é deixado ao acaso, a proporção de homens e mulheres será parecida nos dois grupos, mas
não poderá ser garantido que o número de homens e mulheres seja exatamente igual em
ambos. Este procedimento possui então a desvantagem de não assegurar uma
equivalência total, e de depender de um tamanho de amostra suficiente. Em contrapartida,
possui também a grande vantagem de nivelar os grupos não apenas nas dimensões
reconhecidamente relevantes, mas em todas em geral, inclusive aquelas que até agora não
foram identificadas como importantes. Assim, a aleatorização não promete uma garantia de
igualdade absoluta dos dois grupos numa certa dimensão, mas oferece, de forma
aproximada, uma proteção geral contra as diferenças entre os dois grupos. Por isso, é
considerada como o procedimento padrão a ser utilizado e o único que garante uma
equivalência suficiente entre os grupos. Até o ponto de que se a atribuição aos grupos não
for feita de forma aleatória a pesquisa não pode ser considerada experimental. Vale
lembrar que a seleção de pessoas não precisa ser aleatória, pessoas com caraterísticas muito
específicas podem ser selecionadas para o estudo; a distribuição das unidades (pessoas,
instituições, etc.) entre os dois grupos é que precisa ser aleatória.
Em algumas ocasiões pode ser adotada uma estratégia mista. Quando uma variável
independente possui uma influência decisiva sobre a variável dependente, pode ser uma boa
idéia garantir a igualdade absoluta entre os dois grupos através da equalização, ao invés de
se limitar a uma igualdade aproximada via aleatorização. Supondo que o sexo seja essa
variável crucial, a equalização determinaria o mesmo número de homens e mulheres nos

13
grupos experimental e de controle. No entanto, a distribuição das unidades, uma vez
cumpridas as condições da equalização, continuaria a ser feita de modo aleatório. No
exemplo, a definição de quais homens (e quais mulheres) entrariam no grupo experimental
e quais no de controle seria feita aleatoriamente. Isto junta os benefícios de uma igualdade
absoluta nas variáveis mais importantes com a vantagem de uma equiparação aproximada
de todas as outras as variáveis, já que a seleção dentro das quotas é realizada de forma
aleatória.
Um dos exemplos clássicos da aplicação experimental encontra-se nas ciências
biomédicas. Para testar um novo produto farmacêutico, por exemplo, uma vacina, é preciso
comparar pessoas vacinadas com outras que não receberam a vacina. Como as doenças
afetam uma pessoa para cada muitas, é preciso estudar um grupo relativamente grande para
poder obter conclusões. Muitas vacinas podem ter também efeitos secundários negativos
que devem ser pesquisados. Todavia, outras tantas não oferecem proteção total, apenas
reduzem significativamente a probabilidade de contrair a doença. Portanto, o número de
pessoas pesquisado deverá ser ainda maior. O famoso experimento com a vacina de Salk
contra a poliomielite (Meier, 1978) incluiu mais de 1 milhão de crianças. Este estudo foi
feito conforme a todos os requisitos metodológicos. As crianças de primeiro grau
receberam todas uma injeção. A metade delas foi inoculada com a vacina, conformando o
grupo experimental, e a outra metade com uma solução salina de aparência similar e de
efeito inócuo, conformando o grupo de controle. Esta substância que não possui princípios
ativos é conhecida como placebo e a sua função é fazer com que o tratamento administrado
ao grupo de controle seja igual ao grupo experimental em tudo menos na causa pesquisada,
nesse caso a vacina de Salk. Isto é importante porque existem situações em que a mera
sensação do paciente de que está sendo tratado pode ter efeitos terapêuticos. O paciente
pode experimentar uma melhora real, devida a fatores psicológicos e não à natureza do
produto administrado. Em conseqüência, é sempre recomendável comparar o efeito do
remédio no grupo experimental, não com um grupo de controle em que nada é feito, mas
com um grupo de controle com placebo. O efeito do placebo estará presente nos dois
grupos e a diferença entre ambos será devida à ação do princípio ativo analisado.
Obviamente, para que o placebo funcione como tal, a pessoa não deve saber que está
tomando placebo, porque, caso contrário, o efeito psicológico poderia desaparecer (afinal, a

14
pessoa sabe que o que toma não serve para nada) e as pessoas poderiam inclusive se negar a
continuar o processo.
De fato, a distribuição das pessoas nos grupos experimental e de controle foi
realizada de forma aleatória e sem que as crianças soubessem a que grupo pertenciam.
Todavia, os médicos que administraram as injeções desconheciam, em cada caso, se
estavam inoculando a vacina ou o placebo, para evitar que pudessem, de algum modo,
influenciar as pessoas ou tomar alguma decisão que mudasse o plano experimental. As
injeções eram identificadas por um código e apenas a equipe central conhecia se o código
correspondia ao grupo experimental ou ao do controle. Isto é conhecido como o
procedimento ‘duplo-cego’, em que nem o paciente nem o médico conhecem se o primeiro
faz parte de um grupo ou do outro. Os médicos apenas anotavam a identidade das pessoas e
o código das substâncias inoculadas. Ao longo do tempo, os casos suspeitos de poliomielite
foram registrados e diagnosticados. A equipe que fazia o diagnóstico também desconhecia
se a criança tinha recebido vacina ou placebo, de forma que isso não pudesse introduzir um
viés no próprio diagnóstico, já que muitos casos eram de diagnóstico duvidoso. Após um
certo tempo, foram comparadas as taxas de incidência de poliomielite para as crianças
pertencentes aos dois grupos. A taxa entre os que receberam a vacina foi significativamente
inferior à taxa dos que foram inoculados com placebo. O experimento foi, portanto,
favorável à vacina como forma de prevenção da doença.
Na verdade, o ‘duplo-cego’ desempenha um papel muito importante porque uma
das dificuldades principais em muitos estudos é garantir a distribuição dos casos entre os
dois grupos de acordo com o plano experimental original, isto é, de forma aleatória. Não é
incomum encontrar médicos que desejam garantir o novo produto, que poderia representar
uma esperança para os doentes mais graves. Ou enfermeiras que, por alguma razão, mudam
no momento a atribuição de um paciente ao grupo assinalado. Se o próprio pessoal médico
não conhece a que grupo pertence um paciente, é muito mais difícil a introdução de vieses
na composição dos grupos. Quando existem razões éticas para outorgar o tratamento,
mesmo sem ter comprovado a sua eficácia, a alguns pacientes, como é o caso de doentes
terminais em casos de doenças para as que não existe cura conhecida, existem
procedimentos mistos. Por exemplo, o tratamento é dado a todos os casos mais graves, e o
experimento é realizado com os doentes de gravidade média, dividindo-os aleatoriamente

15
em grupos experimental e de controle. Vale lembrar que os produtos não possuem uma
eficiência garantida antes de serem apropriadamente testados e que muitos deles podem ter
efeitos secundários negativos que precisam também ser avaliados. Nesse sentido, os
experimentos biomédicos envolvem com freqüência dilemas éticos complicados. Por
exemplo: quando a evidência experimental pode-se considerar o suficientemente forte
como para interromper o experimento no meio e decidir dar (ou retirar, se os resultados
foram negativos) o tratamento a todos os pacientes? O risco de interromper o experimento
de forma prematura sem ter chegado a conclusões suficientemente claras deve ser
balançado contra o risco de perder vidas de pacientes, que poderiam ter sido salvas com
uma decisão mais rápida, por continuar o experimento até o final.
Esse é um exemplo de como o experimento é usado na área biomédica para
determinar a causalidade, nesse caso a eficiência de um produto.

Em ciências sociais, os experimentos também podem contribuir a esclarecer a


causalidade. No entanto, a realização de experimentos está com freqüência limitada por
vários fatores. Em algumas ocasiões, o experimento é rigorosamente impossível. Um
historiador não pode recorrer aos experimentos mais do que um astrônomo. Em outras
ocasiões existem barreiras éticas para o uso de experimentos. Um antropólogo, por
exemplo, não pode introduzir um choque cultural numa comunidade só para observar como
ela reage.
Com mais freqüência, existem limitações logísticas, sociais e políticas para a
execução de experimentos. A simples idéia de que recursos socialmente escassos e
valorados vão ser distribuídos seguindo um critério baseado na sorte costuma levantar
muitas resistências. De fato, nos países em que a noção de experimentos e quase-
experimentos para a avaliação de políticas públicas é hoje aceita como um princípio, a
mudança nessa direção custou décadas de persuasão. As autoridades podem decidir que vão
outorgar um programa de ajuda escolar segundo a necessidade de cada escola e não
segundo o critério aleatório do experimentador. Um programa de informação sobre
métodos anticoncepcionais para comunidades rurais pode não se prestar à realização de um
experimento pelas dificuldades logísticas e de comunicação e pela dificuldade de manter
uma comunidade no grupo experimental, e outra vizinha no grupo de controle sem saber

16
nada do mesmo. Um experimento sobre a eficácia de penas alternativas como substituto
das penas de privação de liberdade pode não ser viável por ser julgado como perigoso ou
por não ter o aval legislativo necessário.
As inúmeras limitações impostas aos experimentos fizeram com que surgisse a
noção de quase-experimento. Ele é, como a própria palavra indica, uma pesquisa concebida
sob o esquema experimental, mas que descumpre alguma das condições básicas para ser
chamado de experimento:
a) o controle do contexto e das variáveis intervenientes é muito baixo ou inexistente;
b) existem grupos experimental e de controle, mas a atribuição das unidades (pessoas,
instituições, etc.) a ambos os grupos não é feita de modo aleatório, razão pela qual não é
possível garantir a equivalência entre os dois. São os chamados grupos não equivalentes.
Todo esforço é realizado para tentar uma similaridade a mais alta possível entre os dois
grupos. Quanto mais parecidos forem os grupos entre si, mais forte será a inferência causal
do estudo. Contudo, como o procedimento não é aleatório, a similaridade entre os grupos só
se pode tentar em dimensões reconhecidamente relevantes, mas não em outras que ainda
não são concebidas como tais. Muitas vezes, os grupos de controle são procurados a
posteriori, após a introdução do tratamento no grupo experimental. Isto impossibilita,
obviamente, o experimento, visto que a distribuição de casos entre o grupo experimental e
de controle já foi feita, e não de forma aleatória. Nesses casos, é fundamental dedicar todo
o tempo preciso para procurar grupos de controle tão parecidos com o grupo de controle
quanto possível.
A aplicação dos estudos quase-experimentais permitiu aplicar esse tipo de
metodologia em muitas circunstâncias em que o experimento não era possível. Dessa
forma, ampliou muito a utilidade desse tipo de enfoque e melhorou as avaliações de muitas
intervenções sociais. Em termos do jargão de avaliação de programas, os estudos quase-
experimentais melhoraram a ‘avaliabilidade’5 de muitos programas.

5
Ver glossário.

17
4. A formalização da avaliação de programas sociais.

A avaliação de programas sociais existiu, obviamente, desde a criação desses


últimos, já que os programas não poderiam continuar indefinidamente sem algum tipo de
julgamento, mesmo que não fosse sistemático, sobre seus resultados e ou seu mérito. No
entanto, esta atividade começa a cristalizar em uma disciplina a partir do trabalho pioneiro
de Donald Campbell partindo do esquema experimental.
Dois são os textos fundamentais em que Capmbell descreve a metodologia para
avaliar intervenções sociais. O primeiro deles, em colaboração com Julian Stanley, foi
publicado em 1963 sob o título de “Desenhos Experimentais e Quase-Experimentais para a
Pesquisa sobre o Ensino”. O segundo, escrito conjuntamente com Thomas Cook, foi
publicado em 1979 com o nome de “Quase-experimentação”. Questões de Desenho e
Análise para Contextos Naturais”. Vale a pena sublinhar como esta nova disciplina, que
será aplicada a programas sociais de diverso tipo, nasce com algo pensado, em primeiro
lugar, para avaliar intervenções na área educativa.

No texto de 1963 Campbell e Stanley prestam homenagem a dois autores pelo seu
trabalho pioneiro. O primeiro é o famoso estatístico Fisher que no seu livro de 1925,
“Métodos Estatísticos para Trabalhadores de Pesquisa”, e a partir dos seus trabalhos em
agronomia, sentou as bases do procedimento experimental contemporâneo e firmou a
importância da aleatorização para garantir a igualdade inicial entre os grupos experimental
e de controle. O segundo autor é McCall que em 1923 publicou o volume “Como
experimentar em Educação”. Mais uma vez, aparece a educação nos trabalhos seminais
nessa área.

18
5. Validade interna e externa de uma pesquisa experimental.

Campbell e Stanley começam definindo dois conceitos fundamentais para poder


examinar e comparar os desenhos de pesquisa: validade interna e validade externa de uma
pesquisa experimental.
Validade interna é o grau de certeza de que o efeito na variável dependente do
experimento foi causado pela variável independente do experimento. Em outras palavras, é
a confiança de que foi a causa pesquisada, e não outro fator, que produziu os efeitos
observados. Esta certeza vai depender fundamentalmente do desenho de pesquisa. Quando
a confiança na inferência causal é alta, dizemos que o estudo possui uma alta validade
interna. Quando não se tem certeza de que foi o que causou a mudança (ou a estabilidade)
na variável dependente, falamos em uma baixa validade interna. De fato, não é uma decisão
dicotômica, possuir ou não possuir validade interna, mas gradativa. Na definição oferecida
no começo deste parágrafo aparece um elemento redundante: “do experimento”. O
objetivo é justamente frisar que a validade interna faz referência à inferência causal entre
causa e efeito tal como foram definidos e operacionalizados no experimento, sem pretensão
de generalização.
Validade externa indica a medida em que a inferência causal proposta pelo
experimento pode ser generalizada a outros momentos, lugares, populações e formas de
medir as variáveis em questão, tanto as independentes quanto as dependentes. Se a
inferência causal - isto é, o fato de que foi a variável independente do experimento que
causou a mudança na variável dependente- pode ser generalizada a outros contextos, a
outras pessoas, a outros modos de operacionalizar as variáveis, então pode se concluir que o
estudo possui alta validade externa. Por outro lado, se a inferência causal presente no
experimento, mesmo sendo clara e inequívoca, não pode ser estendida com facilidade a
outros contextos por ser específica daquela situação experimental, concluir-se-á que o
estudo apresenta baixa validade externa.
Em suma, validade interna faz referência à inferência causal no contexto concreto, e
validade externa diz respeito à sua capacidade de generalizar esta inferência. A diferença
entre as duas é especialmente relevante devido ao fato de que em ocasiões a procura de uma
delas pode comprometer a outra. Uma das formas convencionais de elevar a validade

19
interna é aumentar os controles experimentais: controlar melhor o contexto experimental,
medir ou equalizar todas as variáveis que possam constituir uma explicação alternativa à
linha causal proposta, etc. Esta tentativa, porém, é realizada ao custo de aumentar a
artificialidade do contexto experimental e a sua especificidade. E um contexto mais
específico e artificial estará pondo em risco a generalização das conclusões a outros
contextos naturais diferentes daquele experimento.
Vejamos um exemplo. Para testar um novo método pedagógico para o ensino da
matemática, um estudo é planejado em que um grupo de estudantes usa o novo método e
outro grupo, o grupo de controle, usa o método tradicional. Para diminuir a influência da
heterogeneidade inicial entre os alunos, aplica-se uma prova de matemáticas e selecionam-
se apenas os alunos com uma pontuação mínima de 8 pontos sobre 10, ou seja, alunos com
um alto grau de conhecimentos. Por outro lado, apenas alunos que manifestam um alto grau
de motivação e gosto pela matemática fazem parte do estudo. Da mesma forma, os
professores são selecionados conforme a uma prova de conhecimentos e competência, e
apenas os mais aptos são incluídos. Os alunos são aleatoriamente distribuídos entre o
grupo experimental e o grupo de controle. Cinco turmas de 40 alunos formam o grupo
experimental e outras cinco turmas do mesmo número conformam o grupo de controle.
Cada um dos cinco professores lida com duas turmas: usa o método tradicional com uma
turma e o método novo com outra turma. Para evitar interferência dos pais ou do ambiente,
os 400 estudantes são internados numa escola, longe das famílias, durante três meses, e
recebem um curso acelerado. Para que os alunos não fiquem pensando que trata-se
justamente de um teste sobre matemática, eles recebem cursos sobre todas as matérias. As
turmas que experimentam o novo método moram em áreas diferentes das turmas que
seguem o método tradicional e possuem salas de estudo próprias, para evitar que
compartilhem detalhes sobre o método. Amplas oportunidades de lazer, esporte e biblioteca
estão disponíveis. No fim do curso, a mesma prova de matemática é aplicada a todos. Os
avanços em relação à prova inicial são comparados para os dois grupos e o ganho é
significativamente superior para os alunos que experimentaram o novo método, tal que o
seu incremento de pontos é 20% superior aos que usaram a metodologia tradicional. A
conclusão parece ser que o novo método é de fato mais eficiente que o antigo. Estamos ante
um estudo que parece possuir um alto grau de validade interna. Porém, esta conclusão é

20
válida, a princípio, para alunos motivados e de alto rendimento, em regime de
internamento, num curso acelerado, e monitorados por professores de alta qualidade e com
acesso à biblioteca e a opções de lazer. Será que o novo método funcionará igualmente
bem, ou simplesmente melhor do que o antigo, quando aplicado a alunos normais ensinados
por professores normais, morando na sua casa durante um curso escolar convencional? A
tentativa de aumentar o controle sobre variáveis intervenientes de fato ajudou a afastar
outras explicações alternativas (aumento da validade interna), mas em contrapartida perdeu
em possibilidade de generalização (diminuição da validade externa).
Tradicionalmente, e esta é a posição do texto de Campbell e Stanley, a validade
interna é a principal, a condição sine qua non. Afinal, de que serve generalizar se não
sabemos exatamente o que estamos generalizando ? Entretanto, uma priorização absoluta
da validade interna em detrimento da externa também não é muito defensável. De que serve
ter uma garantia plena sobre uma inferência causal que não pode ser aplicada além do
contexto concreto em que foi gerada? Uma pesquisa experimental é feita em pequena
escala justamente para poder decidir sobre a implantação de um programa social a grande
ou mediana escala. Se isto último não for possível, o experimento pode ser considerado
inútil independentemente da sua validade interna. Em suma, o ideal é atingir um alto grau
dos dois tipos de validade, mas amiúde é necessário um equilíbrio entre ambos,
especialmente nos casos em que a perseguição de um tende a diminuir o outro.

Os autores cunham, para se referir aos fatores que poderiam afetar negativamente à
validade de uma pesquisa experimental, o termo de ameaças à validade interna e externa.
Os elementos que poderiam ameaçar a validade interna seriam os seguintes:

1. História. Refere-se a todos os fatos que aconteceram antes da medição final e que
podem ter influenciado a variável dependente além da influência do tratamento
experimental, isto é, da intervenção planejada. Imaginemos um programa semestral para
diminuir a agressividade e as lutas dentro de uma escola. Se durante o tempo de aplicação
do programa acontece uma forte crise econômica na zona com aumento do desemprego, é
provável que isto aumento o estresse dentro das famílias e, em conseqüência, a
agressividade dos jovens. Assim, mesmo que o programa seja positivo, seu impacto poderia

21
ser anulado ou inclusive revertido por fatos desse tipo. A solução é dispor de um grupo de
controle submetido aos mesmos fatos para compará-lo com o grupo experimental. Com
uma história comum, os acontecimentos devem afetar os dois grupos por igual e, portanto,
a diferença entre os dois deverá ser devida ao tratamento experimental. Assim, é mesmo
possível que o resultado geral seja negativo, nesse caso, que as crianças no final do período
mostrem mais agressividade do que no começo devido aos problemas comentados. No
entanto, se o incremento da agressividade é significativamente menor no grupo
experimental do que no de controle, poderemos atribuir um impacto positivo ao programa
avaliado.
2. Maturação. Definem-se assim os fatores biológicos e psicológicos que incidem
sobre as variáveis de interesse devido ao mero passo do tempo. O caso mais típico, quando
se trabalha com crianças, é o crescimento físico e psicológico, e daí o nome. Se estamos
implementando um método para melhorar as habilidades de leitura e escrita de crianças de
primeiro grau, não podemos simplesmente comparar uma prova feita no começo (pré-teste)
e outra no final do curso (pós-teste). Uma criança nove meses mais velha melhorará
naturalmente sua capacidade de leitura e de escrita independentemente do programa
executado. Esse temor é muito menor quando se trabalha com adultos. Porém, estes
problemas não se limitam a fatores de crescimento a médio ou longo prazo. O passar de um
tempo muito mais curto também pode ocasionar cansaço, fome, tédio, etc. Não seria
aconselhável submeter crianças pequenas a provas sucessivas de grande exigência de
concentração. Provavelmente, o cansaço provocaria uma diminuição da concentração na
segunda prova (pós-teste) prejudicando-a, dando a falsa impressão de que o método de
ensino avaliado possui resultados negativos. Mais uma vez, a forma de se proteger é
realizar um grupo de controle que seja observado no mesmo período que o grupo
experimental. Dessa forma, qualquer efeito do passo do tempo acontecerá de igual modo
para ambos os grupos e poderá ser ignorado na comparação direta dos mesmos. Como
sempre, o objetivo é contar com duas situações que se assemelhem em tudo menos no
tratamento avaliado, o que nos remete ao Método da Diferença de Stuart Mill.
3. Teste. O fato de efetuar uma medição pode afetar à medição seguinte. Dessa
forma, a segunda medição posterior à intervenção (pós-teste) pode variar simplesmente
pelo impacto da primeira (pré-teste) e não devido ao tratamento experimental. Isto

22
dependerá do nível de reatividade da medição, ou seja, do grau em que o modo de
mensuração possa alterar o próprio valor que está sendo medido. A reatividade inclui tanto
a interferência sobre a mensuração feita no mesmo momento quanto a influência sobre uma
medição subseqüente. Este tem sido um problema muito mais sério para as ciências sociais
do que para as ciências físicas e naturais. Nas primeiras, como assinalava Max Weber, o
objeto da mensuração pode mudar ao ser ciente dessa medição.
O exemplo clássico são os testes de inteligência ou desempenho. Se um mesmo
teste é aplicado duas vezes num curto espaço de tempo, o segundo mostrará, com toda
probabilidade um resultado melhor, mesmo em ausência de uma mudança real nas
dimensões contempladas. O sujeito terá ‘aprendido’ parte do teste e o segundo
preenchimento será melhor e mais rápido. Em questões atitudinais, o efeito é menos
previsível, mas não por isso menos intenso. Uma escala de atitudes sobre racismo pode
fazer os alunos refletirem sobre a situação de forma que numa segunda aplicação os jovens
adaptem suas respostas ao que eles acham que os adultos esperam ouvir. Por outro lado, é
também possível em alguns contextos que a visão de frases abertamente racistas no
questionário, com as que devem concordar ou discordar, anime os mais preconceituosos a
expressar mais claramente sua opinião num segundo momento. As medições relativas a
intervenções para modificar a conduta mostram efeitos ainda mais complicados. Pensemos
num método para emagrecer, precedido e seguido de uma pesada numa balança. A primeira
pesada pode acender a luz de alarma em alguns sujeitos levemente obesos de forma que se
decidam a baixar de peso, independentemente do programa seguido depois. Como nos
casos anteriores, a existência de um grupo de controle ao lado do grupo experimental, com
atribuição aleatória, é de grande ajuda, pois o efeito do pré-teste acontecerá nos dois grupos
e poderá ser descontado na comparação entre ambos. Todavia, existem desenhos
experimentais que, como veremos posteriormente, permitirão não simplesmente descontar
mas medir também esse efeito.
4. Instrumentação. Com este nome, os autores referem-se às mudanças nas medidas
obtidas que são devidas não a mudanças no processo estudado, mas a variações ou
problemas nos instrumentos de medição. No caso das ciências sociais, os instrumentos não
são balanças, mas questionários, observadores, codificadores, etc. Basta mudar a ordem
das perguntas em um questionário para que algumas respostas possam se ver afetadas.

23
Quando se codifica material qualitativo, é normal que os critérios mudem lentamente a
medida que se adquire experiência. Por outro lado, pode acontecer também que as
expectativas do pesquisador se transfiram, de maneira mais ou menos consciente, na
codificação do material. Por isso, sugere-se que as pessoas que codificam trabalhem ao
mesmo tempo com o material procedente dos dois grupos, experimental e de controle, sem
saber que respostas pertencem a cada grupo. Isto é importante porque garante que, mesmo
no caso de existir um viés (por exemplo, no pós-teste em relação ao pré-teste), ele seja
aplicado de igual forma aos dois grupos.
Um exemplo clássico de um problema de instrumentação é o chamado 'efeito teto'.
O efeito teto acontece quando a escala de medição está já no início, no pré-teste, próxima
do seu ponto máximo. A segunda medição, ou pós-teste, não poderá encontrar uma melhora
muito grande, independentemente da qualidade da intervenção avaliada, já que o
instrumento de medição não pode ultrapassar o seu máximo valor possível. Pensemos na
avaliação de uma nova metodologia prática de ensino das ciências naturais. Se no teste
anterior ao curso, a pontuação média dos alunos é de 9 pontos numa escala de 0 a 10,
estamos ante um sério problema. O teste posterior ao curso deve estar calibrado de forma
igual ao inicial, para poder ser comparável. No entanto, a nota máxima possível é 10, então
a melhora máxima possível será de 1 ponto, e isso no caso altamente improvável de que
nenhum aluno cometa um só erro. Se o programa é bom pode ter o mesmo resultado
registrado do que se ele for excelente, visto que o instrumento não pode registrar mais
variação positiva, tão somente negativa. Caso uma situação desse tipo aconteça no pré-teste
de uma avaliação, o pesquisador deverá realizar outra prova de maior dificuldade para
evitar o problema. O fenômeno contrário é conhecido como 'efeito solo', em que a
pontuação inicial já é tão baixa que não possibilita decrementos substanciais. Estes
problemas são evidentes quando as variáveis possuem limites mínimo e máximo
prefixados, como é o caso das provas, mas podem atingir também situações em que, sem
existir tal limite explícito, o mesmo incremento na escala seja muito mais difícil de
conseguir se tentado a partir de um certo limiar de pontuação.
5. Regressão na direção da média. Este fenômeno determina que subgrupos
escolhidos por atingir uma pontuação muito alta em um primeiro teste tenderão a diminuir
sua média no seguinte teste, e vice-versa, pessoas selecionadas por possuir uma pontuação

24
muito baixa no primeiro teste tenderão a refletir uma média superior no segundo. Ele
acontece automaticamente sempre que os grupos tenham sido escolhidos por ser extremos e
sempre que a confiabilidade das medidas não seja perfeita. Quanto mais fraca seja a
confiabilidade, maior será a regressão experimentada. Este é um processo sistemático e
enganosamente simples de entender. Para explicá-lo recorreremos ao caso extremo. Um
teste de conhecimentos está construído com um intervalo de pontuações entre 0 (nota
mínima) e 10 (nota máxima). Aplica-se o teste e selecionam-se os alunos com pontuação
de 10. Depois os alunos são submetidos a um curso na mesma matéria e, posteriormente,
repetem uma outra versão do teste. Mesmo com um programa de ensino excelente, a
pontuação de este grupo que tirou 10 no primeiro teste apresentará uma média alta, mas
sempre inferior a 10 no segundo teste. Basta uma pessoa qualquer errar um só item para
que a média já não seja 10. Ainda, alguma das pessoas, mesmo com um alto grau de
conhecimentos, poderá ter um mau dia, ou um problema de compreensão com alguma
pergunta, e perderá alguns pontos, inclinando a média para baixo. Esta flutuação entre
prova e prova é normal. Se comparássemos as médias do conjunto da população nos dois
momentos, não deveria acontecer nenhum viés na média. Alguns teriam um mau dia no
primeiro dia e outros no segundo, alguns teriam um golpe de sorte (por exemplo,
encontrando perguntas justamente sobre os temas que mais estudaram) no primeiro dia e
outros no segundo, mas estas flutuações se compensariam e não afetariam as médias. Note-
se, entretanto, que, ao eleger as pessoas com pontuação máxima, as pessoas com um mau
dia na primeira ocasião estarão automaticamente excluídas da pesquisa desde o começo.
Mas algumas das pessoas escolhidas terão um mau dia no segundo teste, fazendo descer a
média do grupo. Da mesma forma, se as pessoas foram selecionadas em função de um pré-
teste igual a 0 pontos, basta com que uma delas acerte um só item para que a média grupal
já seja superior a 0 no segundo momento. A intensidade da regressão em direção da média
grupal é diretamente proporcional à extremidade da pontuação pela qual se selecionou o
subgrupo. Se o grupo teve um pré-teste de 0 ou 10, a regressão será forte, se o pré-teste
teve média de 9 ou 1, a regressão será um pouco mais leve. Se o subgrupo foi selecionado
com a média grupal (digamos com pontuação igual a 5) não existirá regressão nenhuma. O
perigo, então, é concluir falsamente uma melhora dos grupos de baixo desempenho ou um
deterioro dos grupos de alto desempenho. É interessante notar que se fizéssemos o

25
contrário, isto é, se selecionássemos as pessoas segundo a sua pontuação extrema no pós-
teste e comprovássemos a sua média no pré-teste, chegaríamos justamente à conclusão
contrária, igualmente equivocada: os alunos piores no final estavam um pouco melhor no
começo, e os melhores no final estavam em uma situação um pouco inferior no início.
Vale a pena ver um exemplo substantivo. As avaliações das terapias psicológicas
contra a depressão sempre sofreram desse problema. As pessoas procuram o terapeuta justo
quando estão em um período muito difícil e se sentindo especialmente mal. Daí que, se são
testadas sobre o seu grau de depressão no momento que chegam ao terapeuta e de novo três
meses depois, é muito provável que o conjunto experimente uma certa melhoria
independentemente do efeito da terapia, devido ao simples motivo de que esse momento
especialmente ruim terá passado pelo menos para uma parte dos pacientes. A medida que
contemos com grupo de controle, ele também sofrerá regressão na direção da média se seus
integrantes foram selecionados em razão de uma pontuação inicial extrema, possibilitando
assim a comparação entre os dois grupos.
6. Seleção. A composição do grupo experimental e a do grupo de controle não são
equivalentes; existem em alguma medida diferenças entre os dois grupos. Este é um dos
problemas fundamentais da avaliação de programas sociais em muitas áreas. A dificuldade
é particularmente severa quando o programa é aplicado a pessoas ou instituições que o
procuraram deliberadamente, ou seja, quando o grupo experimental está composto de
voluntários. Por exemplo, um curso intensivo opcional para melhorar o desempenho escolar
em matemática. Se comparamos o pós-teste dos voluntários que se inscreveram no
programa com o resto dos alunos de similar pontuação no pré-teste, as diferenças entre
ambos grupos podem dever-se ao fato de que os alunos que entraram no programa, mesmo
com um nível de competência em matemática igual ao do grupo de controle, tinham um
interesse na matéria maior ou uma maior cobrança das suas famílias. A melhora no pós-
teste relativa ao grupo de controle poderia ter acontecido apenas por causa dessa maior
motivação, independentemente do curso avaliado. Em geral, um grupo de voluntários não
pode ser comparado com a totalidade das pessoas, mesmo que estejam equalizados em
termos de pontuações ou capacidades iniciais, já que existem outras dimensões,
particularmente as motivacionais, em que os dois grupos provavelmente serão diferentes.
Nesse caso, a solução é conseguir um grupo de controle também de voluntários, com

26
atribuição aleatória aos grupos. Por exemplo, o programa pode ser oferecido apenas para a
metade dos voluntários que se apresentem, deixando a outra metade como grupo de
controle. Para evitar deixar a essa outra metade sem a intervenção, pode-se oferecer uma
implantação diferida para o grupo de controle, da forma seguinte. Em primeiro lugar, é
realizado um pré-teste para todos os voluntários; em segundo lugar o programa é aplicado
para a metade deles; em terceiro lugar, é feito um pós-teste para todos; e por último, com o
experimento terminado, a outra metade dos voluntários pode receber o programa. Na área
educativa, os alunos ou professores são muitas vezes populações cativas, cuja participação
nas intervenções sociais não é voluntária, mas obrigatória. Contudo, a participação de
instituições em experimentos desse tipo é muitas vezes opcional, com as mesmas
conseqüências comentadas anteriormente. Os problemas de seleção não se limitam ao
caráter voluntário do grupo experimental, mas a qualquer diferença inicial relativa à
composição dos grupos. O remédio clássico contra esse problema é, mais uma vez, a
atribuição aleatória dos casos aos dois grupos. Independentemente da natureza das pessoas
ou instituições envolvidas na pesquisa, desde que elas sejam distribuídas aleatoriamente
entre os dois grupos e desde que o número seja razoavelmente alto, podemos supor uma
equivalência entre ambos.
7. Mortalidade Amostral. Toda pesquisa sofre de perda de respostas ou casos
válidos, especialmente quando é longitudinal, ou seja, quando se mede o mesmo grupo de
pessoas várias vezes. No caso das pesquisas experimentais, a perda pode ocorrer no
momento do pré-teste, durante o programa, ou no momento do pós-teste. Isto vale a
princípio tanto para o grupo experimental quanto para o de controle. Ainda, alguns dos
membros do grupo experimental podem interromper a sua participação no programa. Se as
pessoas ausentes em ambos grupos são representativas do total, sofreremos somente uma
perda do número de casos, mas nenhum viés. Por outro lado, se um tipo determinado de
pessoas desiste no meio do programa, isto certamente afetará os resultados. E se a
mortalidade amostral no grupo experimental é diferente em quantidade ou qualidade da do
grupo de controle, essa diferença pode levar a conclusões erradas. Especialmente, quando é
o próprio programa que provoca uma desistência diferencial no grupo experimental. Por
exemplo, quando a intervenção é cansativa e requer um alto grau de participação, ela pode
acabar fazendo com que os menos motivados ou aqueles que estejam percebendo piores

27
resultados abandonem o programa, deixando apenas os mais motivados e aqueles em
melhor situação. A comparação entre estes últimos e o grupo de controle pode dar uma
falsa impressão de melhoria. De fato, quando uma terapia é dolorosa, demorada ou custosa,
os pacientes com menos crença na terapia ou com piores resultados podem abandonar o
tratamento, produzindo a sensação de uma falsa melhora geral. Esse é um problema muito
grave ante o qual não serve a aleatorização, já que as diferenças entre ambos os grupos são
introduzidas pelo próprio tratamento experimental. Para se proteger contra esta ameaça
duas providências podem ser tomadas. A primeira consiste em tentar reunir, no pré-teste, a
maior quantidade de informação sobre o perfil das pessoas nas dimensões relevantes para a
variável dependente, e comparar o perfil dos participantes no pré-teste e no pós-teste. Isto
não garante uma equiparação completa mas ajuda a comprovar em que medida poderia
estar acontecendo um viés por mortalidade amostral diferencial. A segunda medida, para os
casos em que os sujeitos interromperam sua participação no programa mas responderam o
pós-teste, é incluí-los na análise final. Dessa forma a análise será conservadora, pois alguns
membros do grupo experimental não receberam o tratamento completo –não assistiram ao
curso inteiro, por exemplo -, mas isto é preferível à situação contrária.
8. Interação de Seleção com outros fatores. Em outras palavras, o efeito conjunto da
seleção combinada com alguma das outra ameaças citadas anteriormente. Entre outras,
interação de seleção e maturação. Um estudo sobre amplitude de vocabulário pode escolher
crianças com o mesmo nível de desempenho inicial, mas se as do grupo experimental são
de classe média-alta enquanto as do grupo de controle são de classe baixa, isto pode
determinar uma velocidade de maturação superior para os primeiros que estão expostos a
condições diferentes nos seus lares (mais livros e material audiovisual, um vocabulário
mais variado por parte dos pais, etc.), independentemente do efeito do programa escolar
avaliado. Como no caso do problema da seleção sozinho, a solução básica é a aleatorização
na distribuição dos casos aos dois grupos.

Em seguida, analisaremos as ameaças à validade externa, isto é, à generalização da


inferência causal encontrada a outros lugares, pessoas, contextos, tempos e formas de medir
as variáveis independentes e dependentes. Assim, a validade externa garante que o efeito
causal encontrado, seja ele qual for, pode ser generalizado. Se a validade interna era

28
aumentada através de desenhos experimentais que, dedutivamente, excluíam a
possibilidade de outro fator diferente da causa pesquisada ter originado o efeito observado,
a validade externa não pode ser defendida do mesmo modo. Ela não pode ser demostrada
dedutivamente, apenas confirmada de forma indutiva, testando o mesmo fenômeno em
outros contextos. Mas antes de testar o programa de novo na prática, é possível tentar
estimar ou predizer que fatores poderiam ajudar ou dificultar uma maior generalização. Em
geral, pode-se concluir que o poder de generalização será maior a medida que as condições
experimentais sejam similares àquelas para as quais o programa pretende ser estendido. Na
análise da validade externa não está em questão o efeito da causa pesquisada, que
corresponde à validade interna, mas as especificações que a causa precisa para poder
funcionar. Assim, as ameaças à validade externa podem ser concebidas como interações
entre o tratamento experimental e alguma condição particular que limita a aplicação dessa
causa a outros âmbitos.
Os fatores que poderiam ameaçar a validade externa seriam os seguintes:
1. Interação entre o tratamento experimental e o teste. Esse elemento é diferente do
teste a sós, que foi descrito como um problema para a validade interna. Neste caso não se
nega que a foi a causa pesquisada que provocou o efeito, questiona-se se essa causa precisa
dessa forma de realizar o pré-teste para poder funcionar. Se o pré-teste sozinho produz o
efeito, trata-se de um problema de validade interna, pois foi o teste e não o tratamento que
obteve o resultado. Se, ao contrário, o teste e a intervenção são ambos necessários para
encontrar o resultado procurado, estaremos perante um problema de validade externa, pois
o efeito é produzido pela variável independente, mas não pode ser generalizado a outros
tipos de pré-teste. Imaginemos um programa para ajudar as pessoas a deixarem o tabaco. O
pré-teste e o pós-teste consistem em Raios X de pulmão que permitem estimar a quantidade
aproximada de cigarros fumados nos últimos tempos e o acúmulo de substâncias
prejudiciais. Porém, muitos fumadores podem ficar apavorados depois de ver o seu Raio X
de pulmão, e esta alarma pode levar muitos deles a desejarem deixar o tabaco. Nesse
cenário, o fumante pode estar muito mais sensibilizado para os conteúdos dos cursos e
acabar sendo convencido por eles. Foram então o curso e o Raio X, conjuntamente, que
provocaram a mudança. Se a forma de medir a exposição ao tabaco tivesse sido através de
um questionário ou de uma análise de sangue, talvez o efeito do curso poderia ter sido

29
muito menor. Esse é um exemplo de como o tratamento experimental só funciona quando
antecedido por um tipo de teste determinado.
Contra esta situação, não vale simplesmente o uso da aleatorização, mas é
necessário o uso de dois grupos experimentais, um deles com pré-teste e outro sem pré-
teste, para comparar se existe diferença no efeito final em ambos os casos.
Na área educativa, muitas das dimensões relevantes são avaliadas de forma
corriqueira através de testes e provas, e portanto é mais raro que os testes despertem uma
reação inusual ou provoquem um impacto no tratamento.
2. Interação entre o tratamento experimental e a seleção. O programa pode ter
funcionado devido às caraterísticas especiais da população com que foi testado. Se os
participantes foram aleatoriamente distribuídos entre o grupo experimental e de controle, as
peculiaridades da população não colocam em risco a validade interna, pois afetam os dois
grupos da mesma forma e, portanto, não poderiam explicar as diferenças entre ambos. No
entanto, essas particularidades podem comprometer a validade externa, visto que o
programa pode funcionar para populações com esse perfil mas não com outro. As escolas
que se oferecem para participar de estudos de avaliação de novos métodos pedagógicos são
com freqüência escolas com traços especiais: mais interessadas, inovadoras e cooperativas,
com professores de maior qualidade e maiores meios à disposição dos alunos. Métodos
pedagógicos que funcionam bem com escolas desse gênero podem fracassar se aplicados a
escolas menos motivadas e de menor qualidade.
Para paliar esse problema, é fundamental uma amostragem ampla das instituições e
pessoas que participam no estudo, de forma que sejam representativas do universo
institucional e populacional em que o programa pretende ser aplicado. Quando a
participação é voluntária, baixas taxas de resposta podem comprometer este objetivo da
representatividade, mas nesse caso se terá, pelo menos, um indicador de que podem existir
problemas dessa natureza. Em geral, quanto mais diversa for a população com que um
programa tem sido testado com sucesso, maior será a confiança sobre a aplicação geral do
seu efeito.
3. Interação de outros elementos e tratamento experimental. Exemplos disso seriam
a interação de história e o tratamento ou de contexto e tratamento, o que equivale a dizer
que o programa possui um efeito determinado apenas em circunstâncias históricas

30
concretas ou em contextos determinados. Por exemplo, houve um aumento salarial para os
professores justamente antes da introdução da nova metodologia pedagógica, razão pela
qual a motivação deles subiu muito e permitiu o sucesso na mudança. O único conselho
possível aqui é a repetição do estudo em momentos e circunstâncias diferentes.
4. Reatividade do contexto, isto é, grau em que o ambiente do experimento tende a
gerar respostas diferentes das que aconteceriam num contexto natural. Da mesma forma
que a reatividade de uma forma de mensuração era sua capacidade de afetar o valor que
estava sendo medido, a reatividade do contexto também indica sua influência indevida nas
variáveis dependentes. Na tentativa de garantir a validade interna, os experimentadores
tendem a produzir um contexto artificial e restritivo, que dificulta a generalização a
condições normais. Os experimentos têm sido muito criticados por este motivo,
especialmente quando acontecem em laboratórios. O objetivo deve ser desenhar os
experimentos no contexto mais natural possível. Quando for viável, o experimento deve
ser conduzido no ambiente natural - a sala de aula, por exemplo -, como parte do trabalho
normal, e desenvolvido pelos próprios professores em suas turmas. Os autores mencionam
como exemplo um estudo de Page (1958), que demostrou que comentários breves de
correção nas provas dos alunos produziam um melhor resultado na prova seguinte.
Participaram mais de 74 professores e mais de 2.000 alunos. Cada professor decidia
jogando um dado se cada aluno pertenceria ao grupo experimental (correção com
comentários) ou ao de controle (correção apenas com a nota). Os alunos nem sequer
perceberam que um experimento estava acontecendo até o fim, já que ele se desenvolveu
como parte das atividades corriqueiras da aula. Às vezes, existem razões para abandonar
esses princípios, mas é importante ser ciente dos riscos. O pré-teste é um elemento que
alerta normalmente para a existência de alguma propósito especial, sobretudo se seguido
por um pós-teste. Nos casos onde isso possa ser um problema sério, é preciso considerar o
uso de grupos experimentais com e sem pré-teste.
5. Interferência de outros tratamentos. Quando vários programas estão em
funcionamento ao mesmo tempo ou outros programas acabaram há pouco tempo e o seu
efeito pode estar ainda presente, o que se avalia não é simplesmente a intervenção em
questão, mas a combinação dela com esses outros programas. O uso de grupo de controle e
grupo experimental gerados aleatoriamente elimina a hipótese rival de que o efeito possa se

31
dever aos outros programas, já que estes afetarão por igual a ambos os grupos. No entanto,
pode acontecer que a nova intervenção só tenha efeito quando realizada em associação ou
sobre o pano de fundo da intervenção anterior. Este é o conceito de interação que
encontramos tanto em farmacologia como em estatística. Em ocasiões, dois remédios
apresentam interação porque o efeito da ingestão conjunta de ambos no organismo não é
igual à soma dos efeitos de cada um deles tomados individualmente. A única
recomendação possível é tentar acrescentar outro grupo experimental com outras
instituições e populações que não tenham estado submetidas aos programas anteriores, para
poder comparar os efeitos. Contudo, se os programas anteriores foram dispensados à
totalidade do universo para o qual se pretende generalizar, como por exemplo um programa
padrão de alfabetização da rede pública, isto deixa de ser um problema, já que o efeito nos
contextos onde será aplicado o programa será o mesmo que nos lugares onde foi testado.

A lista de ameaças à validade interna e externa não deve ser considerada como uma
receita de cozinha cuja obediência sistemática garante o sucesso da pesquisa, mas como
contribuições à reflexão de como melhorar o desenho da pesquisa para garantir uma
inferência causal forte e uma generalização ampla. Outros elementos novos não
mencionados aqui podem ser relevantes em um determinado estudo. Todavia, vale lembrar
que nem todas as denominadas ameaças possuem o mesmo peso em todos os experimentos;
o pesquisador deve considerar em cada caso a força de cada um desses fatores, priorizar os
mais perigosos, e justificar por que os outros não implicam um risco sério no seu caso. A
capacidade do avaliador de construir uma argumentação convincente sobre a solidez do
desenho é mais importante que a menção religiosa de cada um desses fatores.

32
6. Alguns desenhos experimentais.

Antes de examinar os desenhos, é importante resenhar a notação a ser empregada,


que é comum na literatura experimental. Cada grupo diferente, experimental ou de
controle, aparecerá em uma linha diferente. Nessa linha, cada vez que uma observação ou
medição aconteça será registrada com a letra ‘O’. Se existem várias medições ou
observações, cada uma delas levará um número indicando a sua ordem. Assim, o pré-teste
será registrado como O1 e o pós-teste como O2. A aplicação do tratamento experimental,
isto é, da causa pesquisada ou do programa a ser avaliado, será designada com a letra ‘X’
na linha correspondente. O grupo experimental mostrará então, a diferença do grupo de
controle, um ‘X’ entre o pré-teste e o pós-teste. A coincidência vertical de dois símbolos
nas linhas correspondentes a grupos diferentes indicará que esses dois elementos
aconteceram simultaneamente, cada um aplicado ao seu grupo. Por exemplo, se o pré-teste
foi realizado simultaneamente para o grupo experimental e de controle, o símbolo ‘O1‘ do
grupo experimental estará alinhado verticalmente com o ‘O 1’ do grupo de controle. Por
último, quando os diferentes grupos tenham sido conformados através de uma atribuição
aleatória, cada um deles estará precedido do símbolo ‘R’6.
A título de exemplo da notação, observemos três desenhos que os autores chamam
de pré-experimentais por não cumprirem as condições necessárias para serem considerados
experimentos.
O primeiro é o desenho de grupo único com pós-teste, que quedaria simbolizado
assim.

X O

Esse modelo está sujeito a todos os tipos de ameaças à validade interna enumerados
anteriormente e não pode ser considerado um experimento, pois não existe sequer grupo de
comparação. Não possui nenhuma outra referência com a qual o pós-teste pudesse ser
comparado para verificar o impacto do tratamento. De fato, alguns estudos de caso seguem
este esquema.

6
. A origem do símbolo é a palavra inglesa ‘random’ que significa ‘aleatório’.

33
O segundo desenho é de grupo único com pré-teste e pós-teste, descrito da seguinte
forma.

O1 X O2

Graças à existência de pré-teste é mais fácil nesse caso, através da comparação das
duas observações, detectar a existência de possíveis problemas de seleção ou de
mortalidade amostral no pós-teste. No resto, as diversas explicações alternativas à causa,
como história, maturação, etc., continuam vigentes.
O terceiro desenho corresponde a grupos de comparação estáticos, com pós-teste.
Conta-se com um grupo de controle, mas a distribuição das unidades nos grupos não é feita
de modo aleatório.

X O
O

Por exemplo, para avaliar a qualidade do ensino em diferentes escolas secundárias,


comparam-se as pontuações dos alunos de cada escola no vestibular. Ou para avaliar livros
de texto de português, se comparam as pontuações no SAEB dos alunos das escolas que
usam diferentes livros. Este desenho permite controlar alguns dos fatores que poderiam
comprometer a validade interna (teste, instrumentação, regressão na direção da média, etc.),
mas o grande problema, em ausência de aleatorização, continua sendo a seleção. Se uma
escola de segundo grau consegue melhor pontuação média do que outra, não é claro até que
ponto esse resultado pode ser atribuído a um ensino melhor ou ao fato de que o tipo de
alunos que freqüenta ambas escolas é diferente. Os alunos de classe média ou alta possuem
recursos pedagógicos em casa (livros, aulas particulares ou aulas de línguas, etc.) e
experimentam uma cobrança para o rendimento acadêmico superiores aos alunos de classes
populares. Em conseqüência, é de se esperar um melhor rendimento dos primeiros ainda
que a qualidade do ensino seja igual em ambos os casos. Dito de outra forma, mesmo se os
alunos com origens sociais distintas assistissem à mesma escola, seu desempenho seria

34
provavelmente diferente devido a esses outros fatores extra-escolares. Em conclusão, para
avaliar a qualidade do ensino de uma escola não se pode simplesmente comparar os
resultados das provas sem ter equiparado antes o tipo de alunos de cada escola. O mesmo
acontece se, com o objetivo de avaliar os diferentes livros de texto, compararmos as
pontuações de escolas que usam os diferentes livros. Quem garante que as escolas que
usam um texto não possuem um perfil diferente das escolas que usam outro texto, e que,
por conseguinte, o tipo de aluno que usa o primeiro não é também diferente dos que usam o
segundo? Fatores como o preço do livro, acordos com as autoridades educativas, etc.
podem determinar o uso do livro por parte de alunos com um perfil ou outro.
Este exemplo frisa com clareza a importância da aleatorização para poder garantir
uma inferência causal forte.

Em seguida, passamos a enumerar os desenhos propriamente experimentais, que


cumprem as exigências para serem considerados experimentos:

1. Desenho com pré e pós-teste e com grupo de controle. Este é o desenho clássico
mais comum, com atribuição aleatória e observações anterior e posterior ao programa
avaliado.

R O1 X O2
R O1 O2

Se a mudança entre O1 e O2 é significativamente maior no grupo experimental que


no de controle, isto deverá ser atribuído ao tratamento experimental, já que ele constitui, a
princípio, a única diferença visível entre os grupos. Vale a pena insistir em que a
aleatorização é fundamental para garantir a equivalência dos grupos além do tratamento
experimental.
Se a pesquisa tenta avaliar o desempenho relativo de dois programas, o esquema é o
mesmo, só que, em vez de grupo de controle, contar-se-á com dois grupos experimentais. A
conclusão obtida será relativa a se um programa possui um efeito significativamente
superior ao outro, mas não esclarecerá se cada um deles possui um efeito positivo ou não.

35
R O1 X1 O2
R O1 X2 O2

É possível combinar as duas possibilidades e contar com vários grupos


experimentais, um para cada tipo de tratamento, mais um único grupo de controle. Assim, é
possível responder a todas as perguntas referentes ao impacto relativo e absoluto de cada
uma das intervenções.
Este desenho clássico responde, a princípio, a todos os perigos que incidem sobre a
validade interna, mas continua sofrendo das ameaças à validade externa. Em outras
palavras, a inferência causal é forte, mas a possibilidade de generalizar não está garantida.

2. O desenho de Solomon com quatro grupos, proposto por esse autor em 1949. Esta
opção consiste na duplicação dos grupos experimental e de controle do desenho clássico, de
forma que uma vez sejam realizados com pré-teste e uma vez sem pré-teste.

R Oa X Ob
R Oc Od
R X Oe
R Of

Este desenho possui algumas vantagens sobre o anterior. A influência do teste, isto
é, do efeito da primeira medição sobre a segunda, pode ser agora não apenas controlada,
mas também mensurada. Basta comparar Od com Of. A interação do teste com o
tratamento experimental, ou seja, a possibilidade de que o tratamento só funcione quando
precedido pelo pré-teste, o que é uma ameaça à validade externa, pode ser agora controlada
e mensurada comparando Ob com Oe. Possíveis problemas de história ou de maturação, por
exemplo, podem ser melhor controlados através da comparação de O f com Oa e Oc. Em
geral, a consistência do efeito da intervenção pode ser confirmada se ele se mantém nas
diferentes confirmações possíveis: Ob > Oa; Ob > Od; Oe > Of; Oe > Oa; Oe > Oc. Este

36
desenho é especialmente recomendado quando o efeito do teste inicial seja estimado como
forte e valha a pena monitorá-lo em detalhe.

3. Desenho com apenas pós-teste e grupo de controle. A distribuição é aleatória,


mas se diferença do desenho clássico (desenho 1) pela inexistência de pré-teste. Equivale
também aos dois últimos grupos do desenho de Solomon.

R X O
R O

A primeira grande vantagem é o custo reduzido em relação à opção clássica e,


especialmente, em relação ao desenho de Solomon. A desvantagem é que, na ausência de
pré-teste, a equiparação inicial dos dois grupos não pode ser confirmada e deve ser confiada
à aleatorização. Portanto, é imprescindível que a aleatorização seja bem realizada e que o
tamanho dos grupos seja relativamente alto. Quando o efeito do pré-teste num estudo seja
presumivelmente forte, essa opção permite eliminá-lo, embora não medi-lo. O mesmo
acontece com a possível interação entre o pré-teste e o tratamento: sem pré-teste esse
problema desaparece. A ausência de pré-teste favorece também um entorno mais natural e
menos reativo, contribuindo a melhorar a validade externa. Outra desvantagem adicional é
que os desenhos anteriores permitem detectar diferenças mais finas entre o grupo
experimental e o de controle, pois o uso do pré-teste como covariada nas análises
estatísticas do pós-teste permite reduzir a margem de erro e incrementar o poder7 da
análise.
Em suma, esse desenho parece intuitivamente muito pior do que o clássico, mas na
verdade ele apresenta vantagens quanto à diminuição de custos e melhora da validade
externa, contrastando com os inconvenientes de não poder garantir a equiparação inicial
dos grupos além da confiança na aleatorização, e de sofrer uma perda na capacidade das
análises de detectar impactos significativos.

7
Ver glossário.

37
7. Uma nova formulação da visão experimental.

Dezesseis anos depois dessa visão clássica, Donald Campbell publica em 1979
outro texto, dessa vez em conjunto com Thomas Cook, em que volta a apresentar sua
descrição reformulada da pesquisa experimental com fins de avaliação de programas
sociais. Na verdade, não se trata de uma mudança de orientação, mas de um complemento
do esquema inicial acrescido de algumas ênfases novas. Esse livro se converteu, como o
primeiro, no texto básico dos estudantes e praticantes de avaliação quantitativa.
Nesse novo texto, os autores subdividem os conceitos de validade interna e externa.
A validade interna, isto é, o grau de confiança em que foi o tratamento experimental
que produziu o efeito desejado, é agora concebida como dois tipos de validade: validade de
conclusão estatística e validade interna. A validade de conclusão estatística é aquela que
nos permite descartar a hipótese alternativa de que as mudanças experimentadas no grupo
experimental são devidas à erro aleatório, ou seja, à mera flutuação amostral. A eliminação
do resto das hipóteses alternativas para explicar as mudanças no grupo experimental, exceto
o erro aleatório, continua englobada dentro do rótulo de validade interna. Dito de outra
forma, a validade de conclusão estatística é aquela que garante a existência de covariação
significativa entre a variável independente e a dependente, e não simplesmente variação
aleatória, enquanto a nova validade interna garante que a covariação entre as variáveis
independente e dependente responde à causalidade da primeira sobre a segunda e não pode
ser explicada de nenhuma outra forma. Pode-se considerar que a validade de conclusão
estatística lida com erros aleatórios enquanto a validade interna enfrenta ameaças
provenientes de erros sistemáticos.
As pesquisas pretendem generalizar a universos completos, mas são comumente
executadas sobre amostras. As amostras apresentam uma certa variação aleatória, umas em
relação às outras. Por isso, duas amostras submetidas exatamente às mesmas condições
sempre apresentarão alguma diferença nas suas médias, mesmo que pequena. Separar as
ocasiões em que as diferenças respondem a diferenças genuínas e aquelas em que são
simples reflexo de variação aleatória é o objetivo da validade de conclusão estatística. Em
outras palavras, a meta é determinar quando a diferença entre o grupo experimental e o
grupo de controle é significativa. Para isso existem os testes de significância. As

38
dificuldades relativas a essa questão não são exclusivas das pesquisas experimentais, mas
de todos os estudos que trabalham com amostras. Os fatores que podem ameaçar a validade
de conclusão estatística serão enumerados sem muito detalhe, já que não são particulares da
pesquisa avaliativa. Entre as ameaças, os autores mencionam as seguintes:
1. Poder do teste estatístico, que é inversamente proporcional à probabilidade de
deixar de detectar em uma amostra a diferença ou covariação significativa que existe na
realidade (em linguagem estatística, no universo). Quanto menor a probabilidade de deixar
de detectar uma covariação significativa, maior o poder do teste e vice-versa. Os diferentes
testes estatísticos diferem quanto ao seu poder, ou seja, sua capacidade de detectar
diferenças significativas. Devem ser empregados os testes de maior poder, que consigam
detectar diferenças de menor magnitude. Por exemplo, os testes paramétricos possuem um
poder muito superior aos não paramétricos. Quanto maior for o tamanho da amostra, maior
será o poder do teste correspondente.
2. Violação dos supostos dos testes. Cada teste está baseado numa série de supostos.
Se estes supostos são violados, a validade do teste não está garantida. Nem todos os
supostos possuem a mesma importância; é importante analisar o impacto potencial de cada
violação.
3. As taxas de erros de testes múltiplos. Os testes estatísticos nunca oferecem uma
garantia absoluta de que as diferenças consideradas significativas realmente o sejam. São
executados conforme a uma probabilidade pré-fixada de concluir erradamente que existe
uma diferença ou covariação significativa quando ela é na realidade produto de mera
flutuação aleatória das amostras (isto se conhece em estatística como erro de tipo I). Mas
esta probabilidade (conhecida em estatística como nível de significância) está referida à
aplicação de um teste. Normalmente se admite uma probabilidade máxima de erro desse
tipo de 5% ou de 1%. Quando numerosas variáveis independentes são testadas para ver se
possuem uma relação significativa com a variável dependente, a probabilidade de que
alguma das variáveis independentes apresente uma covariação estatisticamente significativa
com a dependente é muito maior do que 1% ou 5%. Em particular, quando muitas variáveis
que não foram incluídas no modelo teórico como substantivamente relevantes são testadas
apenas para ver se produzem resultado significativo, existe uma chance razoável de se
chegar a alguma relação significativa por pura sorte. Contra este perigo, existem em

39
estatística correções para o nível de significância a ser empregadas quando muitos testes
são executados simultaneamente. Em qualquer caso, a primeira providência é se abster de
realizar testes múltiplos de forma ‘explorativa’ que não respondam a um modelo teórico
previamente definido.
4. Confiabilidade das medidas. Quanto menos confiáveis sejam as mensurações, isto
é, quanto menos estáveis e consistentes elas sejam, mais erro aleatório elas conterão, e mais
fácil será confundir diferenças devidas à flutuação aleatória com covariações genuínas entre
os fenômenos. A confiabilidade tende a ser mais alta a medida que o teste contenha mais
itens (uma prova com mais perguntas terá mais confiabilidade) e na medida em que a
unidade de agregação seja mais alta (se as pontuações individuais são pouco confiáveis é
recomendável usar as médias para cada turma).
5. Heterogeneidade do tratamento experimental. Quanto mais homogênea seja a
aplicação de um programa, menos variabilidade existirá no seu impacto também e, em
conseqüência, menor o erro aleatório na análise estatística. No entanto, a aplicação de um
programa que implica várias instituições, vários lugares e momentos não será exatamente a
mesma para todos os sujeitos. No caso de um método pedagógico ou de um livro de texto,
cada escola e cada professor podem usá-lo de um modo diferente, mesmo se existem
instruções de utilização. Para detectar pequenas diferenças significativas, o objetivo seria
conseguir uma máxima homogeneidade na aplicação do programa, por exemplo aplicando-
o no laboratório ou com agentes especialmente treinados em vez dos professores habituais.
Contudo, esta maior homogeneidade pode acabar comprometendo a validade externa, pois
o novo método pedagógico, se for aprovado, será implementado em grande escala de forma
muito menos controlada e mais diversa.
6. Heterogeneidade do contexto experimental. Elementos do contexto experimental
diferentes da intervenção a ser avaliada também podem ter um impacto nos resultados. De
igual forma que no caso anterior, quanto mais divergência existir no contexto, maior o erro
aleatório. Se a aplicação da intervenção é grupal, por exemplo turma por turma, podem
existir leves diferenças no contexto de cada turma. E ainda mais se a aplicação é individual,
pessoa por pessoa. Como foi comentado anteriormente, o esforço por incrementar a
homogeneidade no contexto experimental pode elevar a validade de conclusão estatística,
mas pode deteriorar a validade externa.

40
7. Heterogeneidade nos participantes. Quanto mais similares forem os participantes
entre si, mais homogêneo será o impacto da intervenção e menor o erro aleatório associado
a ela. Se um método de alfabetização é testado com crianças com caraterísticas exatamente
iguais (idade, origem social, tipo de escola, nível de desenvolvimento cognitivo,
experiência prévia, acesso a livros, etc.), o resultado do método deverá ser também
parecido com todas as crianças, incrementando a chance de obter resultados
estatisticamente significativos. Comentando um experimento em que milhares de crianças
escocesas receberam leite pasteurizado (grupo experimental) ou leite sem tratar (grupo de
controle), o famoso estatístico Student afirmou (1931) que o mesmo poder estatístico seria
atingido, com um custo muito menor, se o experimento usasse simplesmente 50 pares de
gêmeos idênticos, dando um tipo de leite a um irmão e o outro tipo a outro irmão. Mais
uma vez, a tentativa de diminuir a heterogeneidade pode prejudicar a validade externa.

Quanto ao que Cook e Campbell chamam agora de validade interna –tudo o que se
entendia anteriormente como validade interna menos o que diz respeito à flutuação
aleatória- as ameaças são as mesmas que apareciam no livro de Campbell e Stanley
(história, maturação, teste, etc.) acrescidas de algumas novas. Estas novas ameaças à
validade externa são as seguintes:
1. Difusão ou Imitação de Tratamentos. O grupo de controle pode acabar recebendo
parte do tratamento destinado ao grupo experimental. O problema é especialmente grave
quando ambos os grupos mantêm uma convivência estreita, mas esta convivência pode ser
justamente resultado da aleatorização na distribuição. Na avaliação de um livro de texto, se
algumas crianças de uma turma recebem o livro novo e outras o livro antigo, é provável que
no dia a dia as crianças leiam, ao menos parcialmente, o livro dos companheiros. A
descoberta de que existem dois livros diferentes na mesma turma incitará a curiosidade das
crianças que tentarão compará-los e discutirão suas diferenças. Nesse cenário, a crianças
provavelmente terão acesso ao livro adjudicado a elas e também à parte do outro livro,
erosionando assim a diferença entre os grupos no plano original. No caso do estudo sobre
leite pasteurizado na Escócia, que ‘Student’ defendia fosse feito com 50 pares de gêmeos, é
improvável que as mães dessem apenas um tipo de leite para um dos seus filhos e apenas o

41
outro tipo de leite para o outro filho. Com alta probabilidade, os dois irmãos acabariam
consumindo, em alguma medida, os dois tipos de leite.
A solução é procurar evitar que os grupos experimental e de controle tenham muito
contato entre si, utilizando, em vez de indivíduos, agregados de pessoas no processo de
distribuição aleatória. Se a turma toda ou, ainda, a escola toda está incluída no mesmo
grupo, isto é, usa o mesmo livro, a possibilidade de uma difusão dos tratamentos é muito
mais reduzida. No entanto, a medida que a unidade de agregação cresce, a equiparação
entre os grupos experimental e de controle é colocada mais em questão, pois cada turma,
cada escola pode ter uma intra-história própria que tenha um impacto nos resultados.
Portanto, é preciso pesar os riscos da difusão do tratamento contra outros tipos de riscos
(história, seleção, etc.) na hora de tomar uma resolução sobre a unidade a ser aleatorizada.
Se a decisão for no sentido de usar agregados, o tamanho da amostra deverá crescer para
poder garantir a equiparação dos grupos experimentais e de controle. Por exemplo, se as
pessoas são aleatorizadas, uma amostra de duzentas pessoas em cada grupo poderia bastar.
No entanto, se as turmas são aleatorizadas, será necessário incluir muitas delas para se ter
garantia de que os dois grupos são equivalentes, o que acabará resultando em uma amostra
total muito maior.
2. Equalização compensatória de tratamentos. Quando se trata de programas que são
percebidos como um claro benefício, às vezes acontece que outras instituições ou
autoridades canalizam seus recursos fundamentalmente para o grupo de controle, para
tentar diminuir a desigualdade. Imaginemos a avaliação do impacto no desempenho das
crianças de um programa federal de melhora da infra-estrutura das escolas. Apenas as
escolas que pertencem ao grupo experimental recebem as ajudas que transformam
substancialmente as escolas. As autoridades municipais, preocupadas com o fato de o resto
das escolas ficar numa situação muito pior, começam a dirigir o orçamento principalmente
para as escolas do grupo de controle, para que elas possam melhorar também em alguma
medida a sua infra-estrutura. Assim, a diferença planejada entre os dois grupos foi alterada
na realidade. É comum que estas intervenções, que não dependem do pesquisador, não
possam ser modificadas; nesse caso, é importante levá-las em consideração para a análise.
Em particular, é recomendável medir a intensidade do tratamento, tanto nos grupos
experimentais quanto nos de controle. Dessa forma, a intervenção deixa de ser uma variável

42
dicotômica (sim ou não) para se transformar em uma variável contínua que será
correlacionada com o resultado final. No exemplo anterior, pode-se calcular o gasto em
infra-estrutura por aluno durante o ano anterior, independentemente de se ele foi feito pelo
programa a ser avaliado ou por outras instituições, e compará-lo à evolução das notas
médias de todas as crianças de cada escola no último ano.
3. Rivalidade compensatória no grupo de controle. Em algumas circunstâncias, os
próprios integrantes do grupo de controle podem sentir a necessidade de melhorar o seu
desempenho para concorrer com o grupo experimental, especialmente se eles possuem
algum interesse na não implantação do programa. Obviamente, isto só pode acontecer
quando tanto a intervenção quanto a avaliação sejam conhecidas, e quando os participantes
saibam em que grupo estão localizados. Saretsky (1972) apresenta o exemplo de um
estudo que avaliava os resultados da substituição de professores fixos da rede escolar por
empresas contratadas que cobrariam de acordo com os ganhos acadêmicos dos alunos.
Como os professores estavam muito preocupados com a possibilidade de perder a
estabilidade no trabalho, o autor afirma que eles provavelmente fizeram um esforço
adicional e melhoraram, durante o tempo do estudo, os resultados de anos anteriores. Como
no caso anterior, trata-se de um processo que tende a reduzir as diferenças entre o grupo
experimental e o de controle, só que no caso anterior o movimento estava protagonizado
por autoridades ou instituições, e aqui pelos próprios participantes.
4. Desmoralização no grupo de controle. É exatamente a situação contrária à
descrita anteriormente. Em determinadas circunstâncias, é possível que a consciência de ser
grupo de controle, isto é, de se ver abandonados e sem receber os benefícios da nova
intervenção leve, ao invés de a um estímulo, a uma desmoralização que prejudique o seu
desempenho em relação a tempos imediatamente anteriores. De novo, este fenômeno é
impossível se a intervenção não for amplamente conhecida.

Uma característica comum dessas quatro novas ameaças à validade interna é que
nenhuma delas pode ser diminuída pelo uso da aleatorização. Justamente porque todas se
referem a processos que acontecem depois da aleatorização, tendendo a reduzir as
diferenças planejadas no tratamento entre grupo experimental e de controle. O grau de
perigo de cada fator deve ser avaliado individualmente.

43
O que Campbell e Stanley chamavam de validade externa, ou capacidade de
generalização da inferência causal observada no experimento, é agora também subdividido
em dois componentes: validade de construto e validade externa. A validade de construto
refere-se à generalização da inferência causal a outras formas de mensurar as variáveis
consideradas. A validade externa se encarrega da generalização da inferência causal a
outros momentos, contextos e pessoas. Esta nova validade externa engloba tudo o que se
concebia como validade externa no texto de 1963, exceto a generalização a outras formas
de mensuração de variáveis.
A validade de construto é subdividida, às vezes, em validade de construto de causa e
validade de construto de efeito, segundo se trate de variáveis independentes ou
dependentes, mas conceitualmente são exatamente a mesma coisa. Um construto é uma
variável teórica, uma dimensão relevante desde o ponto de vista substantivo, que
normalmente não pode ser medida diretamente. Por exemplo, a agressividade ou a fluidez
verbal são dimensões que não são mensuráveis em unidades naturais nem de forma
automática. Não existe uma unidade óbvia para contar, não podemos dizer que uma criança
possui duas ou três agressividades a mais do que a outra ou que a sua fluidez verbal é um
terço da primeira. Essas dimensões teóricas devem, portanto, ser mensuradas indiretamente
através de variáveis operativas. Por exemplo, podemos contar o número de vezes em que a
criança bate ou ameaça outras, podemos analisar a sua produção de adrenalina, ou podemos
também monitorar as vezes em que eleva a voz ou insulta outras crianças como medidas de
agressividade. Existem, em suma, diversas formas de medir uma variável teórica, diversas
operacionalizações do construto em questão. A fluidez verbal pode ser mensurada com
testes diferentes. Acontece que, eventualmente, o tratamento experimental pode funcionar
quando se usa uma determinada forma de medir a causa, ou o efeito, mas fracassa quando
uma segunda forma de mensuração é utilizada. Pode ser que o programa para reduzir a
agressividade nas crianças consiga diminuir o número de insultos ou gritos entre elas, mas
não o número de ataques físicos, ou vice-versa. Nesse caso, nossa capacidade de
generalização para outras operacionalizações é limitada. Idealmente, se a relação entre os
fenômenos observados ‘a’ e ‘b’ é devida à relação entre as dimensões teóricas ‘A’ e ‘B’,
esperaríamos que esta relação entre ‘A’ e ‘B’ se mantivesse sempre, independentemente da

44
maneira de mensurá-las no caso concreto. Mas nem sempre acontece assim. Nossa forma
de medir ‘A’ e ‘B’ deve ser aquela que garanta um maior poder de generalização.
Outra forma de entender a validade de construto é a seguinte. A validade interna se
ocupa com a certeza de que o efeito observado seja devido ao tratamento experimental e
não a outros fatores. No entanto, o tratamento experimental não é na maioria dos casos uma
coisa única, mas um ‘pacote’ conjunto com diversos componentes. Alguns desses
componentes podem ser essenciais para o efeito acontecer, mas outros serão irrelevantes e
não terão qualquer impacto se suprimidos da intervenção estudada. O objetivo da validade
de construto é o isolamento desses fatores fundamentais em relação aos fatores irrelevantes,
para poder replicar a intervenção de outras formas não necessariamente iguais à realizada.
O mesmo acontece com o efeito, que pode ser entendido como um conjunto de diferentes
resultados, alguns dos quais podem ser diretamente conseqüência da intervenção avaliada,
enquanto outros podem ser mudanças concomitantes nesse contexto experimental que
podem não se repetir em outro experimento. Paralelamente, o isolamento dos efeitos
essenciais do programa é também um objetivo importante.
Um exemplo histórico pode nos ajudar a compreender a validade de construto. Entre
1924 e 1927 uma equipe de pesquisadores realizou uma série de experimentos para estudar
a influência das condições de trabalho em uma planta da United States Western Electric
Company em Hawthorne, Illinois. Eles manipularam experimentalmente vários elementos
como a iluminação do local para ver a sua influência na produtividade dos trabalhadores.
A produtividade subiu depois de ter subido a luz. Os trabalhadores eram informados sobre
os resultados. O fato, surpreendente, é que, num segundo momento, a produtividade
continuou aumentando depois de diminuir a luz. Uma análise cuidadosa dos resultatos
concluiu que não foi a luz, nem qualquer outro fator do ambiente, que provocou a melhora
no desempenho, mas a consciência dos empregados de serem parte de um experimento
(Pennock, 1929). Os trabalhadores fizeram um esforço por melhorar a produtividade
independentemente das condições de trabalho. Pennock cunhou o nome de “efeito
Hawthorne” para se referir a esse fenômeno. As interpretações variam levemente, desde os
que acham que a motivação dos trabalhadores se originava na impressão de que a direção
da empresa se preocupava das condições de trabalho, retribuindo esta consideração com
mais dedicação ao trabalho, aos que pensam que a simples sensação de ser monitorados

45
despertou nos trabalhadores a vontade de mostrar um bom desempenho, e aos que afirmam
que manter as pessoas permanentemente informadas sobre o seu desempenho ajuda a
melhorá-lo. Em qualquer caso, o efeito é produto de se sentir parte de um grupo
experimental. O fenômeno é competência da validade de construto porque, se pode ser
aceito que a intervenção experimental provocou um aumento da produtividade, não foi o
componente concebido na hipótese original (a iluminação) que desencadeou o impacto,
mas outros elementos da intervenção, de ordem psico-social, não previstos pelos
pesquisadores. Isso apresenta problemas de generalização a outras forma de implementar a
intervenção. Se outro pesquisador tentasse replicar o estudo aumentando a iluminação sem
informar a ninguém de que se tratava de um experimento, não encontraria provavelmente
qualquer aumento da produtividade.
O efeito Hawthorne, que atua através da consciência dos participantes de ser parte
do grupo experimental, não é nada mais do que o contrário de outro processo apresentado
anteriormente: a rivalidade compensatória no grupo de controle. Nesse último caso, é a
consciência de ser parte de um grupo de controle que produz um impacto. Entretanto, a
rivalidade compensatória foi incluída dentro da validade interna, enquanto que o efeito
Hawthorne é considerado como uma ameaça a validade externa (de construto). A razão
para isso é que a rivalidade compensatória não pode ser considerada como parte do
tratamento experimental, visto que acontece no grupo de controle, enquanto que o efeito
Hawthorne é interpretado como produto de um dos componentes da intervenção, que
compromete a sua generalização para outras formas de aplicação do programa. Apesar
disso, conceitualmente são dois exemplos do mesmo processo: como a consciência de
participar num estudo pode afetar o desempenho. Na verdade, a linha que separa a validade
interna da externa é mais tênue do que parece, pois depende do que entendamos por
tratamento experimental. Muitos estudantes ficam confusos na tentativa de aplicar a
etiqueta certa ao fenômeno. Por exemplo, suponhamos que o que provocou o incremento da
produtividade dos trabalhadores foi simplesmente a informação sobre o seu próprio
desempenho, ou seja, que basta informar aos trabalhadores sobre o seu rendimento para
obter uma melhora. Podemos considerar isso como parte do tratamento, o que o converte
num problema de validade de construto. Ou podemos entender que isso é uma parte do

46
teste, de como o teste é efetuado (pré-teste ou pós-teste), o que o converteria num efeito do
teste, uma das ameaças à validade interna.
Existem outros elementos que levam à confusão. A ingestão de um medicamento
pode ter um efeito positivo nos pacientes, quando comparados com um grupo de controle
que não toma nenhum remédio. A pesquisa pode ter uma alta validade interna, mas sofre de
problemas de validade de construto, porque o efeito poderia ser devido simplesmente à
sugestão de tomar um medicamento (efeito placebo). Para melhorar a validade de construto,
é necessário incluir numa nova pesquisa um grupo de placebo. Se nessa nova pesquisa a
melhora no grupo experimental e no grupo de placebo (de controle) é similar, concluiremos
que a causa não produz o efeito. Assim, o que era anteriormente um problema de validade
externa virou agora uma questão de validade interna, já que o tratamento experimental
testado nesse último caso é apenas o princípio ativo, e não, como antes, o princípio ativo
mais a sugestão de ser tratado. Isto acontece porque a própria definição de tratamento
experimental está baseada na diferença entre os grupos experimental e de controle, e,
quando muda este último, muda também a concepção do tratamento.
Estes últimos parágrafos podem ter confundido alguns leitores, mas a sua intenção é
justamente mostrar que algumas definições não são inequívocas e podem ser interpretadas
de formas diversas. Em qualquer caso, a utilidade desse esquema experimental não é gerar
uma taxonomia perfeita e universal, como também não era esse o objetivo dos seus
criadores, mas fazer refletir aos pesquisadores sobre os múltiplos elementos que podem
comprometer a inferência causal e o poder de generalização dos fenômenos. Se o estudo
considera todos esses elementos, a classificação de cada um deles é secundária.

As ameaças à validade de construto que Cook e Campbell consideram são as


seguintes:
1. Inexistência ou insuficiência de uma definição detalhada das dimensões teóricas.
A definição teórica dos conceitos relativos à causa e ao efeito deve ser claramente
explicitada, antes de proceder a sua operacionalização, isto é, a sua conversão em
indicadores mensuráveis. Suponhamos um programa para diminuir os níveis de violência
entre estudantes de segundo grau. Antes de procurar formas de medir, é preciso especificar
um conceito claro de violência que deixe claro, entre outras coisas, se estará referido apenas

47
a atos intencionais ou incluirá também atos não intencionais, se levará em consideração
apenas agressões físicas ou também verbais, etc. A medida que a definição do conceito seja
clara, será mais fácil procurar indicadores para mensurá-lo que se correspondam com a
definição, e a generalização das variáveis operativas para o conceito será mais viável.
2. Operacionalização do conceito numa única variável. Dado que a correspondência
entre um construto e os indicadores que tentam representá-lo é sempre imperfeita, é
recomendável que haja várias formas de medir um conceito. Nesse sentido, fala-se em uma
operacionalização múltipla. Quantas mais variáveis representem um conceito, melhor será a
medição, porque as imperfeições de cada medida se compensarão entre si. Esse é o
correlato, para o nível de conceitos, do problema da confiabilidade de qualquer medição.
Uma prova, por exemplo, será mais confiável na medida que inclua mais itens, e vice-
versa.
Isto vale tanto para as causas quanto para os efeitos. Naturalmente, é mais fácil de
ser aplicado nestes últimos. Recolher diferentes variáveis dependentes como medidas do
efeito de uma intervenção não é tão complicado. Utilizar várias formas de implementar a
intervenção é mais delicado porque implica a possibilidade de diferenças ou interações
entre os efeitos dessas diversas implementações, cujo controle exaustivo exigiria um
aumento notável da amostra total.
Um conceito medido com uma única variável corre um risco de maior de não poder
ser generalizado a outras operacionalizações no futuro, isto é, reduz as chances de
replicação do estudo.
O programa de televisão ‘Vila Sésamo’, destinado à educação infantil, foi avaliado
nos Estados Unidos num estudo comparando crianças que assistiam a ele regularmente com
outras que não o viam. Para garantir que as famílias inteiras do grupo experimental
assistissem, os pesquisadores visitavam as casas das crianças do grupo experimental,
animavam a família a assistir junta ao programa, e deixavam livros, brinquedos e jogos
relacionados ao programa televisivo. O resultado foi um incremento da assistência e,
consecutivamente, uma melhora educacional nessas crianças. Entretanto, como o
tratamento experimental foi operacionalizado exclusivamente desse modo, deixou dúvidas
sobre se a simples assistência ao programa televisivo, sem as visitas dos profissionais, os
brinquedos e os livros teria produzido o mesmo impacto.

48
3. Mensuração da variável com um único método. Cada forma de medição possui
particularidades ou erros próprios. Da mesma forma que é recomendável contar com várias
variáveis operativas para um conceito, também é preferível utilizar várias maneiras de
mensurar uma variável, para que os erros próprios de cada método se anulem entre si. Este
é mais um reflexo do problema da confiabilidade na medição. Quantas mais formas de
medir a variável, mais confiável será a medida, e mais generalizável a outros modos
diferentes de medição. E vice-versa, quantos menos métodos de medição, menor a chance
de generalização. Para medir o preconceito racial, é desejável usar medidas de auto-
declaração, um questionário por exemplo, mas também medidas de observação, nas quais o
pesquisador veja a conduta real das crianças. Se as duas medidas produzirem resultados
convergentes, a generalização será mais fácil.
4. Adivinhação das hipóteses do estudo pelos participantes. Vários dos problemas
que podem anular um efeito genuíno (desmoralização do grupo de controle) ou impedir a
generalização a outras formas de implementar a intervenção (efeito Hawthorne) partem da
consciência que os sujeitos têm de estar sendo pesquisados. O problema é mais sério
quando envolve processos de comparação social, tal como se sentir membro de um grupo
experimental (ou de controle) em concorrência com o outro, mas o desconhecimento da
existência de outro grupo não elimina os perigos. A sensação de se sentir monitorado pode
levar a uma tentativa de adivinhar o propósito do estudo, que por sua vez pode produzir
uma mudança na conduta, seja para agradar ou para se opor à intenção do pesquisador, seja
com algum outro objetivo. Portanto, é sempre preferível usar medidas não reativas nem
obstrusivas8, e fazer a pesquisa do modo mais natural possível. O ideal seria fazer a
pesquisa sem que as pessoas percebessem, como acontecia com a correção das provas no
estudo de Page, mas isto não é sempre possível.
Em outros estudos em que não é possível ocultar a natureza do experimento, os
pesquisadores têm a opção de perguntar a cada participante, no final, qual era na sua
opinião o objetivo concreto da pesquisa, e analisar se pessoas com hipóteses diferentes
tiveram um desempenho diferente. Nas situações em que esta ameaça é julgada como muito
séria, é também possível apresentar o estudo como possuindo objetivos diferentes para cada
subgrupo de participantes e conferir se esta informação tem algum impacto nos resultados.

8
Ver glossário.

49
O problema será potencialmente mais sério na medida em que o tratamento
experimental seja mais inovador ou surpreendente. Se o procedimento não é muito
diferente do esperado, será mais fácil procurar um grupo de controle sujeito a similares
ameaças. Contudo, como a adivinhação de hipóteses não é necessariamente igual para todos
os sujeitos nem leva necessariamente à mesma modificação de conduta, o grupo de
controle, do tipo placebo, não pode garantir a eliminação completa do problema.
5. Apreensão à avaliação. Os estudos de Rosenberg (1969) mostraram evidência de
que muitas pessoas se sentem apreensivas quando avaliadas por outros quanto a sua
personalidade ou aptidão, especialmente se os outros são especialistas. Basicamente, as
pessoas tendem a se apresentar a si mesmas numa luz favorável, convergindo com o que
elas acham que os outros esperam delas. Isto acontece fundamentalmente quando se trata de
mensurar atitudes ou opinião, muito mais do que em medidas de habilidade ou
desempenho. Uma intervenção para diminuir o preconceito racial ou sexual nas escolas
provavelmente alertará as crianças que se espera delas uma atitude não preconceituosa. No
questionário aplicado depois da intervenção (pós-teste), as crianças podem expressar
opiniões mais politicamente corretas sem ter mudado na verdade sua atitude. Será difícil
então determinar em que medida a melhora nas respostas é devida a uma mudança
atitudinal genuína ou a uma melhor consciência da norma social. A única solução com
garantias é conseguir medidas não obstrusivas, como observação de conduta em interações
sociais com pessoas de outra raça ou de outro sexo sem que as pessoas saibam que estão
sendo observadas.
6. Expectativas do pesquisador. Rosenthal (Rosenthal & Rubin, 1978) realizou
estudos que alertaram para o perigo de que as expectativas do experimentador influenciem
a conduta dos participantes de forma convergente. O experimentador parecia transmitir,
consciente ou inconscientemente, o que esperava que acontecesse para os sujeitos
experimentais, conseguindo que eles ajudassem, em alguma medida, a confirmar sua
hipótese. A proteção contra esta ameaça passa por utilizar pesquisadores que desconheçam
qual é a hipótese, ou, se isto não for possível, que não saibam quais participantes
pertencem ao grupo de controle e quais ao grupo experimental. Esta é justamente a base do
procedimento de duplo-cego empregado em estudos sobre medicamentos. O médico
conhece o estudo e a hipótese, mas não sabe em quem injeta placebo e em quem o princípio

50
ativo, de forma que não tem expectativas para cada sujeito que pudessem influenciá-lo. Se
nenhuma dessa opções é possível, só resta indagar a hipótese de cada pesquisador e analisar
o resultado em função dessas diferentes hipóteses para ver se elas possuem alguma
influência.
Na área educativa, o exemplo mais claro desse viés é conhecido como ‘efeito
Pigmalião9’ (Rosenthal & Jacobson, 1968). Os pesquisadores realizaram um teste com os
alunos no começo do curso escolar (pré-teste). Supostamente baseados no resultado do
teste, os pesquisadores informaram os professores dos alunos sobre o desempenho potencial
de cada um. Assim, os pesquisadores destacaram alunos dos quais se esperava um
desempenho melhor e aqueles de quem não se poderia esperar um resultado tão positivo.
No fim do curso escolar, os alunos sobre os que se gerou uma melhor expectativa
conseguiram, de fato, melhores resultados do que os outros. O fato relevante é que essas
expectativas iniciais sobre cada aluno, transmitidas pelos pesquisadores aos professores
foram decididas, na verdade, de forma aleatória, e não segundo o resultado do pré-teste.
Portanto, como a distribuição dos alunos foi feita na sorte, não era esperável que houvesse
nenhuma diferença na prova final como não havia no teste inicial. A conclusão é que foram
justamente as expectativas artificialmente introduzidas nos professores que provocaram que
aqueles alunos de quem os professores esperavam mais melhorassem de fato durante o
curso. Esse é também um exemplo do que se conhece em ciências sociais como as
profecias que se auto-cumprem. A simples expectativa de que algo acontecerá pode
precipitar o acontecimento. Não é preciso insistir na relevância que isso possui para todo
sistema educativo. Se a expectativa pode melhorar o desempenho, isso quer dizer que
existem mecanismos nos professores, vinculados às suas expectativas, que poderiam ser
monitorados e treinados para a melhora do ensino. As pesquisas de Rosenthal foram
criticadas em termos metodológicos e levantaram uma grande polêmica. Porém, análises
posteriores da literatura sobre a questão (Merton, 1987) concluíram que o efeito existe e
pode chegar a ser de magnitude considerável.
7. Extrapolação indevida de um a todos os níveis de um construto. Quando um
construto é operacionalizado, ele é implementado ou medido com uma certa intensidade.

9
O nome de Pigmalião provém do mito grego em que a vida foi insuflada num objeto inanimado
através do poder do pensamento.

51
Quando a relação entre causa e efeito não é linear10, não podemos extrapolar as conclusões
do experimento, feito usando uma causa e um efeito de uma certa intensidade, para uma
conclusão geral da relação dessas duas dimensões com qualquer intensidade. Imaginemos a
avaliação sobre a efetividade de um programa de incentivos econômicos para as famílias
como forma de manter as crianças na escola e evitar também o trabalho infantil. O estudo
pode ser feito oferecendo às crianças do grupo de controle uma cesta básica mensal por
família por filho em idade escolar que assista à escola pelo menos 15 dias por mês.
Imaginemos ainda que o impacto é nulo, porque as crianças do grupo experimental
continuam abandonando a escola para ir a trabalhar na mesma medida que as do grupo de
controle. No entanto, se outro estudo oferece uma cesta básica semanal pode ter um
resultado positivo, já que uma cesta semanal pode ser equivalente a uma renda mais alta do
que o menor consegue trabalhando, enquanto uma cesta mensal é inferior. Ainda, um
terceiro estudo poderia concluir que uma cesta cada três dias não melhora a assistência
escolar mais do que uma cesta semanal, já que uma cesta semanal é suficiente para a
alimentação familiar enquanto que três cestas semanais representam um excesso de
alimentos que não podem ser consumidos nem trocados por outros tipos de renda. Todavia,
se o equivalente monetário a três cestas semanais era oferecido, a assistência chegava a ser
perfeita. Se apenas o primeiro estudo tivesse sido realizado, poderia ter-se concluído,
erradamente, que o aumento de renda familiar não influi sobre a assistência escolar nem
serve como barreira ao trabalho infantil. Todavia, se apenas o segundo estudo tivesse sido
completado, poderia ter-se afirmado, mais uma vez de forma errada, que qualquer
incremento de renda familiar produzirá um aumento da assistência. Em conseqüência, a
recomendação é de, sempre que possível, operacionalizar os construtos a diversos níveis de
intensidade e comparar o impacto diferencial de cada um deles. Quando isto não for
possível, é imprescindível ser cauteloso em relação à extrapolação das conclusões obtidas
para outros níveis de intensidade ainda não testados.
8. Interferência ou interação com outros tratamentos. Este problema já foi analisado
na primeira exposição de Campbell e Stanley.
9. Interação entre o tratamento experimental e o teste. Da mesma forma, essa
questão já foi examinada na seção anterior.

10
Ver glossário.

52
10. Generalização limitada entre construtos. É normal que uma intervenção social
afete não apenas à variável dependente tal como foi concebida, mas a outras variáveis
também. Pode acontecer que, mesmo atingindo o objetivo planejado, o programa provoque
efeitos secundários em outras áreas. É também comum que o efeito da intervenção não
corresponda apenas a um único construto, mas a uma série de subconstrutos. Esses
subconstrutos podem estar relacionados entre si, mas com freqüência não garantem uma
extrapolação direta do impacto, tal que o efeito sobre um deles signifique automaticamente
o efeito sobre os outros. A avaliação de um curso de treinamento técnico-profissional pode
concluir que um ano depois do término do curso os participantes mostravam uma taxa de
emprego superior à de jovens similares no grupo de controle. A conclusão é que o curso
melhora o emprego. Entretanto, uma análise mais detida poderia mostrar que os jovens do
grupo experimental conseguiram emprego basicamente graças ao fato de que a rede social
da instituição de formação, com a que tiveram contato durante o curso, os ajudou a
encontrar emprego, e não devido a um aumento dos seus conhecimentos ou da sua
capacidade técnica. Assim, se o curso for repetido num contexto em que essa rede social
que procura empregos não existisse, confiando em que era a melhora da qualificação que
produzia o impacto, o programa poderia não dar certo. Outro possível impacto de um curso
desse tipo seria o treinamento dos jovens na responsabilidade, pontualidade, adaptação às
demandas dos chefes, etc., fatores todos que poderiam melhorar as chances de permanecer
no emprego e que também não têm nada a ver com uma melhor qualificação.
A melhor recomendação é mensurar diversas variáveis dependentes, inclusive
algumas que não sejam previsivelmente afetadas pelo programa, e tentar desvendar quais
subconstrutos podem estar por trás de um efeito sobre o construto total, para evitar uma
generalização indevida.

No livro pioneiro de Campbell e Stanley, todas as questões relativas à generalização


da inferência causal ficavam enquadradas sob a etiqueta de validade externa. No texto de
Cook e Campbell, como acabamos de ver, a generalização a formas diferentes de medir as
variáveis denomina-se validade de construto. Por outro lado, os restantes tipos de
generalização, a saber, generalização a outras pessoas, momentos e contextos, recebem
ainda o nome de validade externa.

53
A princípio, o problema da generalização a pessoas, tempos e contextos poderia ser
encarado como qualquer problema de inferência sobre universos a partir de amostras. Em
outras palavras, tratar-se-ia de um simples problema de amostragem. Para tanto, seria
preciso, em primeiro lugar, uma definição precisa de qual seria o universo para o qual
desejaríamos generalizar e uma listagem de todos os casos que compõem o universo 11. Isto
é particularmente difícil no caso dos contextos e dos momentos. Normalmente, não existe
uma lista exaustiva de todos os contextos possíveis. A listagem dos momentos é ainda mais
complicada porque inclui momentos que são irrecuperáveis, porque fazem parte do
passado, e outros que ainda não aconteceram, porque correspondem ao futuro.
A listagem de pessoas é muito mais comum, pois é possível obter um censo das
pessoas para as quais se pretende generalizar. Entretanto, quando esta população é ampla e
geograficamente dispersa, por exemplo as crianças que cursam a primeira série nas escolas
do Brasil, a realização de um experimento com uma amostra estatisticamente representativa
é muitas vezes inviável. As pesquisas de opinião realizadas com amostras probabilísticas
representativas da população representam um custo muito alto. Imaginemos então o custo e
as dificuldades para realizar uma pesquisa avaliativa sobre uma amostra representativa do
universo, visto que ela não envolve simplesmente uma coleta de informação, mas a
aplicação de uma intervenção social e a medição das mesmas pessoas em vários momentos
do tempo (pré e pós-teste). Dificuldades logísticas e ameaças à validade interna (difusão do
tratamento) impõem com freqüência que o tratamento experimental deva ser dispensado a
agregados de pessoas e não a pessoas individuais. As avaliações sobre métodos
pedagógicos normalmente são feitas com métodos aplicados não a alunos individuais, mas
a turmas inteiras. Isto decorre da maior facilidade e menor custo de aplicar o método de
forma coletiva e não individual, mas também do fato de que as turmas são o entorno natural
do ensino convencional e a sua ruptura geraria problemas de validade externa e problemas
de difusão do tratamento: um método aplicado apenas a um aluno ia ter um impacto
indireto também sobre a sua turma. Todos esses elementos determinam que a unidade de
aplicação da intervenção, e portanto a unidade de aleatorização, seja coletiva (turma,
escola, etc.), dificultando ainda mais a realização de uma amostra representativa de pessoas.

11
Ver glossário: marco amostral.

54
Por todas estas razões, o uso de amostras estatisticamente representativas de pessoas
em pesquisas avaliativas ou em experimentos em geral é incomum. Porém, mesmo na
impossibilidade de realizar uma amostra desse tipo, é preciso um esforço para, em primeiro
lugar, incluir pessoas, e agregados de pessoas, de diferentes tipos. Em segundo lugar,
deve-se procurar que, na medida do possível, o peso relativo de cada um desses tipos seja
similar nos participantes da pesquisa e na população geral a que se pretende generalizar.
Quanto mais forem atingidos estes dois objetivos, mais válida será a generalização ao
universo populacional.
Já foi comentado que o uso de voluntários, pessoas ou instituições, pode limitar a
extrapolação das conclusões da pesquisa a populações normais, normalmente menos
motivadas, progressistas ou interessadas nas inovações, entre outras possíveis diferenças.
Nesse sentido, é importante facilitar a participação no experimento o mais possível, de
forma que se candidatar como voluntário suponha o menor ônus possível para os
participantes. Quanto mais custosa, difícil e prolongada for a participação, mais atípicos
serão os voluntários e menos representativos. Quando se trata de uma avaliação
pedagógica, ela deve ser realizada preferivelmente na escola normal dos alunos sem que
suponha um incremento da carga horária. Se o estudo implica cursos especiais nos finais de
semana, por exemplo, o tipo de aluno que comparecerá não será do mesmo tipo do que
aqueles que preferiram ficar em casa.
Além das dificuldades para generalizar desde a amostra para o conjunto da
população, os autores destacam a questão da generalização, dentro da amostra, entre
diferentes subgrupos. Um programa de capacitação para o emprego juvenil pode apresentar
um bom resultado para o conjunto dos jovens, mas uma inspeção mais detalhada pode
mostrar que são as meninas que estão conseguindo emprego em maior medida enquanto os
rapazes continuam igual. O fato de que a intervenção funcione para uma população não
garante que ela funcione para todos os subgrupo populacionais, e o fato de que ela tenha
um impacto determinado sobre um estrato social não implica que vá ter o mesmo impacto
nos outros estratos. É preciso realizar, depois da análise geral, análises parciais com
subgrupos para poder desvendar esta situação.
Como já foi explicado anteriormente, o problema da validade externa pode ser
concebido como um problema de interação entre o tratamento experimental e diversos

55
aspectos das pessoas, contextos ou momentos, que determinam que o efeito da intervenção
poderia ser diferente se aplicada a pessoas, lugares ou momentos diferentes daqueles que
foram pesquisados. As características concretas dos participantes, do momento e do
contexto poderiam determinar uma potenciação ou uma anulação dos efeitos do programa.
As circunstâncias em que o tratamento experimental é aplicado, mas que não fazem
parte dele, são chamadas pelos autores de irrelevâncias. Espera-se que o programa
funcione da mesma maneira independentemente dessas irrelevâncias, mas em ocasiões
acontece que alguma dessas circunstâncias produz um efeito diferente. Para reduzir a
possibilidade de que o efeito observado seja produto da interação do tratamento com uma
dessas irrelevâncias, elas não devem ser fixas, devem variar na medida do possível. Assim,
é recomendável incluir no grupo experimental contextos diferentes, e comparar o resultado
em cada um deles. Esta busca deliberada da heterogeneidade é, na ausência de uma amostra
representativa, uma boa estratégia para aumentar a validade externa. Por exemplo, o novo
livro de texto a ser avaliado deveria ser introduzido, se não é possível utilizar uma amostra
aleatória de escolas para o experimento, em escolas bem diferentes, para poder comparar o
impacto nelas. Se o novo livro aumentou o aprendizado da matéria tanto em escolas
públicas rurais com poucos recursos, quanto em escolas privadas para filhos da classe alta,
e ainda em escolas urbanas públicas típicas, poderemos concluir que o livro poderia ser
aplicado com sucesso numa grande variedade de situações. Esse tipo de amostragem
intencional12 procura contextos os mais diversos possíveis, até extremos, por exemplo
escolas muito pobres e muito ricas, para ver se o programa funciona também nessas
circunstâncias. A inferência implícita é que se a intervenção funciona nesses contextos
extremos, deverá também funcionar num ambiente intermédio. Todavia, visto que
complexos efeitos interativos podem acontecer e que as relações entre as variáveis nem
sempre são lineares, é conveniente também incluir algum contexto típico do universo além
dos exemplos extremos. No nosso caso, seria de interesse incorporar ao estudo uma escola
com caraterísticas parecidas com a maioria das escolas nacionais, além das muito ricas e
muito pobres. Essa busca deliberada da heterogeneidade do contexto é altamente
recomendável para melhorar a validade externa, mas pode ter o efeito de diminuir a
validade interna, que estaria mais bem salvaguardada em condições mais estritas e

12
Ver glossário.

56
homogêneas. Como já foi indicado, a procura de validade externa é feita às vezes em
detrimento da validade interna e vice-versa, sendo que as duas são fundamentais. Assim,
alguns autores diferenciam entre avaliações da ‘eficácia’ e avaliações da ‘eficiência’ de um
programa social. As avaliações de eficácia pretenderiam concluir se a intervenção pode ou
não chegar a conseguir o efeito desejado em alguma circunstância. Isto implica que o
programa seria testado nas circunstâncias ideais e com todas as vantagens possíveis.
Lembremos da avaliação do programa ‘Vila Sésamo’, com visitas domiciliares,
brinquedos, livros e jogos alusivos ao programa. Por sua vez, a avaliação da ‘eficiência’
tentaria dar uma resposta à pergunta de se a intervenção funcionará nas condições reais em
que ela seria posta em prática de forma extensiva. Um programa pode ser muito eficaz, mas
não ser eficiente porque as condições necessárias para o seu sucesso são impossíveis de
conseguir ou muito caras na prática. Uma terapia contra uma doença crônica pode ser
excelente, mas exigir uma série de limitações da vida corriqueira que os pacientes não estão
dispostos a aceitar. Na avaliação da eficácia, em que os participantes são constantemente
monitorados para comprovar o cumprimento das prescrições, a terapia pode funcionar bem,
mas o efeito pode sumir se for aplicada sem nenhum controle. Um novo método
pedagógico pode ser ótimo quando apoiado por recursos pedagógicos e culturais
abundantes, mas impraticável na maioria das escolas.
Em suma, quanto maior for a variedade dos contextos em que o programa for
testado, maior a generalização dos seus efeitos. Da mesma forma, se a intervenção é
avaliada usando vários momentos diferentes, será mais difícil atribuir os resultados às
circunstâncias do momento específico, e mais fácil extrapolá-los a novos momentos.
No fundo, a questão da validade externa pode entender-se como um problema de
replicação. Quantas mais vezes o efeito for replicado, mais consistente será. E quanto mais
distintos os contextos, as pessoas e os momentos usados nessas replicações, maior será a
certeza da generalização das conclusões. Se a replicabilidade dos resultados é um dos
parâmetros básicos do sucesso de qualquer ciência, isto é ainda mais importante no caso de
uma pesquisa aplicada como a avaliação, que só possui sentido na medida em que prediz o
sucesso ou fracasso na aplicação futura de um programa.

57
A lista de ameaças à validade externa enumerada pelos autores inclui interações do
tratamento com a seleção, o contexto, e a história, que já foram revisadas no livro de
Campbell e Stanley.

58
8. Os desenhos quase-experimentais.

Como já foi explicado anteriormente, os quase-experimentos são pesquisas concebidas


sob a ótica da pesquisa experimental da causalidade, mas que descumprem alguma das
condições básicas para serem consideradas experimentos: o controle sobre a situação
experimental ou, mais comumente, a aleatorização na atribuição das unidades aos grupos
experimentais e de controle. É por esta razão que em estudos quase-experimentais fala-se
de grupos não equivalentes. Os grupos equivalentes seriam resultado da aleatorização.
Mesmo sem garantir a equivalência, um dos objetivos básicos dos quase-experimentos é
procurar a máxima similaridade entre o grupo experimental e o de controle. Entretanto, esta
semelhança só pode ser tentada em relação a dimensões reconhecidas como relevantes para
a pesquisa, mas não em relação às desconhecidas. O experimento, por sua vez, oferece uma
equivalência probabilística para todas as dimensões, conhecidas ou não, desde que o
tamanho da amostra seja suficiente.
Se por um lado os quase-experimentos não possuem todo o rigor dos experimentos
com vistas a inferência causal, por outro lado são muito mais flexíveis e permitem a
adaptação da pesquisa a condições mais diversas. Os desenhos quase-experimentais são,
portanto, muito mais variados do que os experimentais. E alguns deles chegam a
conseguir uma validade interna tão forte quanto a desses últimos.
Vamos expor aqui alguns dos desenhos quase-experimentais mais importantes.

1. Desenho de Pré-teste e Pós-teste com amostras separadas. Em ocasiões, um


programa social vai ser aplicado a um conjunto de unidades (hospitais, bairros, escolas,
etc.). Por decisão política ou por lei, nenhuma das unidades pode ficar sem o programa,
inviabilizando dessa forma um grupo de controle clássico. É também comum que o
pesquisador não possa executar duas medições sobre a mesma população, seja por causa da
reatividade das medidas, seja devido a limitações logísticas ou institucionais. No entanto, o
avaliador pode chegar a controlar o tempo do teste. Pode aplicar a medição em algumas
unidades previamente à intervenção e, em outras, posteriormente. Como a observação
depende do pesquisador, é possível decidir de forma aleatória em que momento uma
unidade vai receber o teste. Assim, chega-se à comparação do desempenho de um grupo

59
antes da intervenção com o desempenho de outro grupo depois da intervenção, sendo que
ambos os testes não coincidem no tempo. O desenho pode ser representado da seguinte
forma.

R X O
R O X

Este tipo de pesquisas avaliativas não oferece uma grande validade interna,
principalmente por problemas de história e maturação. Dessa maneira, a diferença entre
ambas as observações poderia ser explicada pelo tratamento, mas também a uma tendência
secular de aumento ou diminuição do desempenho, ou a algum fato que acontecesse entre
esses dois momentos. Vale a pena frisar que, mesmo que fosse possível realizar pré e pós-
teste com cada grupo, isto não resolveria o problema de que os momentos em que ambos
são realizados são diferentes.
Para paliar o problema da maturação é possível realizar eventualmente outros pré-
testes anteriores para monitorar se existe ou não uma tendência que poderia então ter
continuado entre o último pré-teste e o pós-teste, prejudicando a comparação entre os dois.

R X O3
R O1 O2 X

Note-se que se o pesquisador pudesse controlar o momento não apenas da medição


mas também da aplicação do programa, poder-se-ia atingir um desenho experimental
simplesmente adiando a intervenção em algumas unidades (transformando-as em grupo de
controle). Desse modo, o pré e ou pós-teste poderiam ser realizados ao mesmo tempo,
eliminando os problemas de maturação e história.

R X O
R O X

60
Este é um desenho interessante porque permite compatibilizar o rigor metodológico
com o objetivo político e social de que todas as pessoas recebam um tratamento
considerado inicialmente como beneficiário.

2. Desenho com grupo de controle não equivalente. Essa é uma das formas
clássicas de pesquisa quase-experimental. O estudo conta com pré-teste e pós-teste
executados no mesmo momento, mas a seleção das unidades nos grupos experimental e de
controle não é realizada de forma aleatória, razão pela qual a equivalência entre ambos não
pode ser garantida. A representação seria a seguinte.

O1 X O2
---------------------
O1 O2

A linha de pontos indica precisamente a não equivalência entre os grupos. Em


conseqüência, o principal problema apresentado é de seleção, ou seja, a possível existência
de diferenças iniciais entre os grupos, e, em segundo lugar, de interação de seleção com
outras ameaças à validade interna (história, maturação, etc.). Na medida em que os grupos
sejam similares entre si, este problema diminuirá e vice-versa. Freqüentemente, a
intervenção não pode ser aplicada a pessoas individualmente, mas a grupos preexistentes
que não podem ser separados, como turmas ou escolas. Se o tratamento a ser avaliado é um
conjunto de materiais pedagógicos, eles podem ser usados com uma turma ou outra, mas os
alunos da mesma turma devem utilizar todos o mesmo material. O contrário não só seria
logisticamente inviável, mas introduziria um nível de reatividade na pesquisa que
comprometeria a sua validade externa, isto é, a sua generalização a aulas normais. A
distribuição dos alunos em grupos de controle e grupos experimentais deve ser feita, nesses
casos, por coletivos inteiros (turmas, ou às vezes, escolas). Se o número de coletivos é
razoavelmente grande, a pesquisa pode proceder normalmente separando aleatoriamente as
turmas do grupo de controle e as do grupo experimental. O coletivo passa a ser considerado
então como unidade de análise, de forma que as notas médias das turmas de um grupo são
comparadas com as notas médias das turmas do outro. Um número alto de turmas

61
distribuídas aleatoriamente garantirá a equivalência probabilística dos grupos, permitindo
que a pesquisa seja considerada como um experimento. Nessas situações, a informação
pode ser analisada a dois níveis: turmas e indivíduos, sendo que estes últimos estão dentro
das primeiras13. Entretanto, se as unidades são poucas, digamos três escolas com o método
novo e três com o método tradicional, a equivalência entre o grupo experimental e de
controle não pode ser garantida, pois podem existir caraterísticas próprias de cada escola
que condicionem o resultado final. É por isso que esses estudos são definidos como quase-
experimentais. Mesmo assim, é importante que a atribuição das unidades aos grupos
experimentais e de controle seja realizada, idealmente, de modo aleatório, para evitar que
outros critérios determinem essa escolha. Por exemplo, se cada escola pode eleger sua
situação é provável que as escolas mais inovadoras e dinâmicas se prestem a testar os novos
métodos, introduzindo problemas de seleção.
Não é incomum que os avaliadores sejam chamados depois de a intervenção ter
começado, inviabilizando portanto a aleatorização dos grupos e a aplicação de pré-teste. O
pré-teste é um elemento crucial para monitorar a equivalência inicial dos grupos,
justamente na dimensão mais importante, o desempenho na variável dependente, ainda que
não possa garantir a igualdade em outras dimensões que podem influir sobre o resultado.
Nos desenhos de pesquisa em que os grupos não são equivalentes, ou seja, não
houve aleatorização, é crucial a busca de um grupo de controle o mais parecido possível
com o grupo experimental. Todavia, quando o pré-teste não é possível, seja por seu efeito,
por razões logísticas ou pelo fato de a pesquisa ter sido idealizada depois do começo do
programa, a identificação de um grupo de controle parecido com o experimental é ainda
mais determinante. Para tanto, é fundamental a coleta de informação sobre os sujeitos ou
sobre as unidades sociais referente a dimensões que cumpram as seguintes condições: a)
que possam incidir sobre a variável dependente; e b) que não sejam afetadas pelo próprio
tratamento, para evitar interações indesejadas. Essas variáveis independentes podem ajudar
a predizer o desempenho final dos participantes na pesquisa14, o que contribui para verificar
se os dois grupos tinham, inicialmente, um mesmo valor estimado na variável final, e ainda
ajuda a reduzir o erro inexplicado ou aleatório, melhorando o poder do teste estatístico.

13
Isto configura um modelo hierárquico: ver glossário.

62
Nesse sentido, estas variáveis complementares acrescentam-se ao pré-teste como forma de
melhor o controlar a igualdade inicial entre os grupos, ou, nos casos em que o pré-teste não
foi possível, representam uma espécie de substituição do mesmo. Se os dois grupos
tinham, em razão dessas outras variáveis, a mesma predição estimada na variável
dependente, a ameaça de problemas de seleção para a validade interna é muito mais
improvável. Porém, se os dois grupos apresentavam, de fato, uma estimação diferente, isso
é confirmação de diferenças iniciais e a situação torna-se muito mais difícil. A análise
estatística pode ainda tentar levar em consideração essas diferenças iniciais, mas não se terá
certeza de em que medida estas variáveis estão substituindo a função do pré-teste. Portanto,
a interpretação dos resultados será sempre duvidosa.
No caso de uma pesquisa sobre métodos de ensino, as variáveis que podem ajudar a
predizer o desempenho seriam, por exemplo: idade das crianças, status sócio-econômico,
tipo de família e, mais importante, resultado de provas anteriores. Nas pesquisas educativas
normalmente existem registros históricos das provas de cada aluno. Esses registros podem
substituir o pré-teste e inclusive o pós-teste. Não existe nenhuma razão pela qual a
pesquisa deva designar testes próprios em vez de usar as provas regulares da escola, se
estas se adaptam bem ao conteúdo que deve ser medido. Todavia, as provas regulares
apresentam várias vantagens: não são reativas, já que fazem parte do contexto normal, e
muitas vezes estão disponíveis em forma de uma série histórica de resultados que pode
ajudar a avaliar o impacto da nova intervenção. Contudo, se a matéria é nova, ou se as
provas tradicionais não medem exatamente o que constitui o objetivo do programa, será
necessário elaborar testes novos.
Quando a exposição ao tratamento não é uniforme, uma das melhores estratégias
consiste em medir o grau de exposição de cada pessoa e relacioná-lo com a sua melhora
entre o pré-teste e o pós-teste. Se existe de fato uma correlação entre a intensidade da
exposição e o resultado final, a inferência de que o efeito é devido à intervenção torna-se
muito mais forte. Na sua avaliação do impacto do programa televisivo 'Vila Sésamo', Ball e
Bogatz (1970) perguntaram sobre a freqüência com que o programa era visto pelas crianças
e as dividiram em quatro grupos: espectadores assíduos, moderados, infreqüentes e

14
Em termos estatísticos, estas variáveis seriam co-variadas (ver glossário) na regressão entre a
variável independente (intervenção) e a dependente (desempenho, etc.).

63
ocasionais. Os resultados mostraram que a melhora nos testes era maior na medida em que
as crianças o viam com maior freqüência. Este tipo de resultados ideais poderia ser
representado de uma forma similar à seguinte.

6 6

5 5

4 4
Resultado da Prova

Espectadores

Assíduos
3 3
Espectadores

Moderados
2 2
Espectadores

Infreqüentes
1 1

Espectadores

0 0 Ocasionais
Pré-Teste Pós-Teste

Note-se que o gráfico mostra que não é preciso que os diversos grupos tenham o
mesmo desempenho no pré-teste. Eles podem ser diferentes no pré-teste, mas o importante
é que o ganho no pós-teste em relação ao pré-teste está correlacionado com a exposição ao
tratamento15. Isto consolida a validade interna da pesquisa, reforçando a conclusão de que o
programa realmente estava produzindo um efeito pedagógico.

3. Desenho com variáveis não equivalentes. Este nome simplesmente faz referência
à existência de diversas variáveis dependentes, para cada uma das quais existe uma
predição diferente sobre como será afetada pela intervenção. Quando existe um único
grupo, e não dispomos portanto de grupo de controle, cada uma dessas variáveis funciona
como um critério com o qual comparar a variável final. Por exemplo, medem-se quatro
variáveis dependentes e espera-se que apenas a primeira apresente um impacto positivo
decorrente do programa. A medida que as outras três variáveis sofram também os efeitos de

15
Essa correlação entre o grau de exposição e o desempenho não precisa ser linear. O fundamental
é que a relação seja monotônica (ver glossário).

64
outros processos que supõem explicações alternativas ao efeito do programa (história,
maturação, seleção, etc.), elas exercerão a mesma função do grupo de controle: padrão de
comparação em que tudo é igual exceto o programa, nesse caso, exceto o efeito do
programa16. O desenho pode ser representado da seguinte forma, em que as letras 'a', 'b', 'c',
'd' correspondem a variáveis dependentes diferentes.

OA/B/C/D X OA/B/C/D

Este princípio pode ser aplicado inclusive quando existir um grupo de controle para
melhorar a validade interna. Na sua avaliação do impacto do programa 'Vila Sésamo' sobre
a capacidade de leitura das crianças de pré-escolar, Minton (1975) examinou os resultados
dos testes de leitura. Os testes continham seis componentes ou sub-testes, sendo que as
crianças do grupo experimental, as que tinham visto 'Vila Sésamo', apresentavam uma
média superior às do grupo de controle em apenas uma das seis sub-escalas: a de
conhecimento das letras. Como o programa televisivo dedicava a maior parte do tempo ao
ensino das letras, isso foi interpretado como confirmação do impacto do programa na
alfabetização. Se a diferença entre ambos os grupos fosse devida à maturação diferencial, a
que o grupo experimental estivesse composto por crianças mais inteligentes ou a algum fato
acontecido em um dos grupos mas não no outro, então seria de se esperar a existência de
diferenças em todas as sub-escalas e não apenas na de conhecimento de letras. É
precisamente a ausência de diferenças nas outras escalas que reforça a conclusão de que
houve um efeito do programa de televisão infantil.
Este desenho só pode ser aplicado quando houver uma teoria por trás que justifique
hipóteses diferenciais para as distintas variáveis. Estas hipóteses, para contribuir com a
melhora da validade interna, devem ser formuladas, obviamente, previamente à coleta de
dados. Uma hipótese post-hoc não poderá ter a mesma credibilidade.

4. Desenho com apenas pós-teste e predição de interações entre subgrupos. O


princípio é o mesmo que funciona no caso das variáveis não equivalentes, só que neste caso

16
Esta noção de predição diferencial é análoga à idéia de validade divergente em mensuração (ver
glossário).

65
está referido não a variáveis adicionais, mas à interação de variáveis e grupos. Na medida
em que o pesquisador possua hipóteses específicas sobre como as variáveis vão funcionar
diferencialmente com cada um dos grupos, a inferência causal será muito mais forte se os
dados confirmarem essas hipóteses. Dessa forma poderá se compensar, parcialmente, a
ausência de grupo de controle e de pré-teste.
Seaver (1973) realizou uma pesquisa acerca do efeito das expectativas dos
professores sobre o desempenho dos alunos, o que se denomina, como já vimos, efeito
Pigmalião. Selecionou alunos com irmãos um pouco mais velhos que tinham passado pela
mesma escola poucos anos antes. Depois de examinar os registros das provas dos irmãos,
formou dois grupos de alunos: aqueles cujos irmãos tinham tido uma nota alta e aqueles
cujos irmãos tinham recebido uma nota baixa. A teoria é que o professor desenvolveria uma
expectativa dos alunos que tinham irmãos de alto desempenho superior à dos alunos cujos
irmãos tinham conseguido notas baixas. Por sua vez, esses dois grupos foram subdivididos
em dois: aqueles que tinham o mesmo professor do que o seu irmão ou irmã de mais idade;
e aqueles que tinham um professor diferente. Em suma, formaram-se quatro grupos: a)
alunos com irmãos de pontuação alta e com o mesmo professor; b) alunos com irmãos de
pontuação alta e um professor diferente; c) alunos com irmãos de pontuação baixa e com o
mesmo professor; e d) alunos com irmãos de pontuação baixa e com professor distinto.
Era provável que os alunos com irmãos com um desempenho alto tivessem uma
maior probabilidade de ter um bom desempenho, e vice-versa, devido a caraterísticas da
família que influenciam o resultado e que são comuns aos irmãos. Mas a predição
específica de Seaver era que a pontuação das pessoas que tinham irmãos com boas notas
seria significativamente superior a daqueles que tinham irmãos de notas baixas nos casos
em que os dois irmãos tinham tido o mesmo professor, se comparados com a diferença
existente entre ambos os grupos quando o professor era diferente. A diferença entre as duas
comparações inter-grupais (com o mesmo professor e com professor diferente) deve
originar-se na única diferença entre as duas situações: as expectativas do professor. Em
outras palavras, o autor estava predizendo uma interação entre desempenho do irmão e tipo
de professor em relação à variável dependente: desempenho próprio. Os resultados
confirmaram as predições do autor, reforçando a conclusão de que as expectativas possuem
um claro impacto nos resultados escolares. Na verdade, o problema mais sério dessa

66
pesquisa é de validade de construto na variável independente. Não está estabelecido em que
medida o desempenho diferencial é produto das expectativas do professor sobre o seu
aluno, ou em que medida é reflexo das expectativas do aluno em relação ao professor, pois
o aluno deve saber se o professor avaliou bem ou mal a seu irmão.
Em geral, quanto mais específicas sejam as predições, especialmente se elas são
diferenciadas quanto a diversos sub-grupos e variáveis, maior solidez possuirá a inferência
causal que se persegue. A outra cara da moeda é que, obviamente, quanto mais situações
específicas forem preditas de forma diferencial pelas hipóteses, maior a chance de que
alguma delas, mesmo por erro aleatório, não seja confirmada17.

5. Desenho de tratamentos inversos. Outra forma de fortalecer a inferência causal


em ausência de grupo de controle é administrar tratamentos de caráter oposto para ver se
produzem um efeito também de caráter contrário. Este tipo de pesquisa, que favorece
sobretudo a validade de construto, poderia ser representado da maneira seguinte.

O1 X+ O2
---------------------
O1 X- O2

Cook e Campbell citam o estudo de Morse e Reimer (1956), que analisou como a
produtividade e a satisfação no trabalho eram afetadas pelo método de tomada de decisões.
Um grupo usou um método 'democrático' para decidir enquanto o outro seguia um método
'hierárquico'. Para poder esclarecer se a causa funciona realmente em ambas as direções, é
necessário contar com um grupo de controle de não tratamento ou tipo placebo. A
comparação entre este último e cada um dos dois tratamentos permitirá delimitar o efeito de
cada um. Mais uma vez, a estratégia consiste em fazer predições diferentes para situações
diferentes.
Em muitas áreas este desenho é pouco usado porque é inviável ou antiético
dispensar tratamentos de caráter oposto aos presumivelmente positivos.

67
6. Desenho de Séries Temporais. Essa forma de pesquisa se caracteriza por coletar
medições repetidas, tanto pré-testes quanto pós-testes, em diversos momentos do tempo, em
vez de em um único momento. Isto faz com que as medições anteriores do próprio grupo
funcionem como uma espécie de substituto do grupo de controle. Já as medições
posteriores ao programa permitem medir a evolução do impacto do mesmo.
Freqüentemente, o desenho é chamado de Séries Temporais Interrompidas, para sinalizar
que uma série histórica é afetada, 'interrompida' por uma nova intervenção cujo efeito se
pretende mensurar. A forma mais simples é a seguinte.

O1 O2 O3 O4 X O5 O6 O7 O8

A princípio, quanto mais numerosas e freqüentes as observações, maior a validade


das conclusões, embora seja bom lembrar que o efeito do teste e a sua reatividade podem
desaconselhar uma repetição múltipla dos mesmos.
A existência de múltiplas observações prévias ao tratamento possibilita estabelecer
o que os psicólogos experimentalistas chamam de linha base, isto é, um padrão médio e
estável de resultados que pode ser extrapolado no tempo e comparado com os resultados
efetivos depois da introdução do programa. Estas medições iniciais ajudam a controlar
problemas como a maturação. Se ela estiver presente, acontecerá entre todas as observações
e não apenas entre O4 e O5. Paralelamente, o efeito do teste poderia prejudicar todas as
medidas repetidas, mas não conseguiria explicar uma mudança específica entre O 4 e O5.
Por outro lado, as observações iniciais ajudarão a identificar a existência de tendências
históricas e de variações sazonais na série, que devem ser levadas em consideração na sua
extrapolação para os momentos posteriores à intervenção. Se existe uma tendência
histórica, por exemplo de aumento, os momentos posteriores deverão refletir um
incremento ainda maior ao normal para poder começar a pensar que a intervenção teve um
efeito sobre a série. Nesse sentido, o que se compara com os pós-testes não são exatamente

17
Em termos de uma epistemologia falsificacionista (Popper, 1959), que favorece a tentativa de
desconfirmar ao invés de confirmar as hipóteses, essa menor possibilidade de ser confirmada seria
um objetivo em si mesma. Ver glossário.

68
o valor dos pré-testes, mas a sua extrapolação para os momentos posteriores ao tratamento
experimental.
As medições do pós-teste contribuirão também a avaliar em que medida o efeito da
intervenção, se existe, é transitório ou permanente dentro dos limites do estudo. Todavia, o
efeito do programa pode ser imediato ou pode demorar um certo lapso antes de se
manifestar. A validade interna será maior se o pesquisador consegue predizer, com sucesso,
o momento preciso em que o efeito deve aparecer.
Uma mesma diferença entre os momentos imediatamente anterior e posterior à
introdução do programa (O4 e O5) pode ou não indicar um efeito significativo da
intervenção dependendo da evolução histórica anterior. No gráfico seguinte, apresentamos
três séries diferentes. Nas três, os resultados de O4 e O5 são idênticos, mas a interpretação é
muito diferente. A primeira parece mostrar um efeito genuíno e permanente da intervenção
pesquisada (que ocorreria entre O4 e O5); a segunda reflete uma tendência histórica de
aumento que continua inalterada depois da intervenção; e a terceira indica simplesmente
um processo de sazonalidade.

10
9
8
7
Pontuação

6
5
Efeito
4
Permanente
3
Tendência
2
Histórica
1
0 Sazonalidade
O1 O2 O3 O4 O5 O6 O7 O8

Todavia, a intervenção pode provocar dois tipos de efeito: uma variação no nível da
série, ou uma mudança na inclinação ou incremento da mesma. O primeiro caso implica um
acréscimo constante na pontuações registradas depois da intervenção, tal como aparece no

69
gráfico anterior. No segundo caso, o que muda é a taxa de crescimento, que passa a ser
superior ou inferior depois do começo do programa.
A deficiência mais notória do desenho de séries temporais são os problemas de
história porque, visto que não existe um grupo de controle, não podemos descartar que
alguma coisa tenha acontecido entre O4 e O5, diferente da intervenção que ajude a
interpretar as mudanças. Uma forma de encarar o problema é buscar outras séries históricas
de outros grupos similares que não receberam o tratamento, para que sirvam de grupo de
controle. Como sempre, quanto mais similar melhor.

O1 O2 O3 O4 X O5 O6 O7 O8
---------------------------------------------------
O1 O2 O3 O4 O5 O6 O7 O8

Uma das ressalvas mais importantes é a possibilidade de que, paralelamente à


introdução da intervenção, aconteça alguma mudança na forma de registro das variáveis de
interesse. Este é um perigo extremamente sério porque, se acontecer, invalidará qualquer
análise e conclusão subseqüente. Imaginemos que estamos avaliando a influência de uma
nova equipe na Secretaria Municipal de Educação de um município sobre as taxas de
abandono escolar das escolas públicas. Se, juntamente com a introdução de novos métodos
de gestão, a nova equipe muda a maneira de definir ou registrar o abandono escolar, a
comparação pré-pós não terá nenhum sentido. O risco é maior porque muitas vezes essas
mudanças nos mecanismos de registros não são públicas e podem ser muito sutis, passando
despercebidas.
Outra das dificuldades de interpretação dessas pesquisas são os problemas de
seleção. A princípio, a seleção é uma questão delicada para todas as pesquisas quase-
experimentais pela falta de garantias sobre a equivalência dos grupos. No caso concreto das
séries temporais, acrescenta-se o problema de que a seleção dos participantes no grupo
poderia mudar depois da intervenção, devido a uma mortalidade amostral diferencial de
alguns tipos de pessoas. Elas podem, por exemplo, não gostar da intervenção e deixar o
grupo. Na área educativa, uma intervenção pedagógica que demande um esforço adicional
por parte dos alunos pode fazer com que os alunos com mais dificuldades sejam reprovados

70
ou mudem de escola. Essas mudanças no perfil anterior e posterior ao programa prejudicam
obviamente a comparação entre ambos os períodos. Nessas ocasiões é necessário calcular a
média, para cada momento, considerando apenas as pessoas presentes em todos os
períodos, isto é, eliminando de todas as medições, mesmo as iniciais, as pessoas que
abandonam a pesquisa em algum momento. Assim, a validade interna fica reforçada,
mesmo abrindo a porta para dúvidas relativas à validade externa, já que os efeitos não
poderão ser generalizados para os subtipos de pessoas que deixaram o processo. Outra
estratégia possível é calcular séries diferentes com subgrupos de pessoas para ver se o
efeito hipotetizado acontece em cada subgrupo. Por exemplo, elaborar séries separadas para
alunos com alta e com baixa pontuação inicial. Isto pode ajudar a controlar os problemas de
seleção e mortalidade amostral diferencial, mas vale lembrar que pode introduzir problemas
de regressão na direção da média.
Quando o efeito considerado é reconhecidamente de curto prazo, é possível
introduzir e retirar o tratamento várias vezes e monitorar os resultados. Trata-se então de
vários mini-estudos de introdução e eliminação da intervenção. Para confirmar a hipótese,
o efeito esperado deve surgir depois de cada introdução e sumir após cada retirada, se bem
que uma certa demora na aparição dos efeitos poderia gerar um quadro muito mais
complicado.

O1 X O2 O3 X O4 O5 X O6 O7 X O8

Esse tipo de pesquisa controla melhor os problemas de história, porque o tratamento


é realizado várias vezes e seria difícil justificar as mudanças posteriores em cada caso como
resultado de circunstâncias coincidentes justamente nesses momentos. No entanto, a
introdução cíclica dos tratamentos corre o sério risco de se confundir com um processo de
sazonalidade, se o houver. Portanto, é preferível não realizar a introdução e eliminação da
intervenção a intervalos regulares. Em qualquer caso, esse desenho não pode ser aplicado
em todas as situações, pois a introdução e eliminação do tratamento pode chegar a produzir
um contexto muito reativo e pode gerar frustração e desmoralização pela retirada repetida
de intervenções consideradas benéficas. Uma variante desse desenho é aquele em que o
pesquisador conta com dois grupos similares que experimentam a introdução e retirada da

71
intervenção em momentos diferentes. Se o tratamento é efetivo, as mudanças positivas
devem ser também alternadas em cada grupo seguindo os seus respectivos momentos de
introdução. Nesse tipo de pesquisa, um grupo serve de controle para o outro, de forma
alternativa.

O1 X O2 O3 X O4 O5 X O6 O7
- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -- - - - - - - - - - - - - - - - -
O1 O2 X O3 O4 X O5 O6 X O7

O avaliador é chamado, com freqüência, depois de que programa começou, e


inclusive, às vezes quando ele já acabou. Nesse cenário, uma das poucas estratégias
possíveis é a coleta de séries históricas de registros que incluam um período anterior e
posterior à intervenção. Um elemento que pode melhorar o desenho é analisar não apenas a
série temporal correspondente à variável dependente, mas incluir outras séries de variáveis
relacionadas à mesma e que funcionem como referentes de comparação. Como sempre, se a
predição é diferente para cada série, a inferência causal sai fortalecida caso as hipóteses se
confirmem. Vale lembrar que se são usados dados de diversas fontes, a qualidade de cada
uma delas pode ser diferente, de forma que podem existir vieses ou problemas de
confiabilidade específicos de umas fontes e não de outras.
Ross, Campbell e Glass (1970) realizaram um estudo clássico sobre o impacto de
uma campanha pública contra a direção sob os efeitos do álcool na Grã Bretanha, que
incluía pela primeira vez o monitoramento do nível de álcool usando o bafômetro, sobre o
número de acidentes de trânsito. Os autores acompanharam o número de vítimas graves de
acidentes (mortos e feridos graves) no país antes e depois da intervenção. O número de
vítimas desceu levemente depois do começo da campanha, mas o elemento que realmente
confirmou um efeito positivo foi o fato de que os autores mostraram que o número de
vítimas em acidentes acontecidos nas horas do dia em que os 'pubs' britânicos permaneciam
fechados não se alterou significativamente, enquanto as vítimas durante as noites de finais
de semana diminuíram drasticamente. Num artigo posterior, Ross (1973) acrescentou que
as cifras de venda de álcool não caíram nesse mesmo período e que, por conseguinte, o que
a campanha tinha conseguido não era uma diminuição do consumo de bebidas alcoólicas

72
em geral, mas uma queda no número de motoristas que dirigiam depois de ter ingerido
álcool. Finalmente, ele mostrou que a proporção de mortos em acidentes de trânsito com
altos níveis de álcool em sangue tinha diminuído depois da campanha. Este é um bom
exemplo de como a utilização de outras séries além da principal pode reforçar a validade de
construto, para explicar qual foi exatamente o efeito obtido e o que o provocou.
A introdução de um programa social não é sempre um acontecimento concentrado
em um único momento do tempo, tal que o programa não existia anteriormente e passa a
estar completamente estabelecido a partir daí. Freqüentemente, um programa começa a ser
introduzido na data marcada oficialmente e segue um lento processo de implantação
progressiva antes de chegar ao seu impacto potencial máximo. Nesse cenário, é
fundamental coletar informação sobre o grau de introdução do programa em cada
momento, de forma que, na análise, o tratamento possa ser considerado não como uma
variável dicotômica (sim ou não), mas como uma variável contínua. Esta estratégia
permitirá uma precisão muito superior quanto à análise dos efeitos da intervenção e
fornecerá uma maior validade às conclusões do estudo.

7. Desenho da Descontinuidade na Regressão. Este é um tipo de pesquisa


específico para certas situações, mas extremamente útil nelas, até o ponto de atingir um
nível de validade interna análogo ao dos experimentos. Às vezes, a concessão do programa
a umas pessoas ou outras não pode ser feita de forma aleatória, pois deve ser atribuída aos
que mais a merecem ou aos mais necessitados. É comum que a concessão seja decidida de
acordo com uma pontuação em uma certa dimensão, determinando assim um ponto de
corte. Aqueles que superam a pontuação receberão a intervenção e aqueles que não chegam
nela ficarão sem o programa. Esse desenho de pesquisa permite harmonizar o máximo rigor
metodológico com o objetivo ético ou político de conceder uma ajuda aos mais
merecedores. William Trochim (1984) é o autor que mais tem trabalhado para difundir esse
desenho.
A variável cuja pontuação determina a concessão da intervenção pode ser, por
exemplo, o próprio pré-teste. Imaginemos que o governo decide dar bolsas de verão no
exterior para que os alunos de ensino médio passem dois meses estudando línguas
estrangeiras. Para cada língua, é feita uma prova para todos os candidatos e apenas aqueles

73
com uma nota mais alta recebem a bolsa no exterior. O resto fica sem bolsa. O governo
quer saber se a médio ou longo prazo se a concessão da bolsa melhorou o conhecimento das
línguas estrangeiras entre os receptores ou se não houve qualquer diferença e as autoridades
gastaram o dinheiro simplesmente financiando férias para os alunos no exterior. A primeira
iniciativa seria realizar outra prova de língua três anos depois da concessão das becas e
comparar a pontuação dos antigos bolsistas com o resto. Porém, os antigos bolsistas já eram
melhores do que os outros inicialmente e, portanto, é muito provável que continuem sendo
superiores, mesmo sem receber ajuda alguma. Assim, a comparação direta entre os dois
grupos é inviável. É nesses casos que a descontinuidade na regressão consegue resolver o
problema. A estratégia é a seguinte. Suponhamos que o valor mínimo na prova inicial (pré-
teste) para poder conseguir a bolsa era de 7. Três anos depois a mesma prova ou outra
equivalente foi aplicada a todos os alunos que se candidataram, tanto os que conseguiram
bolsa como os que não. A relação entre as pontuações no pré-teste e no pós-teste é
analisada através de uma regressão estatística do primeiro no segundo. Graficamente, trata-
se de construir a linha que melhor represente a relação das duas variáveis: a primeira e a
segunda prova. Esta análise de regressão é realizada, separadamente, para o grupo que
chegou ou superou os 7 pontos na prova inicial (bolsistas) e para o resto dos alunos.
Quando juntadas as regressões dos dois grupos, deve ficar aparente que as pessoas que
tinham mais conhecimento da língua num primeiro momento também obtiveram um
melhor resultado na segunda prova, e vice-versa. Entretanto, se a bolsa teve um efeito
positivo, ele deveria se refletir numa descontinuidade justamente no valor 7, valor que
diferencia quem conseguiu de quem não conseguiu a bolsa. Quem obteve 7 no pré-teste
deve atingir uma pontuação no pós-teste claramente superior a quem obteve 6,9, e essa
diferença deve ser justamente produzida pelo efeito da bolsa no exterior. A representação
gráfica seria do seguinte modo.

74
10
9
8
Pós-Teste 7
6
5
4
3
2
Aluno Bolsista
1
0 Aluno Não Bolsista
0 1 2 3 4 5 6 7 8 9 10

Pré-Teste
Para todos os casos, a média do pós-teste é superior à do pré-teste, como caberia
esperar. Existe uma relação linear e positiva entre uma pontuação e a outra. No entanto,
observa-se um grande salto em torno de 7 pontos no pré-teste. Quando se chega nesse
limiar, a média é superior em um ponto ao que seria predizível em função do pré-teste. Este
ponto de diferença no limiar do ponto de corte no pré-teste, entre aqueles que receberam e
os que não obtiveram a bolsa, indica justamente o impacto do programa de bolsas. Elas
conseguiram elevar em um ponto o valor esperado na prova final, confirmando que o
programa teve um impacto positivo. Se não houvesse existido descontinuidade em torno
desse valor, não se poderia chegar a essa conclusão.
O programa pode produzir, além do efeito de elevação das médias no período
posterior a sua introdução, uma mudança na inclinação da linha, isto é, uma alteração da
relação entre o pré-teste e o pós-teste. Por exemplo, o ganho médio no pós-teste para cada
ponto a mais no pré-teste pode ser mais alto para os que receberam o tratamento do que
para o resto. Entretanto, se essa mudança na inclinação da reta não vem acompanhada de
uma diferença absoluta no ponto de corte, ela poderia ser explicada como resultado de um
processo de maturação diferencial dos mais aptos, mesmo na ausência do programa. Assim,
talvez os alunos quem já tinham um bom nível aprendessem mais rápido do que aqueles
que não sabiam muito. Na verdade, a seleção-maturação ou maturação diferencial entre
sub-grupos constitui a ameaça mais forte para a validade interna desse tipo de pesquisas.
Em educação, o fato de que os alunos de melhor desempenho tendam a aprender novos

75
conteúdos também mais rápido do que os alunos de pior desempenho é um resultado
normal, que determina o aumento das diferenças de aprendizado entre grupos já diferentes
inicialmente. Esse processo poderia explicar por que os alunos com maior nota no pré-teste
possuem uma linha de regressão com mais inclinação do que o resto da população.
Entretanto, não justificaria uma diferença de pontuação clara entre ambos os grupos
justamente no valor 7 no pré-teste, ponto de corte entre os dois grupos. Conseqüentemente,
apenas a descontinuidade no ponto de corte confirma claramente o efeito do programa.
Outros resultados devem ser interpretados com cautela. Seaver e Quarton (1976) aplicaram
a descontinuidade na regressão para estudar se o fato de entrar na 'lista de honra da escola',
que inclui os alunos com melhores notas nesse período, influenciava as notas no período
seguinte. A resposta foi afirmativa, já que entrar na lista melhorava as notas do próximo
período. Para enfrentar a possibilidade de que a seleção-maturação pudesse afetar os
resultados, os autores repetiram a análise tomando as notas de um período anterior como
pré-teste e tomando o pré-teste (que constituía o critério para decidir a entrada na lista)
como pós-teste. Nesse caso, não apareceu qualquer descontinuidade no ponto de corte, a
diferença do estudo inicial, eliminando dessa maneira a seleção-maturação como
explicação alternativa dos resultados.
Outro problema técnico enfrentado pelos pesquisadores, particularmente se o
número de beneficiários for pequeno, é a estimação de uma reta de regressão, de forma
confiável, para os que receberam o programa. Estimar os parâmetros de uma regressão
sobre uma variável de variância limitada (apenas as pontuações que levam à concessão do
programa) e com uma amostra pequena pode oferecer sérias dificuldades.
Existem quatro requisitos fundamentais para o emprego desse desenho. O primeiro
é que a variável que determina a concessão do programa deve ser contínua. O segundo é a
existência de um ponto de corte claro que distinga objetivamente e sem ambigüidade quem
recebe a intervenção e quem não. É comum que as autoridades, mesmo defendendo
oficialmente a existência de um rigoroso ponto de corte para a concessão do programa,
apliquem no entanto numerosas exceções, especialmente quando estão perto do ponto de
corte, ou que introduzam outros critérios políticos ou sociais de seleção paralelamente ao
oficial. Esses desvios acontecidos ao redor do valor de corte representam uma ameaça
muito grave, pois podem produzir ou anular diferenças no ponto de corte, por razões que

76
nada têm a ver com a intervenção. Imaginemos que a metade dos que conseguiram 7 pontos
no pré-teste não recebeu o programa, contrariando o critério oficial, e que a metade dos que
atingiram entre 6,5 e 6,9 obteve o benefício, mesmo sem merecê-lo. Isto significa que
qualquer diferença no ponto de corte produzida pelo programa será automática e
completamente anulada por essas irregularidades. A primeira sugestão é reanalisar as
concessões do programa e eliminar, se não são muitos, os indivíduos que entraram no grupo
errado: receberam o benefício indevidamente ou o perderam de forma injustificada. Quando
não é possível determinar a correção de cada decisão individual, mas se sabe que as
alterações aconteceram apenas perto do ponto de corte, uma opção é eliminar da análise
todos casos do intervalo, ao redor do ponto de corte do pré-teste, em que ocorreram os
problemas. Isto garante que os dados são confiáveis, mas prejudica o poder da análise, isto
é, sua capacidade de detectar diferenças.
O terceiro requisito para o emprego desse tipo de desenho é que o critério de
concessão do programa esteja correlacionado com a variável dependente (pós-teste). O
desenho de descontinuidade na regressão não está limitado aos casos em que o pré-teste é o
critério para a concessão do programa. Pode ser estendido a situações em que o critério da
intervenção é pautado segundo o valor de outra variável qualquer que correlaciona com o
resultado final (pós-teste). Se o critério não correlaciona com o pós-teste, as duas retas de
regressão serão planas; a comparação entre os dois grupos pode ser ainda válida, mas o
desenho terá perdido toda sua especificidade. Não existirá então razão para usar esse
desenho.
O quarto requisito é que as relações entre o critério de concessão e o pós-teste
sejam, tanto para os beneficiários quanto para os não beneficiários, lineares. Dado que a
técnica envolve a realização de duas regressões lineares, é fundamental que as relações
entre as variáveis sejam, de fato, lineares. Aplicar regressões lineares a relações quadráticas
ou curvilineares pode resultar em graves distorções que invalidem a comparação de ambos
grupos no ponto de corte.
Dependendo do tempo transcorrido desde a intervenção e do contexto em que as
medições (pré e pós-teste) sejam feitas, uma questão que pode prejudicar a validade interna
é a mortalidade amostral diferencial. Se os testes são realizados pela mesma instituição que
concede o programa, e se passam anos antes da prova final, é possível que os beneficiários

77
do programa sejam mais fáceis de contatar, acudam à chamada em maior proporção por
gratidão ao programa, e venham com uma atitude diferente, mais positiva, que a daqueles
que não obtiveram nenhum benefício. Uma taxa de resposta (proporção de pessoas que
acudem do total que foi convocado), superior entre os beneficiários do que entre os não
beneficiários e a existência de características diferenciais dos primeiros em relação aos
segundos podem implicar que diferenças devidas ao programa sejam confundidas ou
anuladas por diferenças na composição ou na atitude dos grupos. Obviamente, o pós-teste
deve tentar reunir todos os indivíduos, mas é preferível uma taxa de resposta média para os
dois grupos (beneficiários e não beneficiários) a uma taxa média para os segundos e muito
alta para os primeiros.
Em qualquer caso, a descontinuidade na regressão está sempre sujeita a limitações
quanto à validade externa, especificamente no referente à interação entre a seleção e o
tratamento. O efeito, se comprovado, é válido para pessoas com as características dos
beneficiários do programa (por exemplo, alunos com alta pontuação no pré-teste) e não
pode ser generalizado sem mais para o resto da população. Se o programa for oferecido às
pessoas com pior resultado no pré-teste, ao invés de aos mais aptos, não pode ser garantido
que o efeito será o mesmo.
De fato, muitos programas sociais são destinados aos mais necessitados, como os
programas de renda mínima ou os programas de compensação escolar para alunos com
dificuldades no aprendizado. Nesses casos, o desenho da descontinuidade na regressão
pode ser aplicado exatamente da mesma maneira, desde que exista um ponto de corte
quantificável para a concessão do tratamento. O programa é oferecido apenas para aqueles
que não ultrapassam uma certa pontuação. A análise é feita da mesma forma, com a única
diferença de que o efeito estaria acontecendo no extremo inferior da pontuação no pré-teste,
na parte esquerda do gráfico, em vez de no extremo superior. É preferível que as pessoas
não conheçam o ponto de corte antes de realizar o pré-teste, porque isto poderia originar
distorções deliberadas no pré-teste justamente com a intenção de conseguir o benefício. Em
algumas áreas, a alteração dos valores iniciais é mais difícil, mas em educação seria muito
simples, por exemplo, fazer uma prova intencionalmente ruim para poder entrar num curso
de recuperação gratuito. A falta de validade na medição do pré-teste devida a distorções
propositais pode colocar em questão inclusive a direção da casualidade no processo. Lohr

78
(1972) avaliou o impacto de um programa público de assistência médica para pessoas de
baixa renda. Os critérios para ser atendido pelo programa eram públicos. Um dos
problemas na interpretação dos resultados resultava da dúvida sobre em que medida o
programa tinha realmente aumentado a assistência médica dos mais pobres, respondendo a
uma necessidade que antes ficava insatisfeita, e em que medida as pessoas doentes e
hipocondríacas teriam informado uma renda inferior à real para poder ser atendidas
gratuitamente. Se a segunda hipótese for verdadeira, a existência do programa não estaria
melhorando o pós-teste, mas modificando o pré-teste.
Uma pequena modificação que pode reforçar a validade externa desse desenho é a
seguinte. As pessoas que obtiveram uma pontuação no pré-teste exatamente igual ao ponto
de corte, 7 no exemplo anterior, podem ser divididas aleatoriamente em dois grupos: a
metade receberia o programa e a outra metade não, apesar de compartilhar a mesma
pontuação. Os primeiros seriam analisados junto com o resto dos beneficiários, e os
segundos fariam parte da regressão do grupo geral dos não beneficiários. Assim, no valor
do ponto de corte apareceriam dois pontos de regressão: o ponto final da reta dos não
beneficiários e o ponto inicial da reta dos beneficiários. A descontinuidade deveria se
manifestar com clareza entre esses dois pontos que correspondem a grupos de pessoas cuja
única diferença residiria em ter participado ou não no programa. Desde que essa decisão no
ponto de corte seja aleatória, essa modificação não só não diminui a validade interna da
pesquisa mas a aumenta. Essa opção pode ser concebida como a introdução de um pequeno
experimento, restringido às pessoas no ponto de corte, dentro do desenho da
descontinuidade na regressão. Boruch (1975) explica e defende a utilidade dessa estratégia.
Esse tipo de modificação não só é útil, mas pode ser também conveniente quando o número
de beneficiários que pode ser atendido pelo programa (número de bolsas disponíveis, por
exemplo) não coincide com nenhum valor exato do pré-teste tal que algum outro critério
complementar deve ser usado para escolher os beneficiários.
Outra variação interessante acontece quando existem múltiplos pontos de corte.
Pensemos no caso em que, para ser beneficiário da intervenção, existe uma pontuação
mínima e outra máxima que devem ser cumpridas. O conjunto da população fica então
dividido em três grupos: aqueles que não recebem o programa por não atingir a pontuação
mínima, os receptores do programa, e aqueles que dele são excluídos por exceder uma

79
pontuação máxima. A esses três grupos correspondem três retas de regressão e dois pontos
de corte, que podem ser analisados à maneira tradicional.
Como já foi explicado no caso de desenhos anteriores, quando o programa não é
aplicado de modo uniforme a todos os participantes, é fundamental coletar informação
sobre o grau de implementação do programa para cada indivíduo, de forma a usá-la como
uma variável covariada na análise. Logicamente, a interpretação fica bem mais complicada,
mas ignorar esse fato aumentará o erro e tenderá a obscurecer os resultados.

80
9. A lógica experimental e as controvérsias metodológicas.

Ao longo dos séculos XIX e XX a ciência social tem dedicado uma boa parte do seu
tempo a debater qual a metodologia que deveria ser usada para chegar a resultados válidos
e socialmente significativos. Várias controvérsias, amiúde intensas, têm decorrido desse
debate. A meados do nosso século, uma das polêmicas mais ardentes era a que opunha os
chamados quantitativistas aos qualitativistas. A confrontação possui raízes epistemológicas
profundas que cristalizaram, num determinado momento, na questão mais superficial de
que tipo de técnicas, quantitativas ou qualitativas, era usado por um ou outro grupo.
A avaliação de programas, como não poderia ser de outra forma, também se viu
envolvida nesse debate depois da sua formalização como disciplina. A posição original de
Campbell, de origens experimentalistas, sofreu as críticas e a oposição de avaliadores que
defendiam uma abordagem mais qualitativa e mais centrada na visão dos atores (Guba &
Lincoln, 1981, 1989). As técnicas próprias dessa nova corrente tinham um cunho mais
antropológico, como a etnografia ou a observação participante. O estudo de caso usando
uma abordagem qualitativa era também uma técnica freqüentemente usada.
O debate, tal como aconteceu com outras disciplinas, misturou questões relativas às
técnicas usadas com elementos epistemológicos mais abrangentes e inclusive com
divergências políticas. Os métodos quantitativistas foram acusados de tentar manipular a
conduta humana sem se preocupar em compreendê-la, introduzindo técnicas de coleta de
informação altamente artificiais que impediam a generalização dos resultados a contextos
naturais. A possibilidade de uma ciência social objetiva, conforme o paradigma
Newtoniano, foi questionada e daí nasceram visões que reivindicavam um avaliador mais
comprometido com certos valores ao invés de situado numa posição neutra. Algumas
dessas questões serão tratadas no capítulo seguinte.
No fundo, a discussão fazia muitas vezes referência a paradigmas opostos da ciência
social, a visões diversas do mundo (Weltsanschauung), e a mistura de técnicas e
paradigmas acabava por obscurecer o debate, como observaram Reichardt e Cook (1979).
Estes autores resumiram as características atribuídas a cada um desses paradigmas da
seguinte forma.

81
Paradigma Quantitativo Paradigma Qualitativo
Uso de métodos quantitativos Uso de métodos qualitativos
Positivismo-lógico18 Fenomenologia19 e Compreensão20
(verstehen), preocupação com a
perspectiva do ator
Mensuração obstrusiva e controlada Observação naturalista e não controlada
Objetividade Subjetividade
Perspectiva desde fora, distante dos dados Perspectiva interna, próxima dos dados
Orientado à verificação e confirmação das Orientado ao descobrimento de hipóteses,
hipóteses, Hipotético-dedutivo21 Exploratório, Indutivo, Descritivo
Orientado a Resultados Orientado a Processos
Dados Confiáveis e Replicáveis Dados Válidos, 'ricos' e 'profundos'
Particularista Holístico22
Assume uma realidade estável Assume uma realidade dinâmica

Reichardt e Cook demonstram como os 'componentes' desses paradigmas são


logicamente independentes entre si, de modo que é possível adotar alguns deles e não
outros. Todavia, eles esclarecem que o uso de técnicas qualitativas ou quantitativas não
deve estar necessariamente vinculado a um paradigma epistemológico determinado. Na
mesma publicação, o renomado especialista em metodologia qualitativa Howard Becker
utiliza a lógica de Campbell e Stanley para avaliar a validade de inferências baseadas em
fotografias. Reichardt e Cook acreditam que a diferença mais marcada entre os dois
paradigmas é que o quantitativo está mais dirigido à verificação de teorias ou explicações
(contexto de justificação), enquanto o qualitativo tende mais à geração dessas teorias
(contexto da descoberta)23, mas defendem a utilização conjunta dos dois tipos de métodos
em um mesmo projeto avaliativo.
Algumas das críticas realizadas pela corrente qualitativa contra as avaliações
quantitativas já tinham sido reconhecidas pelos próprios metodólogos quantitativos. Por

18
Ver glossário.
19
Ver glossário.
20
Ver glossário.
21
Ver glossário.
22
Ver glossário.
23
Ver glossário.

82
exemplo, a excessiva preocupação experimental pela validade interna em detrimento de
resultados generalizáveis aos contextos reais em que os programas deverão ser aplicados
tinha já sido assinalada por Cook e Campbell (1979) na sua discussão sobre a validade
externa e, especialmente, sobre a validade de construto. Infelizmente, o 'paradigma
qualitativo' pareceu atingir mais sucesso na sua crítica às deficiências das pesquisas
quantitativas do que em propor alternativas que superassem os variados problemas
metodológicos de qualquer pesquisa aplicada ou em produzir avaliações qualitativas de
grande escala que servissem de modelo (Sechrest & Figueredo, 1993).
Na verdade, a diferença prática entre metodologias quantitativas e qualitativas não é
tão profunda nem tão evidente como poderia parecer. Mesmo os pesquisadores qualitativos
recorrem com freqüência à estimação e comparação de quantidades, apesar de fazê-lo de
uma forma menos precisa. Um relatório qualitativo poderia dizer, por exemplo, que a
maioria dos entrevistados compartilhava uma certa opinião, em vez de afirmar que 64%
deles concordou com ela, como poderia fazer um estudo quantitativo. Por sua vez, a
utilização de técnicas quantitativas está baseada em uma série de supostos que devem ser
avaliados e comprovados muitas vezes de forma qualitativa, enquanto a interpretação dos
resultados é uma tarefa composta por juízos e considerações basicamente qualitativos. O
que seja, no fundo, uma técnica qualitativa e uma técnica quantitativa é uma questão longe
de poder ser estabelecida de forma óbvia. Devemos considerar que uma pergunta aberta
em um questionário, que depois será codificada de acordo com uma análise de conteúdo,
representa uma técnica quantitativa ou qualitativa? E como classificaremos as contagens do
número de famílias de cada tipo realizadas por um antropólogo durante a sua etnografia?
Alguns autores definem as variáveis medidas a um nível de medição nominal ou ordinal 24
(por exemplo, raça ou faixa de renda) como dados qualitativos (Silva, 1990), apesar de
serem coletados da mesma forma que os considerados quantitativos e de serem sujeitos
também a análises estatísticas25.

24
Ver glossário.
25
As variáveis medidas a um nível de medição nominal ou ordinal não podem ser submetidas a
todos os tipos de análises estatísticas que são possíveis com variáveis de intervalo ou de razão, mas
são ainda passíveis de serem analisadas por uma grande diversidade de testes. Todas a estatísticas
não paramétricas (ver glossário) se ocupam justamente desse tipo de variáveis.

83
Em qualquer caso, a polarização metodológica parece ter diminuído notavelmente
durante as últimas décadas, depois de que muitas vozes se levantaram na mesma linha de
Reichardt e Cook para defender uma escolha metodológica que incluísse as técnicas mais
adequadas para a avaliação em questão, independentemente de se são rotuladas de uma
forma ou outra (Sechrest & Sudani, 1995). O princípio básico é que a escolha das técnicas
deve ser pautada pelo problema a ser estudado e pelas condições concretas, e não pelo
pertencimento do pesquisador a um ou outro paradigma. A velha noção metodológica da
triangulação26, que recomendava o uso de diversas formas de medição para melhorar a
qualidade da mensuração, é outra das idéias que estaria por trás de uma atitude
metodológica mais eclética, se não declaradamente integradora. Dado que cada técnica
possui seus pontos fortes e suas limitações, a concorrência de várias técnicas só poderia
melhorar a validade e a confiabilidade das medições e dos resultados. Técnicas
consideradas quantitativas e qualitativas são justamente fortes em aspectos em que as outras
são frágeis, confirmando o seu caráter complementar. Felizmente, cada vez menos energia
vem sendo dedicada, nos últimos anos, ao estéril debate metodológico em que o objetivo
parecia ser desacreditar o outro lado, e não é inusual se deparar com avaliações que fazem
uso de técnicas chamadas quantitativas e qualitativas simultaneamente.
Em relação à lógica contida na formulação original da metodologia avaliativa,
exemplificada nos trabalhos de Donald Campbell, é indispensável frisar que ela não foi
concebida exclusivamente para pesquisas quantitativas, mesmo que fosse implementada na
prática majoritariamente por pesquisadores quantitativos. Os mesmos desenhos de pesquisa
poderiam ser implementados usando técnicas qualitativas, como foi o caso de Becker
anteriormente mencionado. Quando um avaliador vai escolher as instituições ou locais
concretos em que realizará estudos de caso a partir de entrevistas em profundidade, ele ou
ela estará enfrentando considerações relativas à possibilidade de fazer inferências causais
(validade interna) e de generalizar ao universo de interesse (validade externa). Se
considerada como um conjunto de elementos para a reflexão, em vez de como os passos
para uma receita de cozinha, a lista de ameaças aos distintos tipos de validade pode ajudar
também o pesquisador qualitativo a estabelecer uma estratégia que melhore o poder
persuasivo dos seus resultados.

26
Ver o glossário.

84
De fato, a lógica desse modelo, baseada em desenhar estudos cujas inferências
causais possam excluir outras explicações alternativas e sejam generalizáveis a outras
situações, é comum a todas as pesquisas causais. Um exemplo distante, mas por isso
mesmo esclarecedor, é o trabalho dos pesquisadores que usam o chamado método
comparativo. Eles estudam unidades macro-sociais (países, culturas, etc.), aplicam essas
unidades macro-sociais como categorias explicativas, e estão interessados em compreender
a realidade individual e histórica de cada um desses países ou culturas. Usam normalmente
métodos qualitativos e não estão muito preocupados com o número de casos nem com
testes de significância (Ragin, 1987). Nada mais distante de uma avaliação quantitativa.
Entretanto, quando esses autores tentam explicar as causas de um determinado fenômeno
histórico recorrem a uma lógica que o leitor dos primeiros capítulos deve reconhecer. Um
dos principais exponentes do método comparativo, Smelser (1976), propõe o 'método da
ilustração comparativa sistemática' . O método, que já teria sido usado por Tocqueville no
seu clássico "A democracia na América"27, prescreve que qualquer caraterística comum
entre as coletividades não pode ser usada para explicar as diferenças entre elas, da mesma
forma que as características diferenciais não podem ser usadas para explicar as suas
semelhanças. Quando se quer estudar se determinados fatos acontecidos num certo país, por
exemplo uma revolução, são fruto de uma determinada causa, o objetivo será procurar
outros países similares ao pesquisado em tudo menos na causa pesquisada e verificar se
neles também se deu o fenômeno. Se o fenômeno se deu unicamente naqueles países que
compartilhavam a condição estudada, por exemplo uma frustração nas expectativas de
melhora econômica geradas nos anos anteriores, e não se deu em outros países semelhantes
mas que não possuíam essa condição, a conclusão de que tal condição é, ao menos, causa
necessária do processo resultará muito fortalecida. No entanto, se o processo aconteceu
também em países ou momentos históricos em que a condição estava ausente, não
poderemos estar tão certos do status causal da condição analisada. Esta é exatamente a
mesma lógica que, transposta a outros contextos em que a manipulação da realidade é
possível, leva à criação de grupos de controle. Trata-se de maximizar a comparação de duas
situações similares em que a condição está ora presente, ora ausente. O próprio Smelser
reconhecia a Stuart Mill (1843), tal como tinha feito Campbell, como precursor do seu

27
Nessa obra, Tocqueville comparava a estrutura política de França, Inglaterra e América do Norte.

85
método. O 'método da ilustração comparativa sistemática' seria herdeiro do 'método do
acordo' e do 'método da diferença' do famoso filósofo inglês.
Em suma, toda a lógica dos desenhos avaliativos exposta até aqui não está referida
apenas aos princípios de uma avaliação quantitativa, mas aos princípios de qualquer
avaliação de programas sociais, independentemente das técnicas utilizadas.

86
10. A avaliação de programas sob diferentes abordagens.

A avaliação de programas sociais, como não poderia ser de outra maneira, foi
concebida e realizada de formas diversas por diferentes avaliadores. Desde que se firmou
como disciplina, os especialistas em avaliação têm competido por criar sobrenomes que
indicassem o tipo concreto de avaliação que estaria sendo propugnado ou realizado.
A primeira distinção clássica é a de Michael Scriven (1967) entre avaliação
sumativa e avaliação formativa. A avaliação sumativa é a que se realiza sobre um programa
social existente com o objetivo de concluir se esse programa atinge ou não o efeito
desejado. Para tanto, é preciso que o programa esteja consolidado e que tenha sido
implementado de forma satisfatória. A avaliação formativa é aquela efetuada sobre um
programa em andamento, simultaneamente ao seu desenvolvimento, com o objetivo de
melhorá-lo. O primeiro tipo responde à pergunta: esse programa cumpre os seus objetivos?,
enquanto o segundo tipo tenta responder à pergunta: como podemos melhorar esse
programa?
Relacionada com essa classificação está a dicotomia entre avaliação interna e
avaliação externa. A avaliação interna é desenvolvida por pessoas ou equipes que
pertencem ao programa enquanto a avaliação externa é desenvolvida por consultores ou
instituições que não fazem parte do mesmo e que são chamados especificamente com essa
finalidade. As avaliações sumativas são, na sua maioria, externas e as formativas, em geral,
internas. As vantagens e desvantagens de cada uma das opções são óbvias. Uma equipe
externa terá maior isenção, maior distância em relação aos costumes e normas
desenvolvidos na instituição, e não estará constrangida para proclamar críticas; o seu
trabalho termina com o fim da avaliação e não depende necessariamente, como seria o caso
do pessoal interno, do resultado dela28. Por outro lado, uma equipe interna poderá chegar a
conhecer o programa e as suas particularidades melhor do que um grupo de fora, poderá
ajudar mais com suas sugestões durante o desenvolvimento do programa, e enfrentará
provavelmente uma resistência menor por parte dos profissionais e participantes no
programa quanto ao fornecimento de informação exaustiva e veraz.

87
Em razão da atenção dada à teoria na realização da avaliação, as avaliações também
podem ser divididas em vários grupos. Em um extremo, temos aquelas pesquisas que
ignoram totalmente qualquer teoria. Elas analisam o efeito de processos chamados de 'caixa
preta', com o único objetivo de saber se a intervenção funciona ou não, mesmo ignorando
as razões dos resultados. De fato, muitos avanços científicos que trouxeram inegáveis
benefícios à humanidade, aconteceram baseados nesse modelo. Por exemplo, diversas
descobertas epidemiológicas passaram exclusivamente pela identificação do vetor de
contágio de uma doença. Após a identificação, o vetor podia ser controlado, e a doença
contida ou até eliminada, salvando-se dessa forma muitas vidas, mesmo sem se conhecer
exatamente o mecanismo que provocava o contágio e a própria doença. Esse mecanismo
era descoberto às vezes muito tempo depois de que a emergência sanitária tivesse sido
resolvida pela identificação do vetor. Em suma, esse modelo pode não ser o sonho de um
cientista, mas pode trazer um enorme impacto positivo para a sociedade. No entanto, é
sempre preferível, obviamente, conhecer o processo exato que faz uma intervenção
funcionar, pois isto aumenta não apenas nossos conhecimentos teóricos, mas também nossa
capacidade de aperfeiçoá-la. Entre outras coisas, o conhecimento preciso do mecanismo
nos permitirá separar os componentes essenciais dos incidentais de um programa,
reduzindo assim os custos e melhorando a sua eficiência. Por isso, muitos autores
reivindicam uma avaliação que leve em consideração a teoria pela qual o programa
funciona. Chen (1990; Chen & Rossi, 1992) defende o conceito de avaliação dirigida pela
teoria. Esse modelo avaliativo começa pela descrição dos mecanismos pelos quais o
programa deveria funcionar e dos supostos necessários para esse funcionamento. Só depois
essa análise do modelo teórico que estaria por trás do funcionamento do programa é que o
pesquisador decide que tipo de dados coletar e como. As técnicas de pesquisa e o próprio
desenho da mesma são dependentes das considerações sobre o modelo teórico, não são
preestabelecidas. Esta abordagem permite saber qual foi o processo que não ocorreu
conforme o previsto, se o programa não funcionou.
Lipsey (1990) favorece o uso de pequenas teorias dos tratamentos que, fazendo uso
das teorias disponíveis na disciplina, expliquem os mecanismos e mudanças que

28
Essa afirmação é verdade apenas em termos genéricos. Obviamente, muitos avaliadores sofrem
pressões para obter determinados resultados e o seu novo contrato para uma nova avaliação pode

88
determinariam como o tratamento alcança seus efeitos. Essas teorias teriam uma função
metodológica muito importante, de modo que a sua importância seria tanto maior quanto
mais numerosas forem as ameaças à validade interna. De acordo com esse autor, o
funcionamento de muitos dos programas na prática não é nem sequer plausível quando
contemplado à luz das teorias disponíveis em ciências sociais.
Já Scriven (1998) adota uma postura minimalista, propondo utilizar a menor
quantidade de teoria de que a prática precise. Isso significa que o enfoque da caixa preta
pode ser suficiente em algumas ocasiões para o objetivo de uma avaliação. Em outras
situações, pode ser muito recomendável analisar a lógica do programa, o mecanismo que
vincula os insumos (inputs) aos resultados (outputs). E para outras avaliações, pode ser
muito positivo conhecer em detalhe a teoria pela qual a intervenção produz seus resultados
e pela qual esses resultados produzem os efeitos desejados. Mas Scriven alerta sobre a
dificuldade e o tempo que dominar uma teoria desse tipo pode implicar e questiona se tal
investimento vale a pena na maioria dos casos.

As avaliações podem ser classificadas em diversos tipos de acordo com múltiplos


critérios. No nosso caso, a apresentação das diferentes formas de se fazer avaliação estará
centrada no objetivo ou propósito da mesma, naquilo que pretende conseguir.
Começaremos pelos objetivos mais simples e, a partir daí, desenvolveremos outros tipos
com objetivos cada vez mais abrangentes. Não se trata de uma taxonomia, pois não será
fornecida uma lista de todos os tipos possíveis, mas simplesmente de uma introdução aos
diferentes modos de avaliação existentes.

1. O objetivo mais simples de uma avaliação de programas é elucidar se a


intervenção possui os efeitos apregoados por quem a planejou. Na sua versão mais sucinta,
a resposta a essa pergunta poderia ser dicotômica: sim ou não. Para tanto, simplesmente é
necessário contar com antecedência com uma descrição detalhada do que constitui o
programa e de quais são exatamente os efeitos procurados.
Contudo, é mais comum que se espere do avaliador uma conclusão sobre o grau em
que o programa produziu os efeitos desejados.

depender dos resultados da última.

89
Normalmente, as avaliações incluem dois componentes: avaliação de processo ou de
implementação e avaliação de impacto ou resultado. A primeira tenta esclarecer em que
medida o programa foi implementado conforme o plano original. A segunda, a mais
importante, procura verificar se os efeitos finais foram atingidos. É possível que um
programa seja perfeitamente implementado mas não consiga os resultados previstos. É
também concebível, embora improvável, que o programa não seja bem implementado mas,
mesmo assim, atinja o impacto desejado. Portanto, são duas dimensões diferentes, mesmo
que não independentes. É muito freqüente que o programa não produza qualquer efeito
após uma implementação deficiente, como vários autores destacaram (Sechrest et al., 1979;
Yeaton & Sechrest, 1981). Nesses casos, é impossível saber se o programa, tal como foi
desenhado, atinge ou não o impacto prometido, já que ele não foi ainda, de fato, executado.
Em conseqüência, as avaliações de impacto são quase sempre acompanhadas de avaliações
de processo, com o objetivo de determinar se uma possível deficiência no resultado pode
ser atribuída a problemas na implementação ou à ineficácia da própria intervenção. Como
já foi explicado, os avaliadores qualitativos tem trabalhado muito mais com processos do
que com impactos. Na opinião de alguns (Sechrest, 1994), foram justamente as dificuldades
enfrentadas na avaliação dos impactos que fizeram aumentar a freqüência de avaliações de
processo em detrimento das primeiras.
Além de processos e impactos, algumas avaliações são encomendadas com a missão
específica de calcular os custos do programa em relação ao impacto produzido. Assim,
temos a avaliação de custo-benefício que visa a obter o benefício monetário do programa
para cada unidade de custos investida no mesmo. Aqui, tanto custos quanto benefícios são
calculados em termos monetários. Por exemplo, uma avaliação de custo-benefício de um
programa de prevenção da delinqüência daria como resultado o seguinte: quantos reais
foram poupados pelo sistema de controle social (judiciário, polícias, penitenciarias, etc.)
graças à diminuição da criminalidade para cada real investido no programa de prevenção.
Dado que o custo é um elemento essencial na tomada de decisões dos agentes públicos, esta
é uma dimensão que não pode ser esquecida. Um programa pode ser eficaz, mas a um custo
tão alto que não valha a pena aplicá-lo. Quando existem várias intervenções possíveis para
melhorar um problema social, programas de resultados parecidos ou inclusive algo
inferiores, mas de custo muito mais baixo, serão preferidos. Existe também a avaliação de

90
custo-efetividade, cujo objetivo é determinar o custo monetário por unidade de melhora
conseguida pelo programa. Por exemplo, uma avaliação de custo-efetividade de um
programa destinado a diminuir o abandono escolar calculará quantos reais custa cada aluno
adicional retido na escola graças ao programa. A unidade em que está medida a efetividade
variará segundo o objetivo do programa, mas para poder comparar dois ou mais programas
entre si a efetividade dos mesmos deverá estar medida com a mesma unidade.
No modelo mínimo de avaliação, o avaliador não oferece juízos finais e muito
menos sugere recomendações. Ele simplesmente apresenta os dados coletados para quem
encarregou a avaliação e deixa que essa pessoa faça uma síntese para responder à pergunta
original e para tomar as decisões práticas subseqüentes. Esse modelo mínimo é o
representado no trabalho pioneiro de Ralph Tyler, na área de educação, sobre avaliação
baseada em objetivos. Alguns autores insistem em que o objetivo da avaliação é chegar a
um juízo sobre o valor ou o mérito de um programa e, portanto, não se deve limitar a
oferecer informação. Scriven (1994) chama essas avaliações sem síntese final de
avaliações não consumadas, e afirma que muitas vezes o cliente não está bem preparado
para realizar essa tarefa. Por isso, deixar de fazer a síntese seria abandonar o cliente no
momento que mais precisa do avaliador.

2. A primeira extensão possível do modelo mínimo seria a realização de juízos. Em


primeiro lugar, isso pode significar elaborar a síntese final para responder à pergunta
original sobre a eficácia do programa, em vez de simplesmente proporcionar a informação
para que o cliente elabore sua própria resposta. O avaliador pode dar diretamente uma
resposta no seu relatório ou pode sentar junto com o cliente e ajudá-lo a formulá-la.
Em segundo lugar, o avaliador pode fazer recomendações relativas à tomada de
decisões. A decisão, obviamente, corresponde ao cliente, mas nada impede o avaliador de
propor. Para muitos especialistas, oferecer recomendações não é parte do trabalho de
avaliador (Alkin, 1990), mesmo que possa ser desejável, e portanto o avaliador, quando as
fizer, deve explicitar ao cliente, para evitar confusões, que está indo além do seu papel de
avaliador. Para outros, as recomendações seriam parte integrante do trabalho de avaliação.
As avaliações formativas incluem de forma costumeira recomendações para
melhorar o programa. As recomendações podem ser mais restritas ou mais ousadas,

91

Você também pode gostar