Você está na página 1de 18

1.

Vulnerabilidade poltica por se


conhecerem resultados;
2. Experimentos de campo e esquemas
quase-experimentais;
3. Esquema de srie temporal
interrompida;
4. Esquema da srie de controle;
5. Esquema da descontinuidade
na regresso:
6. Experimentos com grupos de controle
designados aleatoriamente;
7. Mais conselhos para administradores
encurralados;
8. Repetio mltipla da avaliao;
9. Concluses.

Donald

T. Campbell * *

* Publicado originalmente em ingls,


sob o titulo Reforms as experiments.
American Psychologist, v. 24, n. 4, p 40929, Apr., 1%9. A preparao do original
deste trabalho foi subsidiada pela
National Science Foundation. Vrias
verses foram apresentadas nas seguintes
formas: como uma conferncia para o
Fundo de Ex-Alunos da Universidade de
Northwestern, em 24 de janeiro de 1%8;
para a Seo de Psicologia Social da
Sociedade Britnica de Psicologia, em
Oxford, em 20 de setembro de 1968; para
o Congresso Internacional de Psicologia
Social, em Praga, em 7 de
outubro de 1%8
(sob titulo diferente); e para vrios outros
grupos. Traduzido para o portugus pelo
Prof. Fbio Luiz Mariotto, da Escola de
Administrao de Empresas de So
Paulo da Fundao Getulio Vargas. O
tradutor agradece a colaborao de
Mario Mariotto.

* * Professor do Departamento de
Psicologia da Northwestern University,
em Evanston, Illinois, EUA.
R. Adm. Emp.,

Rio de Janeiro,

Reformas encaradas com experimentos

Os Estados Unidos e outras naes modernas deveriam


estar preparadas a dar uma abordagem experimental
reforma social, abordagem na qual novos programas
objetivando soluo de certos problemas sociais especficos seriam tentados. Esse procedimento possibilitaria verificar a eficcia ou no dos programas
examinados a fim de que sejam mantidos, imitados,
modificados ou descartados, com base em sua eficcia
manifesta, analisada atravs de mltiplos critrios disponveis. Nosso preparo para isso indicado pela incluso de clusulas especficas de avaliao de programas na primeira onda de legislao da "Great Society" e pelas propostas em curso no Congresso americano para o estabelecimento de "indicadores sociais" e
"bancos de dados" socialmente relevantes. Pelo fato de
j h algum tempo termos tido boas intenes nesse sentido, muitos podem achar que j atingimos esse estgio,
que j estamos prosseguindo ou suspendendo programas com base numa eficcia avaliada. Um dos temas
deste artigo mostrar que isso no ocorre, que muitos
programas de melhorias terminam sem nenhuma
avaliao interpretvel (Etzioni, 1968; Hyman &. Wright,
1%7; Schwartz, 1%1). Precisamos examinar diligentemente as origens dessa condio e esquematizar
maneiras de vencer as dificuldades. Este trabalho um
esforo preliminar nesse sentido.
Muitas das dificuldades esto nas intransigncias do
ambiente de pesquisa e na presena freqente de sedutoras ciladas de interpretao. A maior parte deste
artigo ser dedicada a esses problemas. Acontece, noentanto, que as poucas solues disponveis dependem
de decises administrativas corretas no iniciamento e na
execuo do programa. Tais decises so tomadas na esfera poltica e envolvem riscos polticos que muitas vezes
so suficientes para explicar a falta de uma avaliao
criteriosa dos efeitos. A remoo dos administradores de
reformas para fora do foco poltico parece ser tanto improvvel como indesejvel, ainda que fosse possvel. O
que essencial, em vez disso, que o orientador de pesquisa do cientista social compreenda as realidades
polticas da situao e que sua ajuda seja no sentido de
estimular a criao de uma demanda pblica de avaliaes srias, contribuindo assim para as invenes
polticas que reduzem o perigo de avaliaes honestas e
educando futuros administradores nos problemas e possibilidades.
Por este motivo, h tambm uma tentativa neste artigo de considerar o meio poltico da avaliao de
programas e de oferecer sugestes de posturas polticas
que possam favorecer uma abordagem verdadeiramente
experimental reforma social. Embora tais consideraes sejam distribudas no curso deste trabalho como
um tema de menor interesse, parece conveniente comear com algumas idias gerais de natureza poltica.
1. VULNERABILIDADE POLTICA POR SE
CONHECEREM RESULTADOS
Um dos aspectos mais caractersticos da situao atual
relaciona-se ao fato de que reformas especificas silo
preconizadas como se o seu sucesso fosse certo. Por essa
razo, o conhecimento dos resultados tem implicaes
polticas imediatas. Dada a dificuldade inerente de se
15(1):29-46,

jan./fev.1975

30

conseguir melhorias significativas com os meios usualmente fornecidos e dada a discrepncia entre promessas
e possibilidades, a maior parte dos administradores
prefere, sensatamente, restringir as avaliaes queles
resultados que conseguem controlar, especialmente no
que se refere a resultados a serem anunciados ou divulgados pela imprensa. A ambigidade, a falta de bases
verdadeiras de comparao e de evidncia concreta conspiram para aumentar o controle do administrador
sobre o que dito, ou, pelo menos, para reduzir o impacto da crtica no caso de fracasso real. H segurana
sob o manto da ignorncia. Alm dessa conjuno de
promessa e gesto, h outra fonte de vulnerabilidade na
circunstncia de que os fatos relevantes para a avaliao
de um programa podem tambm ser utilizados para se
questionar a eficincia geral e at a honestidade dos administradores. A acessibilidade de tais fatos ao pblico
red uz a intimidade e a segurana de alguns administradores.
Mesmo quando existe um compromisso ideolgico para uma avaliao sria da eficincia organizacional ou
para uma organizao cientfica da sociedade, esses dois
perigos levam impossibilidade de avaliao realstica
de experimentos organizacionais. Se o sistema poltico e
administrativo comprometeu-se antecipadamente
correo e eficcia de suas reformas, ele no pode tolerar o reconhecimento do fracasso. Para sermos realmente cientficos preciso que sejamos capazes de experimentar e que possamos preconizar sem aquele excesso de compromisso que nos torna cegos ao teste da
realidade.
Esse transe, favorecido pela apatia pblica e pela
corrupo deliberada, pode vir, a longo prazo, a impedir
uma abordagem verdadeiramente experimental para a
melhoria social. Mas nossas necessidades e esperanas
de uma sociedade melhor exigem que faamos o esforo.
H alguns sinais de esperana. Nos Estados Unidos conseguimos obter ndices de custo de vida e desemprego
que, embora imperfeitos, tm embaraado os governos
que os publicam. Temos conseguido efetuar recenseamentos que reduzem o nmero de deputados que um
estado tem no Congresso. Esses so motivos de otimismo, embora a morosidade corrupta dos governos estaduais em seguir suas prprias constituies para a
reviso de distritos legislativos ilustra o problema.
Uma mudana simples de postura poltica que reduziria o problema seria a de passar de uma preconizao de uma reforma especfica para a preconizao da
seriedade do problema e da para a preconizao de
uma persistncia em esforos alternativos de reforma,
caso o primeiro falhasse. A posio poltica seria: "Este
problema srio. Propomo-nos a adotar a 'Poltica A'
numa base experimental. Se ap6s cinco anos no houver
ocorrido uma melhora significativa, mudaremos para a
'Poltica B'." Por tornar explcito que a soluo dada ao
problema foi somente uma dentre as que o administrador ou partido poderia preconizar em s conscincia
e por ter j pronta uma alternativa plausvel, o administrador teria condies para uma avaliao honesta de
resultados. Resultados negativos como o do fracasso do
primeiro programa no poriam seu trabalho em perigo,
pois sua funo seria a de lutar com o problema at
achar algo que desse certo.
Revista de Administrao

de Empresas

Simultaneamente, deveria ser instituda uma morat6ria para pesquisas de avaliao ad hominem, isto ,
para pesquisas objetivando mais a avaliao de administradores especficos do que polticas administrativas. Se nos preocupamos com o problema do devassamento da intimidade nos bancos de dados e indicadores sociais do futuro (e.g., Sawyer e Schechter, 1968),
o ponto mais inflamvel seria o da intimidade dos administradores. Se o ameaarmos, o sistema de medio
ser certamente sabotado por inmeras formas possveis. Embora isto possa parecer indevidamente pessimista, os casos freqentes de administradores que tentaram arrasar achados de pesquisas indesejveis convencem-me de que estou certo. Mas deveramos poder
avaliar as polticas alternativas que um dado administrador tem a opo de implementar.
2. EXPERIMENTOS DE CAMPO E ESQUEMAS
QUASE-EXPERIMENTAIS
No esforo de estender a lgica da experimentao de
laboratrio para os trabalhos de "campo" e situaes
no-perfeitamente experimentais, organizamos uma lista de ameaas validade experimental, em cujos termos
cerca de 15 ou 20 esquemas experimentais e quase-experimentais foram avaliados (Campbell, 1957, 1963;
Campbell e Stanley, 1963). Neste artigo, somente trs ou
quatro esquemas sero examinados e, portanto, nem
todas as ameaas validade sero relevantes, mas teremos um cenrio til para examin-las sumariamente a
todas. Seguem-se nove ameaas validade interna.!
a) Histria: acontecimentos, que no o tratamento experimental, que ocorrem entre o teste prvio e o teste
posterior, fornecendo assim uma explicao alternativa
para os efeitos.
b) Maturao: processos internos dos respondedores ou
das unidades sociais observadas, os quais produzem
mudanas como resultado da passagem do tempo em si,
tais como crescimento, fadiga, tendncias seculares, etc.
c) Instabilidade: falta deconfiabilidade das medidas,
flutuaes nas pessoas ou componentes que compem a
amostra, instabilidade autnoma de medidas repetidas
ou "equivalentes". (Esta a nica ameaa para a qual
os testes estatsticos de significncia so relevantes.)
d) Teste: efeito da aplicao de um teste sobre o resultado de um segundo teste. Efeito da publicao de um
indicador social sobre os valores subseqentes daquele
indicador.
e) Instrumentao: mudanas na calibrao de um instrumento de medida ou mudanas nos observadores ou
no sistema de medio, os quais podem ocasionar
mudanas nas medidas obtidas.
t) Iluses criadas por regresso: alteraes falsas que
ocorrem quando as pessoas ou unidades de tratamento

so selecionadas com base nos valores extremos de um


seu atributo.
g) Seleo: vcios resultantes de um recrutamento
diferencial dos grupos de comparao, ocasionando
nveis mdios diferentes na medida dos efeitos.
h) Mortalidade experimental: a perda diferencial de
respondedores de grupos de comparao.
i) I nteraiJo entre seleo e maturaiJo: vcios de seleo que ocasionam taxas diferentes de "maturao"
ou mudana autnoma.

Se uma mudana ou diferena ocorre, estas so explicaes rivais que poderiam ser usadas para explicar
um efeito e assim negar que num experimento especifico, qualquer efeito genuno do tratamento experimental tenha sido demonstrado. So estas as falhas que
os experimentos verdadeiros evitam, principalmente
atravs do uso da escolha aleatria e dos grupos de controle. Na abordagem aqui preconizada, esta lista de
verificao usada para avaliar esquemas quase-experimentais especficos. Trata-se de uma avaliao, no
de uma rejeio, pois acontece freqentemente que,
para um esquema especifico, numa situao especifica,
a ameaa no plausvel, ou existem dados suplementares que possam ajudar a descart-la mesmo quando a
escolha aleatria impossvel. A tica geral, preconizada aqui tanto para administradores pblicos como
para cientistas sociais, a de usar o melhor mtodo possivel, visando a experimentos verdadeiros com grupos de
controle aleatrios. Mas quando o tratamento aleatrio
no possvel, preconiza-se o uso autocritico de esquemas quase-experimentais. Precisamos fazer o
melhor possvel com o que nos disponvel,
Nossa posio face aos crticos perfeccionistas afeitos
~ experi~e.ntao de laboratrio mais militante do que
ISSO: as umcas ameaas validade que permitiremos invalidar um experimento so aquelas que reconhecem o
status de leis empricas que sejam mais confiveis e mais
plausveis do que a lei que envolve o tratamento. A mera
possibilidade de alguma explicao alternativa no o
bastante - somente as hipteses rivais plausveis as que
so capazes de invalidar. Face aos estudos de correlao
e estudos descritivos de bom-senso, por outro lado, nossa
posio a de uma maior cautela. Por exemplo, devido
armadilha metodolgica especifica da iluso criada por
regresso, a tradio sociolgica dos esquemas ex post
facto (Chapin, 1947; Greenwood, 1945) totalmente
rejeitada (Campbell e Stanley, 1963, p. 240-1' 1966 p.
70-1).
'
,
As ameaas validade externa, focalizadas adiante,
abrangem os problemas de validade enfrentados na interpretao dos resultados experimentais, as ameaas
generalizao vlida dos resultados para outras situaes, para outras verses do tratamento, ou para
outras medidas do efeito. Z
a) Efeitos de interaiJo do teste: o efeito de um teste
prvio em aumentar ou diminuir a sensibilidade ou
receptividade varivel experimental, fazendo, assim,

os resultados obtidos para uma populao previamente


testada no-representativos dos efeitos da varivel experimental para o universo no submetido ao teste
prvio do qual os respondedores foram selecionados.
b) InteraiJo entre a seleo e o tratamento experimen-

tal: sensibilidade
tratada.

no representativa

da populao

Efeitos reativos dos preparativos para o experimento:


"artificialidade"; condies da situao experimental
no so tipicas das condies em que o tratamento
aplicado regularmente: "efeitos de Hawthorne".

c)

d) Interferncia entre tratamentos mltiplos: quando

so aplicados conjuntamente mltiplos tratamentos,


efeitos que no so tipicos da aplicao separada dos
tratamentos.
e) Sensibilidade irrelevante das medidas: todas as
medidas so complexas e incluem componentes irrelevantes que podem ocasionar efeitos ilus6rios.
Repetibilidade irrelevante dos tratamentos: os
tratamentos so complexos e repeties dos mesmos
podem deixar de incluir aqueles componentes que so
na realidade responsveis pelos efeitos.
t)

Estas ameaas aplicam-se tanto aos experimentos


verdadeiros como a quase-experimentos. So- especialmente relevantes na experimentao aplicada. Na histria cumulativa de nossa metodologia, este grupo de
ameaas foi registrado pela primeira vez como critica a
experimentos verdadeiros que envolvam teste prvio
(Schanck e Goodman, 1939; Solomon, 1949). Tais experimentos forneciam um fundamento legitimo para se
generalizar a outras populaes previamente testadas,
mas as reaes ao tratamento daquelas no-submetidas
ao teste prvio poderiam ser bem diversas. Por essa
razo preconiza-se experimentos verdadeiros, delineados de forma a dispensar o teste prvio (Campbell,
1~57; Schanck e Goodman, 1939; Solomon, 1949) e uma
busca de medidas no-reativas (Webb, Campbell,
Schwartz e Sechrest, 1966).
Essas ameaas validade serviro de base para a discusso que faremos de vrios esquemas experimentais
particularmente adequados avaliao de programas
especficos de melhoria social. Esses esquemas so os
seguintes: "esquema da srie temporal interrompida";
"esquema da srie de controle"; "esquema da descontinuidade na regresso"; e vrios "experimentos verdadeiros". A ordem que seguiremos a dos esquemas
fracos mas geralmente disponveis para os mais fortes,
que requerem mais previdncia e determinao do administrador.
3. ESQUEMA DE S~RIE TEMPORAL
INTERROMPIDA
Normalmente quando uma unidade politica inicia uma
reforma, esta instituda de modo geral, afetando toda a
unidade. Nessa situao, a nica base de comparao

31

a documentao dos anos anteriores. A utilizao usual


~ uma verso descuidada de um esquema quase-experimental muito fraco, o esquema de teste prvio e teste
posterior de um s6 grupo.
Prova conveniente nos dada pelo maior rigor
adotado na punio do excesso de velocidade no Estado
de Connecticut em 1955, analisado por mim e pelo
socilogo H. Laurence Ross como um exemplo para esclarecimento (Campbell e Ross, 1968; Glass, 1968; Ross
e Campbell, 1968). Depois de se ter registrado o maior
nmero j ocorrido de mortes em acidentes de trnsito
em 1955, o Governador Abraham Ribicoff combateu
com rigor sem precedentes o excesso de velocidade.
Aps um ano de execuo das medidas adotadas
ocorreram 284 mortes no trnsito, em comparao com
324 no ano anterior. Ao anunci-lo, o governador declarou: "Tendo sido salvas 40 vidas em 1956, uma reduo de 12,3% do nmero de mortos no trnsito em
1955, podemos reiterar definitivamente a validade do
programa." Estes resultados esto no grfico da figura 1, enfatizados deliberadamente para faz-los parecer impressionantes.

quer exame. Mas as ricas possibilidades deste exemplo e


nossa tentao poltica de substitui-lo por um outro que
fosse menos melindroso demonstram os problemas
polticos que precisam ser enfrentados quando se experimenta com reforma social.
Considerando a figura 1 e a declarao de Ribicoff,
vamos observar os mesmos dados apresentados como
parte de uma srie temporal prolongada na figura 2, e
examinar detalhadamente as ameaas relevantes
validade interna:

Figuro 2-Mortes ocorridos no trnsito em Connecticut.


(Mesmos dados do figuro 1 apresentados como porte de uma
srie temporal prolongado)

325

300

275

Figura 1 - Mortes ocorridos no trdnsito no eslodo de CaT1ecticut

320

250

~
~
.l:?
~

"'t

200

340

51

52

53

54

55

56

57

58

59

300

290

280
Anltsdo~
(19551

32

Depoisdo llldutecimlnlo
119561

No que se segue, embora reconheamos que as medidas adotadas tiveram alguns efeitos benficos, criticaremos a interpretao que Ribicoff deu aos seus
resultados, do ponto de vista dos padres estritos de
evidncia do cientista social. No fosse o agora Senador
Ribicoff homem da estatura que , a critica seria mpoltica, porque estaramos indispondo-nos com um dos
mais fortes proponentes da experimentao social nos
Estados Unidos. Devido sua ndole, no entanto, podemos sentir-nos seguros de que ele compartilha dos
nossos interesses, tanto num programa progressivo de
melhoria social experimental como na realizao de
avaliaes mais srias possveis desses experimentos. Na
verdade, foi sua integridade em usar todos os meios
sua disposio como governador para garantir que o impopular rigor contra o excesso de velocidade fosse de
fato cumprido que toma esses dados dignos de qualRevista de Administrao de Emprescu

a) Histria: as duas apresentaes deixam de controlar


os efeitos de outros agentes potenciais de mudanas. Por
exemplo, 1956 pode ter sido um ano excepcionalmente
seco, com menos acidentes causados pela chuva ou pela
neve. Ou pode ter havido um acrscimo significativo no
uso de cintos de segurana ou outras medidas de segurana. A estratgia que preconizamos na quase-experimentao no a de erguer as mos, num gesto de
desistncia, recusando o uso da evidncia por falta do
controle, mas sim a de gerar, .atravs de critica bem informada e apropriada para esta situao especifica, tantas hip6teses rivais plausveis quantas for possvel e ento fazer a pesquisa suplementar de, por exemplo, registros meteorol6gicos e de vendas de cintos de segurana,
que poderiam afetar essas hip6teses rivais.
b) Maturao: este termo vem de criticas de estudos
sobre treinamento de crianas. Aplicado aqui para os
dados dos testes prvio e posterior da figura 1, a hip6tese
plausvel poderia ser a de que as taxas de mortalidade
estavam decrescendo de ano para ano (como de fato esto, nos Estados Unidos, em relao a milhas percorridas ou ao nmero de automveis). Neste caso a srie
temporal prolongada apresenta grande vantagem

metodolgica e descarta essa ameaa validade. A tendncia geral inconsistentemente a de aumento antes do
endurecimento e de uma diminuio estvel depois.
c) Instabilidade: estava aparentemente implicito no
pronunciamento oficial o pressuposto de que toda a alterao de 1955 e 1956 fora devida ao endurecimento.
No foi reconhecido o fato de que todas as sries temporais so instveis mesmo quando nenhum tratamento
aplicado. O grau dessa instabilidade normal a questo crucial, e uma das principais vantagens da srie
temporal prolongada que ela apresenta uma amostra
dessa instabilidade. A grande instabilidade anterior ao
tratamento faz agora o efeito do tratamento parecer
trivial. O salto de 1955-56 menor do que os aumentos
tanto de 1954-55 como de 1952-53. l:: verdade que o
maior decrscimo da srie, mas supera os de 1951-52,
1953-54 e 1957-58 por valores triviais. Dessa forma, as
instabilidades inexplicadas da srie so tais que fazem
com que o decrscimo de 1955-56 seja interpretvel
como uma variao como as demais. Por outro lado,
deve ser notado que depois do endurecimento no houve
mais aumentos, e, nesse sentido, a feio da srie temporal parece indubitavelmente ter mudado.
A ameaa da instabilidade a nica para a qual os
testes estatsticos de significncia so relevantes. Box e
Tiao (1965) tm um elegante modelo bayesiano para srie temporal interrompida. Aplicado por Glass (1968) a
dados mensais do nosso caso em foco - removidas as
tendncias sazonais - demonstra uma reduo estatisticamente significante na srie temporal aps o endurecimento. Mas, como veremos, existe uma explicao alternativa para pelo menos parte desse efeito significante.
d) Regresso: nos experimentos verdadeiros o tratamento aplicado independentemente do estado prvio
das unidades. Em experimentos naturais o fato de um
grupo ter sido submetido a tratamento muitas vezes
um dos sintomas de condio do grupo tratado. O
tratamento pode ento ser perfeitamente um efeito em
vez de, ou alm de, uma causa. A psicoterapia um desses casos onde o tratamento um dos sintomas, como o
qualquer caso em que o grupo tratado auto-seleconado :ou autodesignado por motivo de necessidade.
Todos eles apresentam problemas especiais de interpretao, dos quais o exemplo presente um tipo.
A hiptese rival plausvel da seleo-regresso parte
do seguinte argumento: dado que a taxa de mortalidade
tem certo grau de variabilidade, ento uma subamostra
selecionada por causa do seu valor extremo em 1955
seria, em mdia, menos extrema em 1956, como mero
reflexo dessa variabilidade. Houve seleo baseada em
valor extremo na aplicao deste tratamento? Provavelmente sim. De todos os registros anuais de mortes
cusadas pelo trnsito em Connecticut, a ocasio mais
provvel para um endurecimento com o excesso de
velocidade seria aps um ano de taxa excepcionalmente
alta. Se a srie temporal mostrava instabilidade, a taxa
do ano seguinte seria em mdia menor, unicamente em
funo dessa instabilidade. Efeitos de regresso so
provavelmente a forma que mais reaparece de iluso de

si mesmo na literatura de experimentao em reforma


social. l:: difcil torn-los intuitivamente bvios. Tentemos novamente. Tomemos qualquer srie temporal
que apresente variabilidade, mesmo se esta represente
puro erro de medida. Percorramo-la como se segussemos o tempo. Escolhamos um ponto que o "mais alto at ento". Olhemos ento o ponto seguinte. Na
mdia dos casos, esse ponto ser mais baixo, mais
prximo da tendncia geral.
Na situao que estamos examinando o salto mais notvel em toda a srie o acrscimo imediatamente anterior aoiendurecimento.B muito provvel que esse aumento tenha originado o endurecimento, em vez de ter o endurecimento ocasionado a diminuio em 1956, ou pelo
menos alm de t-la ocasionado. Pelo menos uma parte
da queda em 1956 um efeito do valor extremo de 1955.
Embora o grau de regresso esperado possa em principio ser computado a partir da autocorrelao da srie,
no temos nesse caso uma quantidade suficientemente
extensa de dados para faz-lo com alguma confiana.
O aconselhamento de administradores que queiram
fazer testes genunos da realidade deve dar ateno a este problema difcil de ser superado. O conselho mais
geral o de lidar com problemas crnicos cuja urgncia
ou cujos valores extremos sejam persistentes, em vez de
reagir a um extremo momentneo. O administrador
deveria examinar a srie temporal antes do tratamento
para julgar se a instabilidade ou extremos momentneos
poderiam invalidar ou no os resultados do seu programa. Se o pudessem, deveria programar o tratamento
para um ou dois anos mais tarde, de modo que sua
deciso fosse mais independente do valor extremo
daquele ano. (Os vicios de seleo que ainda permanecem neste procedimento precisam de um exame
adiciona1.)
Ao dar conselhos ao administrador experimental, est-se dando inevitavelmente conselhos aos administradores encurralados, cuja embaraosa situao potitica exige resultado favorvel, seja vlido ou no. A tais
administradores encurralados, o conselho o de escolher o pior ano de todos e a unidade social que seja de
fato a pior. Se h instabilidade inerente, no h direo
a seguir seno melhorar, ao menos em mdia.
Duas outras ameaas validade interna merecem discusso com respeito a este esquema. Quando falamos
em testar, ocorre-nos tipicamente a situao na qual um
teste de atitude, aptido ou personalidade ele mesmo
agente de mudana, ao persuadir, informar, treinar ou
de qualquer outra forma, ao acionar processos de
mudana. No caso que estamos analisando nenhum
procedimento de teste foi introduzido artificialmente.
Porm, para o simples esquema de "antes e depois" da
figura 1, se o teste prvio fosse o primeiro dado sobre o
assunto levantado e publicado, a publicidade, por si s,
poderia ocasionar uma reduo na taxa de mortes no
trnsito, a qual teria tido lugar mesmo sem a adoo de
medidas mais rigorosas contra o excesso-de velocidade.
Muitos programas de segurana no trnsito j pressupem isso. A evidncia fornecida por uma srie temporal prolongada tranqiliza-nos a esse respeito somente na medida em que podemos pressupor que os nmeros foram publicados com nfase equivalente em
todos os anos. 3
Reformas

33

34

Mudanas de instrumentao no so uma falha


provvel neste exemplo, mas o seriam se tivesse havido
uma alterao nos hbitos de registro ou na responsabilidade institucional ao mesmo tempo em que
ocorreu o endurecimento. Num caso como este, provavelmente melhor usar freqncias absolutas do que
ndices cujos parmetros de correo estejam sujeitos a
revises peri6dicas. Por exemplo, taxas per capita
esto sujeitas a saltos peridicos toda vez que os resultados de um recenseamento ficam disponveis e as ex-o
trapolaes feitas anteriormente so revistas. De forma
anloga, uma mudana nos quilmetros por litro usado
para se estimar a quilometragem total em taxas de mortalidade por quilmetro rodado poderia explicar uma
variao nessas taxas. ];; claro que tais vcios podem
tambm estar ocultando um efeito genuno. ];; quase
certo que o endurecimento de Ribicoff reduziu a velocidade no trnsito (Campbell e Ross, 1968). Um tal
decrscimo em velocidade aumenta o rendimento de
combustvel em quilmetros por litro, de modo que se
fosse usado o mesmo rendimento anterior para a estimativa de quilmetros rodados, como certamente o
seria, obter-se-ia um valor subestimado e portanto um
aumento ilusrio na taxa de mortes por quilmetro
rodado.
As reformas que introduzem modificaes abruptas
de poltica tendem tambm a modificar o sistema de
registro de dados e assim confundir tratamentos da
reforma com mudanas na instrumentao. O administrador experimental ideal far o possvel para evit-lo.
Preferir manter um sistema de mensurao parcialmente imperfeito, mas comparvel, a perder de vez a
possibilidade de comparao. No entanto, a situao
poltica torna s vezes isso impossvel. Consideremos
como uma reforma experimental a reorganizao do sistema policial de Chicago feita por Orlando Wilson. A
figura 3 mostra seu impacto em furtos de pouca monta
em Chicago - um notvel aumentaI];; claro que Wilson
notou o impasse com antecedncia, pois um dos aspectos da sua reforma foi a reorganizao do sistema de
registros. (Note-se nos dados anteriores reforma, a
ausncia suspeita de uma tendncia secular de aumento.) Nesta situao, Wilson no tinha outra alternativa.
Se tivesse deixado o sistema de registros inalterado, com
o intuito de obter um esquema experimental melhor,
seus policiais ressentidos o teriam triturado com uma
onda de crime, comeando a registrar deliberadamente
as muitas queixas que no vinham constando nos livros.4
Aqueles que advogam o uso de medidas baseadas em
dados de arquivos como indicadores sociais (Bauer,
1966; Gross, 1966, 1967; Kaysen, 1967; Webb et alii,
1966) precisam enfrentar, sem medo, no s o seu alto
nvel de erro catico e de vcio sistemtico como tambm
as mudanas no sistema de registro motivadas por
razes polticas que se seguem ao seu uso pblico como
indicadores sociais (Etzioni e Lehman, 1967). As medidas no so igualmente suscetveis. Na figura 4 o efeito
de Orlando Wilson sobre os homicdios parece- insignificante de uma forma ou de outra.
Das ameaas validade externa, a mais relevante
para a experimentao social a sensibilidade irrelevante das medidas. Parece que melhor discutir isso com
respeito ou ao problema de se generalizar de um inRevista de Administrao de Empresas

Figura 3-Nmera registrado de furtos de pouca monta


(menos de 50 dlares) em Chicago,de 1942 a 1962
(dadosobtidos em Uniform crime reports for the United
states,1942-1962)
Nmero de delitos registrodo -------------50000

40000

30000

20000

!O000

I I I I I I I I I

Figura 4 - Nmero registrado de homiddios dolosose culposos


em Chicago,de 1942 a 1962 (dados obtidos em Uniform
crime reports for the United states, 1942-1962)
Nmero de delitos registrodo ------------400

350

300

250

200

150
I

ro

dicador para outro, ou validade imperfeita de todas as


medidas, que s superada com o uso de medidas mltiplas, cujas imperfeies so independentes entre si
(Campbell e Fiske, 1959; Webb et alii, 1966).
Para tratamentos de qualquer problema dado dentro
de determinada subunidade governamental ou privada,
haver geralmente algo como um monoplio do governo
em reforma. Mesmo que divises diferentes estejam ten-

tando reformas diferentes da melhor forma possvel,


dentro de cada diviso geralmente haver somente uma
reforma em curso para um dado problema de cada vez.
Mas para medidas de efeito isso no precisaria e nem
deveria ser o caso. A prpria mquina administrativa
deveria propor medidas mltiplas de beneficios potenciais e de efeitos colaterais indesejveis. Alm disso,
dever-se-ia permitir oposio leal acrescentar ainda
outros indicadores, com o processo poltico e o argumento adversrio contestando tanto a validade como a
importncia relativa, com metodlogos das cincias
sociais depondo para ambos os partidos e com os registros bsicos mantidos pblicos e sob auditoria bipartidria (como o so os votos eleitorais em condies
ideais). Esse escrutnio competitivo na verdade a principal fonte de objetividade nas cincias (Polanyi, 1966,
1% 7; Popper, 1963) e sintetiza um ideal de prtica
democrtica em procedimentos tanto judiciais como
legislativos.
As figuras seguintes retomam ao endurecimento com
o excesso de velocidade em Connecticute examinam
outras medidas do efeito. So relevantes para confirmar
que houve, de fato, um endurecimento e para a discusso dos efeitos colaterais. Tambm trazem o consolo
metodolgico de nos assegurar que em alguns casos o
esquema da srie temporal interrompida pode fornecer
evidncia clara de um efeito. A figura 5 mostra o salto
na suspenso de carteiras de habilitao por excesso de
velocidade - evidncia de que uma punio severa foi
instituda abruptamente. Mais um comentrio para administradores experimentais: com este esquema fraco,
s mudanas abruptas e decisivas tm qualquer chance
de ser avaliadas. Uma reforma introduzida gradualmente ser impossvel de ser distinguida da circunstncia de mudana secular, do efeito final de inmeros
agentes de mudana em ao contnua.
Gostaramos de ter uma evidncia intermediria de
que a velocidade do trnsito foi alterada. Uma amostragem anual de algumas centenas de filmes de cinco
minutos de cenas de auto-estradas (aleatria com relao ao local e hora) poderia t-la fornecido a custo
moderado, mas os filmes no foram tomados. Dos registros pblicos disponveis talvez os dados da figura 6, que
mostra a diminuio de multas por excesso de velocidade, indicam uma reduo da velocidade do trnsito.
Mas os efeitos do sistema legal eram complexos e em
parte indesejveis. O nmero de pessoas que guiavam
com a carteira de habilitao cassada cresceu substan_ cialmente (figura 7), pelo menos na amostra viciada dos
que foram presos. Pode-se presumir que devido ao rigor
da pena nos casos de culpa os juzes tenham-se tornado
mais lenientes (figura 8), mas esse efeito de signiticncia marginal.
A relevncia dos indicadores para os problemas
sociais que queremos solucionar deve ser mantida constantemente em foco. A abordagem dos indicadores
sociais tender a apontar como objetivo da ao social os
prprios indicadores, em vez dos problemas sociais que
eles indicam somente de forma imperfeita. Pode haver
uma tendncia de se legislar mudanas nos indicadores
em si, em vez de mudanas nos problemas sociais.
Para exemplificar o problema da sensibilidade irrelevante das medidas, a figura 9 mostra um resultado

da mudana na lei do divrcio efetuada na Alemanha


em 1900. Numa reanlise recente dos dados, com a estatstica de Box e Tiao (1965), Glass (Glass, Tiao e
Maguire, 1969) concluiu que a mudana foi altamente
significativa, ao contrrio de anlises estatsticas anteriores (Rheinstein, 1959; Wolf, Lke e Hax, 1959).
Mas a nfase de Rheinstein ainda seria pertinente: a
mudana nesse indicador no mostra melhora provvel
na harmonia e na estabilidade conjugais. Ao invs de
reduzir a discrdia conjugal e a separao, a mudana
legal tomou a taxa de divrcio um indicador menos
vlido desses fenmenos do que o era antes (ver tambm
Etzioni e Lehman, 1967).

Figura 5-Cassa:Oesde cartas por excesso de velocidade,


expressas em porcentagem de todas as cossoces

33
30

~~

27

2 I
I

~ I
I

24

I
I
I
51

52

53

54

55

56

57

58

59

Figura 6-Multas por excesso de velocidade,expressas em


poroentagem de todas as multas

35

19
18
17
16
I5
14
13
I 2
II
10
51

52

53

54

55

56

57

58

59

Reformas

4. ESQUEMA DA St::RIE DE CONTROLE


O esquema da srie temporal interrompida, como foi
discutido at agora, pode ser usado em situaes nas
quais um grupo de controle impossvel, ou seja, naquelas em que a unidade governamental inteira recebeu
o tratamento experimental constitudo pela reforma
social. No plano geral do delineamento quase-experimental, salientamos a grande vantagem de grupos de
comparao no submetidos ao tratamento, mesmo
quando estes grupos no podem ser designados aleatoriamente. O esquema mais comum desse tipo o dos
testes prvio e posterior com grupo de controle no
equivalente, no qual, para cada um dentre dois grupos
naturais, um deles recebe o tratamento, tomando-se
duas medidas: uma num teste prvio e outra num pos-

terior. Se evitarmos a prtica tradicional, mas errnea,


do emparelhamento baseado nos pontos obtidos no teste
prvio (com os conseqentes efeitos ilusrios causados
por regresso), este esquema fornece um controle til
dos aspectos de histria, maturao e efeitos de testereteste compartilhados pelos dois grupos. Mas no estabelece um controle para a hiptese rival plausvel da
interao entre seleo e maturao, isto , a hiptese de
que as diferenas de seleo nos agrupamentos naturais
envolvem no s diferenas na mdia, mas tambm na
velocidade de maturao.

Figum 9 -Taxa de di Jorcios do lrnprio Alemo, 1881-1914


Divrcios
por100000 habilontes------------28

Figura 7 Prises de pessoas guiando com a carteira cassado,


expressas em porcentagem sabre o total das cossoces

24
20
I 6
I 2

I!

I I I I I I!

81

87

I I I I I I I I I I ! I ! ! I ! I I ! ! I I I I I

90

93

96

99

02

05

08

11

14

51

84

52

53

54

55

56

57

58

59

Figura 10 - Formas de onojse quase-experimental do efeito


d.:; ~ma disciplina especfica, incluindo-se o esquema da
sene de controle.

Figura 8-~ntagem
das mul~ por-excessode velocidadeque
foram depois canceladaspor-ter sido o acusado julgado inooente

1!
i!

i!

con~

36

14

9R

9R

!IR sries

IOR

itR sries

/~

I 2
10

IQR

8
o

.2

6
4

~b

:Si
i!

~ ~
~

~
9R

Revista de Administrao de Empresas

Lotim

IOR

!IR sries

9g

IOR

112 sries

Esse argumento pode ser exemplificado com o


problema de esquema tradicional quase-experimental
dos efeitos do aprendizado do latim na aquisio do
vocabulrio em ingls, para estudantes americanos
(Campbell, 1963). Nos dados hipotticos da figura 10B,
duas interpretaes alternativas so possveis, O latim
pode ter causado um efeito, pois os que o estudaram
lucraram mais do que os outros. Mas, por outro lado, os
estudantes que querem aprender latim podem ter um
aumento de vocabulrio maior que se manifestaria mesmo que no tivessem estudado latim. Ampliando este
esquema comum para duas sries temporais, obtemos

Figura I l-Esquema
da srie de =ntrole,=mparondo
de mortes em Connecticut corn os de outros quatro

Toxodel1lOl'toli_

o nmero
estados

uma evidncia relevante, como demonstra a comparao


dos dois resultados alternativos das figuras lOC e 100.
Dessa forma, aproximando-nos de um esquema quaseexperimental, seja melhorando o esquema do grupo de
controle no equivalente, seja melhorando o esquema da
srie temporal interrompida, chegaremos ao esquema
da srie de controle. A figura 11 mostra este esquema
para o endurecimento com o excesso de velocidade em
Connecticut, acrescentando evidncia com as taxas de
mortalidade de estados vizinhos. Aqui, os dados so
apresentados na forma de taxas de mortalidade baseadas na populao, para tomar as duas sries de magnitude comparvel.

f- i-juro 12- Expcrirncntu


descontinuidade

de de~-,ernpote e anlise de
na rerecso

------~----------Prmio---

15
14
40

13
1 2

II
10
9
8

Comecficuf..........Esfodosde
ctKIfrole... -+-- ..

10
60

70

80

90

tOO

uo

120

130

140

150

Nmero de pontos que decidiu o outorCJOdo prOmio

O esquema da srie de controle da figura 11 mostra


que havia uma tendncia de decrscimo nos outros estados em 1955-56, devido provavelmente hist6ria e
maturao, isto , a tendncias seculares comuns, condies climticas, dispositivos de segurana nos autom6veis, etc. Mas os dados tambm mostram uma tendncia de a taxa de mortalidade em Connecticut
aproximar-se da dos outtos estados antes de 1955 e de
decrescer mais depressa que a dos outros estados a partir de 1956. Glass (1968) utilizou os dados mensais de
Connecticut e dos estados de controle para gerar uma
diferena mensal, a qual tambm mostra uma mudana
significativa da tendncia com a estatstica de Box e
Tiao (1965). Impressionados especialmente com a tendncia de 1957, 1958 e 1959, estaremos dispostos a concluir que o endurecimento teve algum efeito alm dos
inegveis pseudo-efeitos de regresso (Campbell e Ross,
1968).
As vantagens do esquema da srie de controle demonstram os proveitos que a experimentao social pode
tirar de um sistema social que permita diversidade nas
subunidades. A possibilidade que tivemos de estimar os
efeitos do endurecimento com o excesso de velocidade,

assim como a que tiveram Rose (1952) e Stieber (1949)


de estimar os efeitos das leis de arbitragem compulsria
sobre as greves e a de Simon (1966) estimando a elasticidade-preo das bebidas alc06licas, devem-se todas ao
fato de que as mudanas no foram postas em vigor em
todos os estados simultaneamente, por serem questes
de alada estadual e no federal. Embora no estejamos
justificando desta forma uma diversidade desperdiadora e injusta de leis e praxes de imposio de estado
para estado, recomendaramos enfaticamente que os engenheiros. sociais fizessem uso dessa diversidade enquanto ela permanece disponvel e que planejassem
cooperativamente suas mudanas em poltica administrativa e no sistema de registro de modo a permitir uma
inferncia experimental 6tima. Mais importante a
recomendao de que, para os aspectos de reforma
social tratados pelo Governo federal, fosse considerada
uma diversidade propositada na implementao, de
modo a tornar disponveis grupos de controle para
anlise. Se planejados corretamente, esses experimentos
podem aproximar-se de experimentos verdadeiros,
melhores do que os grupos de comparao fortuitos e ad
hoc de que dispomos agora. Mas sem tal planejamento
Reformas

37

fundamental, um controle central uniforme pode reduzir as possibilidades atuais de teste da realidade, ou
seja, de uma experimentao social verdadeira. Dentro
do mesmo esprito, a descentralizao das tomadas de
deciso, tanto dentro do Governo como dentro de
monoplios privados, pode proporcionar uma concorrncia til eficincia e inovao manifestada numa
multiplicidade de indicadores.
S. ESQUEMA DA DESCONTINUIDADE
NA REGRESSO

38

Passaremos a considerar, agora, melhorias sociais que


so escassas e que, portanto, no podem ser estendidas a
todos os indivduos. Essa escassez inevitvel em muitas
circunstncias e pode tornar possvel uma previso dos
efeitos que do contrrio seria impossvel. Consideremos
os notveis experimentos da vacina Salk para poliomielite, nos quais ministrava-se a vacina a algumas
crianas, enquanto que a outras aplicava-se uma injeo
de um placebo salino inerte. Muitas dessas crianas do
grupo de controle, atacadas mais tarde pela doena no
teriam morrido se houvessem tomado a vacina real em
lugar da droga inerte. A criao desses grupos de controle submetidos pseudovacina teria sido impossvel do
ponto de vista moral, psicolgico e social se tivesse
havido vacina real para todos. Na ocasio, devido escassez da vacina, a maior parte das crianas ficaria sem
ela de qualquer forma. A criao dos grupos experimen.tal e de controle foi uma forma altamente moral de distribuio daquela escassez, de modo a nos permitir o
conhecimento da eficcia real do suposto bem. A prtica
mdica usual de introduzir novas curas, experimentando-as na clnica geral, toma impossvel uma avaliao,
por confundir o estado prvio com o tratamento, isto
, por ministrar a droga aos mais necessitados ou mais
desesperanados. Apresenta ainda o vcio social de
ministrar o suposto beneficio aos membros das classes
mdia e alta, mais assduos em levar suas necessidades
mdicas ao conhecimento da comunidade mdica. A
postura poltica que favorece a experimentao social
neste caso o reconhecimento da distribuio aleatria:
como o meio mais democrtico e moral de se alocar
recursos limitados (e raros deveres arriscados), alm do
imperativo moral de utilizar essa distribuio aleatria
de forma que a sociedade possa realmente conhecer o
verdadeiro valor do suposto beneficio. Esta a ideologia
que torna possvel a realizao de "experimentos verdadeiros" num grande nmero de reformas sociais.
Mas se a distribuio aleatria no for politicamente
vivel ou moralmente justificvel numa dada situao,
existe um poderoso esquema quase-experimental que
permite que o bem escasso seja dado aos mais necessitados ou mais merecedores. Trata-se do esquema da
descontinuidade na regresso que exige to-somente
uma ateno rigorosa e ordenada dimenso da
prioridade. Ele teve sua origem na defesa de um experimento de desempate na medida dos efeitos do recebimento de uma bolsa de estudos (Thistlethwaite e
CampbelI, 1960), e parece mais fcil explic-lo luz
daquele experimento. Consideremos, como na figura 12,
a dimenso aptido e mrito antes do prmio, a qual
teria alguma relao com o sucesso posterior na vida
Revista de Administrao

de Empresas

(obter diploma em faculdade, o salrio de 10 anos mais


tarde, etc.), Aqueles que tinham a medida niais alta antes do prmio so os mais merecedores e recebem o prmio. Eles saem-se melhor na vida, mas ser que o
prmio exerce alguma influncia? Normalmente impraticvel diz-lo, porque eles teriam se sado melhor de
qualquer forma. Uma distribuio totalmente aleatria
do prmio teria sido impossvel dada a inteno declarada de premiar o mrito e a aptido. Mas seria vivel
tomar uma estreita faixa de aptido em tomo do valor
que determinava quem receberia ou no o prmio. Essas
pessoas seriam consideradas como empatadas e dar-seia o prmio a metade delas, atravs de escolha aleatria
de desempate.
O fundamento lgico do experimento de desempate
ainda o toma digno de ser realizado, mas ao considerarse esse esquema ficou bvio que se a regresso da
medida antes do prmio sobre efeitos posteriores fosse
razoavelmente sistemtica, poder-se-ia extrapolar os
resultados do experimento de desempate, construindo
dois grficos da regresso do teste posterior (xito aps o
prmio) sobre o prvio (nmero de pontos baseados nos
quais o prmio foi dado), um para os que estavam na
regio dos premiados e outro para os situados na dos
no-premiados. Se no houver diferena significativa
para aqueles que esto na interseo das linhas de
regresso com a linha de separao, ento o experimento de desempate no deveria apresentar nenhuma diferena. Nos casos em que os que foram desempatados
aleatoriamente mostrassem mais tarde um efeito como
conseqncia de terem recebido o prmio, deveria haver
uma descontinuidade abrupta na linha de regresso. Tal
descontinuidade no pode ser invalidada pela regresso
normal que deve existir entre o teste posterior e o prvio,
pois essa regresso normal, baseada numa amostra extensa das reas de premiados e no-premiados, no justifica essa expectativa.
A figura 12 apresenta um exemplo no qual um nmero de pontos mais alto no teste prvio teria levado a
um nmero de pontos mais alto no teste posterior, mesmo sem o tratamento, mas no qual h, alm disso, um
efeito substancial do tratamento. Afigura 13 mostra
uma srie de resultados emparelhados, interpretando-se
os da esquerda como no mostrando nenhum efeito e os
da direita como mostrando um efeito. Note-se alguns
casos peculiares. Em casos em que dada uma oportunidade com base no mrito, como 13a e 13b (e a figura
12), um esquecimento da regresso subjacente do teste
posterior sobre o teste prvio leva a pseudo-efeitos
otimistas: na figura 13a, os que recebem o prmio realmente saem-se melhor na vida, embora no seja, na verdade, por causa do prmio: Mas em casos em que se
procura incentivar os menos dotados, a situao tende a
ser a das figuras 13d e 13e,'em que o esquecimento da
regresso subjacente far o programa parecer nocivo se
no houver efeito real, ou ineficaz se o houver.
t;: claro que o esquema funcionar igualmente bem ou
at melhor se a dimenso que decide a outorga do
prmio - a medida do teste prvio - no tiver relao
com a dimenso do teste posterior, ou se for irrelevante
ou injusta, como nas figuras 13g, 13h e 13i. Em tais
casos, a deciso da outorga do prmio tem o mesmo
efeito de uma distribuio aleatria. Relaes subjacen-

tes negativas so obviamente possveis, como nas figuras


13j, 13k e 131.As figuras 13m, 13n e 130 foram includas
para enfatizar que o salto na interseo com o ponto de
separao que demonstra o efeito, e que diferenas em
inclinao que no sejam acompanhadas de dferenas
no ponto de separao no so aceitveis como evidncias de efeito. Isto fica mais bvio se lembrarmos que em
casos como 13m, uma escolha aleatria de desempate
no teria demonstrado diferena alguma. Relaes subjacentes curvilneas, como as das figuras 13p, 13q e 13r,
criaro obstculos adicionais inferncia clara em
muitos casos em que o erro de amostragem poderia fazer
com que a figura 13p se parecesse com a figura 13b.

tindo o efeito" medida do teste posterior de todos os


casos que receberam o tratamento, ou seja, aqueles alm
do ponto de separao na medida do teste prvio. 6

Figura 14 - Esquema de descontinuidade na regressoEfeito nulo

Valores do lesle poslerior

3or---------------------~~--------------Com tralamenlo

Sem tratomeoto

xx

Figura 13 - Exemplos de resultados de anlises de


descontinuidade na regresso.

Elei/onulo

li:
Efei/o oomeatodo:

10

Efeilo dimin/Jidor

=:
-.
Chth
tf.tE

~[L

-1~ILO----------~0----------~10L-----------2-0----Valores do leste pr,io

Figura 15 - Esquema de descontinuidade na regressoEfeito autntico

Valores do teste poslerior

30,-----------------------------------------Sem tralamenlo

Com Iralamenlo,

xx

IX

xx

10

-10L-10

o
-L-

10

---'-

_
20

Valores do teste pr,io

Como exemplo adicional, a figura 14 apresenta dados


simulados em computador, mostrando observaes individuais e retas de regresso ajustadas a elas, numa
verso mais completa do resultado de ausncia de efeito
da figura 13a. A figura 15 mostra um resultado com
efeito. Esses dados foram gerados" atribuindo-se a cada
indivduo um nmero aleatrio ponderado da distribuio normal como um "nmero de pontos verdadeiro", ao qual adicionado um "erro" independente,
tambm ponderado, para se obter a medida do teste
prvio. O "nmero de pontos verdadeiro" adicionado a
um outro "erro", gerado de forma anloga.. produz
a medida do teste posterior em casos de ausncia de efeito, como o da figura 14. Na simulao de presena de
efeito, como o da figura 15, so adicionados' 'pontos refle-

39

Este esquema poderia ser utilizado em vrias situaes. Consideremos os inscritos para o Corpo de
Treinamento para Empregos (Job Training Corps), em
maior nmero do que o programa pode atender, com a
qualificao determinada pela necessidade. A situao
seria a das figuras 13d e 13e. A dimenso bsica para a
deciso poderia ser a renda familiar per capita, sendo
que aqueles que tivessem menos que um certo valor
receberiam o treinamento. A dimenso para se mediro
resultado do programa poderia ser o imposto de renda
Reformas

40

retido na fonte dois anos mais tarde, ou percentagem


dos que recebem seguro de desemprego. TaIS valores de
acompanhamento seriam fornecidos pelo Banco Nacional de Dados atravs do nmero de inscrio na
previdncia social, sem quebrar o anonimato individual
e o sigilo pessoal, pois o programa que est sendo
examinado, atravs de dados agregados de muitas pessoas. Embora se pudesse dar nomes aos pontos individuais, isso no necessrio. Num clssico experimento
de campo sobre obedincia ao pagamento de impostos,
Richard Schwartz e o Bureau of Internai Revenue
(equivalente nossa Secretaria da Receita Federal) conseguiram juntar grupos de entrevistas pessoais e declaraes de imposto de renda de modo a permitir
anlises estatsticas sem que os diferentes encarregados,
tanto das entrevistas como das declaraes, ficassem
sabendo os dados correspondentes de nenhuma pessoa
espeeifica (Schwartz e Orleans, 1967; ver tambm
Schwartz e Skolnick, 1963). Manniche e Hayes (1957) j
explicaram detalhadamente como se pode usar um intermedirio para emparelhamento em dois estgios de
dados duplamente codificados. Kaysen (1967)e Sawyer e
Schechter (1968) apresentam discusses sensatas do
problema mais geral.
O que se requer do administrador de um bem meIhorador escasso para que se utilize esse esquema? O
mais essencial um ntido ponto de separao ao longo
da dimenso que constitui o critrio de deciso e ao longo da qual outros pontos de separao possam ser
analogamente escolhidos, tanto acima como abaixo do
ponto de separao utilizado para o prmio. Isso ficar
mais claro mostrando-se por que a entidade que concede
as bolsas do Mrito Nacional no pode usar o esquema
para a real deciso da concesso (embora o tivesse usado
para o Certificado de Mrito). No seu sistema de trabalho, cada uma dentre vrias comisses toma decises
de concesso do prmio considerando um grupo de candidatos e escolhendo os N melhores para receber as N
bolsas disponveis. Esse procedimento fornece um ponto
de separao ao longo de uma dimenso no-especificada que uma mistura de critrios, mas deixa de fornecer pontos potenciais de separao acima e abaixo. O
que poderia ser feito que cada comisso classificasse,
de forma coletiva, o seu grupo de candidatos, que so
em torno, de 20. Os N melhores receberiam, ento, o
prmio. Ao combinar os casos das vrias comisses cada
caso poderia ser classificado de acordo com sua posio
em relao ao ponto de separao que decidiu o prmio,
fosse acima ou abaixo deste. Para efeito da regresso
com as medidas p6s-tratamento, essa classificao seria
anloga ao ponto de separao. Tal classificao dos
grupos consumiria tempo das comisses. Procedimento
igualmente aceitvel, se as comisses concordassem,
seria o de fazer cada membro da comisso atribuir a
cada candidato uma nota, A+, A, A-, B+, B, etc., ap6s
ampla discusso com liberdade de reviso, e conceder a
bolsa aos N candidatos que obtivessem a melhor mdia
nessa avaliao, no sendo permitidas revises aps o
cmputo das mdias. Essas unidades de classificao,
mesmo que no fossem comparveis entre uma comisso
e outra na-faixa de talento abrangida, no nmero de
pessoas classificadas ou no valor que serviu de ponto de
separao, poderiam ser combinadas sem vicio para se
analisar a descontinuidade na regresso, na regio de
Revista de Administrao de Empresas

valores acima e abaixo do ponto de separao em que


todas as comisses estivessem representadas.
~ a dimensionalidade e a nitidez do critrio de deciso
que est em debate, no os seus componentes ou sua
validade. As classificaes poderiam ser feitas na base
de nepotismo, capricho e superstio e, mesmo assim,
servirem. Como j foi dito, se o critrio de deciso
completamente invlido, aproximamo-nos da distribuio aleat6ria dos experimentos verdadeiros. Portanto, a fraqueza das decises subjetivas das comisses no
sua subjetividade, mas sim o fato de que elas fornecem
somente um ponto de separao na sua dimenso subjetiva final. Os procedimentos recomendados, mesmo na
forma de notas mdias, provavelmente representam
pequeno aumento na carga de trabalho das comisses.
Mas isso poderia ser justificado perante essas comisses
lembrando-lhes que, devido s desistncias, etc. no se
sabe exatamente o nmero de pessoas a quem sero
concedidas bolsas quando a comisso se rene. Outros
custos na ocasio do planejamento so igualmente
mnimos. A sobrecarga principal manter bons registros tanto dos que receberam o prmio como dos que
no o receberam. Dessa forma, um administrador experimental pode, a um custo baixo, lanar os fundamentos para um acompanhamento cientfico posterior,
para os quais nem se cogita ainda fazer oramentos.
A situao que estamos analisando tende a ser mais
uma onde as medidas de pr-tratamento, medidas de
aptido, avaliao das referncias, etc., podem ser combinadas mediante correlao mltipla num ndice nico,
que apresenta uma alta correlao, porm no perfeita
com a deciso da concesso da bolsa. Se esse ndice for
usado como dimenso de teste prvio para a anlise da
descontinuidade na regresso, haver ento um ponto
de separao indistinto. O esquema pode ser usado nesse caso? Provavelmente no. A figura 16 mostra o
pseudo-efeito possvel se a deciso da concesso contribui com qualquer varincia vlida para a evidncia
quantificada do teste prvio, como em geral o caso. A
reta de regresso do grupo premiado est acima da do
grupo no-premiado somente por causa da varincia
vlida neste caso simulado, no havendo nenhum efeito
genuno do prmio. (Na simulao desse caso, a deciso
da concesso da bolsa foi baseada num valor composto da medida verdadeira do teste prvio e de um erro independente.) A figura 17 mostra um ponto de separao
indistinto mas com um efeito genuno do prmio," A
recomendao para o administrador fica clara: procurar
estabelecer um ponto de separao ntido ao longo de
um critrio de deciso quantificado. Se existirem regras
complexas de seleo, das quais s6 uma quantificada,
procurar fazer um acompanhamento do subconjunto
das pessoas para as quais a dimenso quantificada foi
decisiva. Se um pista/ao poltico criar algumas decises
inconsistentes com o ponto de separao, registrar esses
casos como baseados numa "regra de deciso qualitativa" e mant-los fora da sua anlise experimental.
uase todos nossos programas de melhorias planejados para os menos privilegiados poderiam ser estudados por meio deste esquema, assim como algumas
aes importantes do Governo que afetam as vidas dos
cidados de formas que no julgamos ser experimentais.
Por exemplo, durante um perodo considervel o n-

mero de pontos obtidos em testes tem sido usado na


convocao para o servio militar ou para rejeitar como
incapaz na faixa mais baixa de aptido. Se esses pontos
de separao, nmero de pontos obtidos nos testes,
nomes e nmeros de previdncia social foram registrados para alguns intervalos acima e abaixo do ponto
de separao, poderamos fazer estudos elegantes do
efeito do servio militar na renda posterior, mortalidade,
nmero de dependentes, etc. Infelizmente para esse objetivo, a operao conhecida como "Operation
100,000", instituda pelo Secretrio da Defesa com

Figura 16 - Esquema de descontinuidade na regresso,


Ponto de separa:o indistinto,com pseudo-efeito do tratamento

Valores do lesle poslerior

30r----------------------------------------

10

-I O L-

-10

10

20

Valores do lesle prvio

Figura 17 - Esquema de descontinuidade na regresso,


Ponto de seooroco indistinto, com pseudo-efeitos somcx:tos
a um efeito real do tratamento

Valores do lesle poslerior

30r---------------------------------------x

-Trolodo
NtJoIrolodo

0-

10

-I O L-

-10

10
Valores do leste prvio

20

nobres intuitos experimentais, est tomando indistinto o


ponto de separao. Mas dispomos de dados anteriores
a vrios anos, referentes ao Vietn, prontos para anlise.
Esse exemplo chama a ateno para uma das ameaas
validade externa desse esquema ou do experimento de
desempate. O efeito do tratamento foi estudado somente
para aquela estreita faixa de talento em tomo do ponto
de separao. Uma generalizao dos efeitos do servio
militar, por exemplo, sobre a carreira dos mais aptos,
feita com base num nvel de aptido muito baixo, seria
extremamente arriscada. Mas nas leis de alistamento e
nos requisitos do servio militar pode haver outros pontos de separao ntidos ao longo de um critrio quantitativo que tambm poderiam ser usados. Por exemplo,
os que tm mais de seis ps e seis polegadas (1,98m) de
altura so dispensados do servio militar. Imagine um
acompanhamento feito cinco anos mais tarde dos convocados agrupados por polegadas na faixa de seis ps e
uma polegada a seis ps e cinco polegadas e de um
grupo de seus correspondentes que teriam sido convocados no fosse a sua altura excessiva, seis ps e seis
polegadas a seis ps e 10 polegadas. (A possibilidade de
que outras razes para dispensa no terem sido examinadas pela junta de alistamento poderia ser um
problema nesse caso mas, provavelmente, no insupervel.) O fato de que no se deveria esperar que a altura nessa faixa tivesse qualquer relao com variveis
na vida subseqente no absolutamente uma fraqueza
desse esquema e se de fato tivermos uma sub populao
para a qual h um ponto de separao numrico ntido,
conseguiremos obter uma medida de efeitos com validade interna. A dispensa no sistema atual uma
deciso no-quantificada de uma comisso. Mas, assim
como o senso de justia dos soldados americanos foi
quantificado por meio da comparao de pares de casos
de modo a se criar um sistema aceitvel de pontos para
baixa ao fim da 11 Guerra Mundial (Guttman, 1946;
Stoffer, 1949), igualmente poderamos conseguir quantificar um ndice composto de prioridade para dispensa
e aplic-lo como critrio uniforme em todo o pas, estabelecendo-se
assim outro ponto de separao nu,.
menco.
Alm dos indicadores do tipo fornecido pelo Banco
Nacional de Dados, haver ocasies em que sero necessrias novas coletas de dados atravs de entrevistas ou
questionrios, surgindo, ento, o problema especial de
cooperao desigual que poderia ser classificada como
erro instrumental. No nosso modo tradicional de pensar,
a perfeio da descrio considerada mais valiosa do
que a comparabilidade. Portanto, se como no estudo das
bolsas, um questionrio de acompanhamento enviado
pelo rgo que as distribui apresentasse maior retomo
dos que ganharam a bolsa, isso poderia parecer desejvel, mesmo se o retomo das respostas dos que no a
ganharam fosse muito menor. Do ponto de vista da
quase-experimentao, no entanto, seria melhor usar
uma agncia de pesquisa independente e um objetivo
dissimulado, obtendo-se assim taxas de resposta igualmente baixas, tanto dos que ganharam a bolsa como dos
que no a ganharam e evitando-se a descontinuidade no
grau de cooperao, a qual poderia ser interpretada
erroneamente como uma descontinuidade em efeitos
mais importantes.
Reformas

41

6. EXPERIMENTOS COM GRUPOS DE


CONTROLE DESIGNADOS
ALEATORIAMENTE

42

Experimentos com aleatorizao (designao aleatria


para o tratamento) tendem a ser limitados ao laboratrio e ao posto de experimentos agrcolas. Mas certamente no necessrio que assim seja. A unidade de
aleatorizao pode ser pessoas, famlias, zonas eleitorais
ou unidades administrativas maiores. Para objetivos estatsticos, as unidades de aleatorizao devem ser
numerosas e, portanto, teoricamente pequenas. Mas por
razes de validade externa, inclusive preparativos
reativos, as unidades de aleatorizao deveriam ser escolhidas com base nas unidades de acesso administrativo. Quando as diretrizes so aplicadas atravs de
contatos individuais com os clientes, pode-se conseguir
uma aleatorizao ao nvel pessoal que no chame ateno, j que os clientes no precisam ficar sabendo que
alguns deles recebem o tratamento e outros no. Todavia para a maioria das reformas sociais, unidades administrativas maiores estaro envolvidas, tais como salas
de aula, escolas, cidades, municpios ou estados. Temos
que desenvolver posturas e ideologias polticas que tornem possvel a aleatorizao a esses nveis.
"Projeto-piloto" um termo til que j consta do nosso vocabulrio poltico. Significa um programa tentativo
que, se funcionar, ser ampliado para outras reas.
Modificando-se a prtica real a esse respeito, sem sair
do entendimento popular do termo, poder-se-ia desenvolver uma valiosa ideologia experimental. Como se escolhe uma rea para projeto-piloto? Se o pblico estiver
preocupado com isso, a escolha provavelmente toma a
forma de presses junto aos legisladores, as quais representam somente em parte a maior necessidade de
uma regio, pois o poder e a convenincia polticos tm
um papel importante. Sem violar a tolerncia ou o
propsito do pblico, poder-se-ia provavelmente arquitetar um sistema no qual as presses sobre legisladores decidissem quais as reas elegveis para participarem de um sorteio pblico formal que realizaria as
escolhas definitivas entre parelhas. Tais procedimentos
de deciso, como tirar a sorte, so justamente respeitados j h muito tempo (por exemplo, Aubert, 1959).
Atualmente mantm-se registros nos projetos-pilotos
somente para o grupo experimental, na maioria dos
casos. De acordo com a ideologia experimental, seriam
coletados dados comparveis de controles designados.
(1:: claro que h excees da prtica usual, como nos
diligentes experimentos sobre os efeitos do flor conduzidos pelo Servio de Sade Pblica, nos quais, ano
aps ano, foram examinados os dentes de crianas de
Oak Park, servindo de controle para aquelas tratadas
em Evanston.) (Blayney e Hill, 1967,)
Outra postura poltica que torna possvel a melhoria
social experimental a da inovao gradativa. Mesmo
que a inteno seja a de implantar a reforma em todas
as unidades, a logstica da situao geralmente mostrar
que uma introduo simultnea no possvel. O resultado uma seqncia de convenincia a esmo. Num programa de inovao gradativa, a introduo do prograRevista de Administrao

de Empresas

ma seria deliberadamente ampliada e as unidades


escolhidas para serem as primeiras ou as ltimas de"
signadas por sorteio (talvez num sorteio entre parelhas de unidades), de forma que durante o perodo de
transio os primeiros recipientes pudessem ser analisados como unidades experimentais e os ltimos, como
controles. Uma terceira ideologia que toma possvel a
realizao de experimentos verdadeiros j foi discutida:
a aleatorizao como uma forma democrtica de se distribuir recursos escassos.
Neste artigo no dedicaremos tanto espao experimentao verdadeira quanto quase-experimentao,
em virtude de existirem nossa disposio discusses
excelentes e fontes de consulta estatstica para experimentos verdadeiros. Quando se pode fazer tanto experimentos verdadeiros como quase-experimentos, os
primeiros devem ser quase sempre preferidos. S
ocasionalmente existem ameaas to fortes validade
externa no experimento verdadeiro que um quase-experimento seria prefervel. A distribuio de espao neste artigo no deve ser interpretada de outra forma.
7. MAIS CONSELHOS PARA ADMINISTRADORES
ESCURRALADOS
Na realidade, a rivalidade no se d entre os quase-experimentos aqui revistos, os quais so razoavelmente interpretveis, e os experimentos "verdadeiros". Ambos
representam raras eminncias em comparao com uma
viso distorcida e enganosa de si mesmo. Tanto para enfatizar esse contraste, como para sugerir novamente
uma orientao que beneficie aos administradores encurralados, cuja embaraosa situao poltica no permitir o risco do fracasso, algumas dessas alternativas
devem ser mencionadas.
Testemunhos
agradecidos. Considerando o que representam a gentileza e a gratido humanas, a forma
mais segura de se garantir uma avaliao favorvel obtida atravs da utilizao de testemunhos voluntrios
daqueles que receberam o tratamento. Se os testemunhos surgidos espontaneamente foram escassos, estes
devem ser solicitados entre os recipientes com os quais o
programa ainda mantm contato. O otimismo que esses
testemunhos inspiram anlogo impresso que um
professor tem do seu sucesso no ensino quando ouve
comentrios apenas dos alunos que vm procur-lo e
conversar com ele aps a aula. Em muitos programas,
como na psicoterapia, o recipiente, assim como a
unidade administrativa, gasta muito tempo e esforo
com o programa. Nesse caso o comunicado de uma
melhora, alm de reduzir o sentimento de frustrao,
uma gentileza para com o terapeuta. Os testemunhos
agradecidos podem vir na linguagem das cartas e de
conversas, ou enquadrados nas respostas a um "teste"
de mltipla escolha, nos quais um tema freqente "estou doente", "estou bem", "estou feliz" e "estou triste".
J:: provvel que o testemunho seja tanto mais favorvel:
a) quanto mais claro for para o recipiente o carter de
avaliao da resposta - perfeitamente claro na
maioria dos testes de personalidade, ajustamento, moral
e atitude; b) quanto mais direta for a identificao do

nome do recipiente que responde pergunta; c) quanto


mais o recipiente d sua resposta diretamente ao terapeuta ou agente da reforma; d) quanto mais o agente
continue a ser influente na vida futura do recipiente; e)
quanto mais as respostas lidam com sentimentos e
avaliaes em vez de lidarem com fatos verificveis; e t)
quanto mais os recipientes que participam na avaliao
constituem um subgrupo pequeno dos recipientes, formado de voluntrios ou de elementos escolhidos pelo
agente. Se for bem planejado, o mtodo do testemunho
agradecido pode compreender testes prvios, alm de
testes posteriores, e envolver grupos de controle designados por aleatorizao, pois geralmente no se usam
pseudotratamentos e os recipientes sabem perfeitamente
que eles foram beneficiados.
Confundir seleo e tratamento. Outra ttica segura
para se obter resultados favorveis confundir a seleo
com o tratamento, de modo que na comparao levada
ao conhecimento do pblico os que receberam o tratamento so tambm os mais capazes e bem colocados.
A to citada evidncia do valor por dlar de uma
educao em faculdade desse tipo - todos os estudos
cuidadosos mostram que a maior parte do efeito, e do
efeito mais acentuado das melhores faculdades, pode ser
explicado por um talento maior e por contatos familiares e no pelo que aprendido ou mesmo pelo prestgio do ttulo. As tcnicas de emparelhamento e do parcelamento estatstico no fornecem, em geral, um controle eficaz das diferenas de seleo, pois introduzem
efeitos de regresso que podem ser confundidos com
os efeitos do tratamento.

Temos que distinguir dois tipos de situao. Em


primeiro lugar, existem aqueles tratamentos que so
ministrados aos mais promissores, como a educao em
faculdade, que normalmente dada aos que menos
precisam dela. Para esses tratamentos, as circunstncias
concomitantes com os motivos da seleo e que se
manifestam mais tarde agem no mesmo sentido do
tratamento: as que tm mais probabilidade de sucesso
com a educao, ou sem ela, tm tambm mais probabilidade de entrar numa faculdade para depois conseguir sucesso. Para essas situaes, o administrador encurralado deveria usar a mdia geral de todos os que
receberam o tratamento e compar-la com a mdia de
todos os que no o receberam, embora neste caso quase
que qualquer comparao que pudesse ocorrer a um administrador seria viciada em seu favor.
No outro extremo da escala de talento esto os tratamentos corretivos ministrados queles que mais
precisam dele. Neste caso, as circunstncias concomitantes com os motivos de seleo e que se manifestam
mais tarde so um menor sucesso. No exemplo do Corpo
de Treinamento para Empregos, uma comparao descuidada da taxa de desemprego posterior dos que receberam o treinamento com a dos que no o receberam
, em geral, viciada contra o efeito do treinamento. O
administrador encurralado deve ter cuidado neste caso e
procurar aquelas poucas comparaes especiais que
viciam a seleo a seu favor. Para programas de treinamento tais como a Operao "Head Start" e programas de aulas particulares, uma soluo til comparar o sucesso posterior dos que completaram o

programa de treinamento com o dos que foram convidados mas nunca apareceram e, tambm o dos que
vieram algumas vezes e abandonaram o programa. Considerando como "treinados" somente os que terminam o
programa e usando os outros como controles, est-se
fazendo uma seleo com base no grau de conscincia
individual, numa base familiar estvel e amparadora, no
gosto pela atividade de treinamento, na aptido, na
resoluo de vencer na vida - fatores todos que prometem sucesso futuro mesmo que o programa corretivo
no tenha valor algum. Para aplicar eficazmente esta
ttica no Corpo de Treinamento para Empregos seria
necessrio, talvez, eliminar do pretenso grupo de controle todos os que abandonaram o programa de treinamento porque encontraram um emprego - mas isto
pareceria ser um procedimento razovel e no macularia
o recebimento de um jubiloso relatrio de andamento.
Essas so s mais duas amostras de modos de anlise
infalveis para o administrador que no pode fazer face
a uma avaliao honesta da reforma social que ele
dirige. Esses exemplos nos fazem lembrar novamente
que temos que ajudar a criar um clima poltico que exija
testes da realidade mais rigorosos e menos enganosos.
Devemos criar posturas polticas que permitam experimentos verdadeiros ou bons quase-experimentos.
Das vrias sugestes visando a esse objetivo dadas neste
artigo, a mais importante provavelmente o tema
inicial: os administradores e os partidos polticos devem
preconizar a importncia do problema e no a importncia de uma soluo. Eles devem preconizar seqncias experimentais de reformas em vez de uma panacia
infalvel, propondo uma Reforma A e tendo uma Alternativa B disponvel para ser experimentada em seguida,
no caso em que uma avaliao honesta de A mostrasse
que ela fora intil ou prejudicial.
8. REPETIO MLTIPLA DA AVALIAO
Nmero excessivo de cientistas sociais espera que um
nico experimento resolva uma questo definitivamente.
Isto pode ser uma generalizao errnea da histria dos
grandes experimentos cruciais da fsica e da qumica.
Na realidade, os experimentos significativos das cincias
fsicas so repetidos milhares de vezes, no somente em
esforos deliberados de repetio, mas tambm como
eventualidades inevitveis na experimentao sucessiva
e na utilizao dos muitos dispositivos de medio (como
o galvanmetro), que na sua operao incorporam os
princpios dos experimentos clssicos. Devido ao fato de
que ns, cientistas sociais, possuimos menos poder para
conseguir "isolamento experimental", j que temos boas
razes para esperar que os efeitos do tratamento interajam significativamente com uma grande variedade
de fatores sociais, muitos dos quais no levamos ainda
em considerao, nossa necessidade de experimentos de
repetio muito maior do que a do cientista fsico.
As implicaes so claras. Devemos ser obstinados no
teste da realidade no s na avaliao do programapiloto e escolha da reforma a ser implementada na forma de lei. Devemos tambm, desde o momento em que
tenha sido decidido que a reforma ser adotada como
padro em todas as unidades administrativas, avaliar
Reformas

43

experimentalmente os efeitos da reforma em cada uma


das suas implementaes (Campbell, 1967).
9. CONCLUSOES
Os administradores encurralados j estilo antecipadamente to comprometidos com a eficcia da reforma
que eles no se podem permitir uma avaliao honesta
dos resultados. Recomendam-se para eles anlises tendenciosas a seu favor, inclusive tirando proveito da
regresso, dos testemunhos agradecidos e da confuso
entre seleo e tratamento. l os administradores experimentais tero justificado a reforma com base na importncia do problema e no na certeza da soluo, e
seu compromisso tentar outras possveis solues se a
primeira falhar. Eles no estilo, portanto, ameaados
por uma anlise perspicaz da reforma. Por meio de
decises administrativas adequadas, podem estabelecer
a base para teis anlises experimentais ou quase-experimentais. Com a ideologia de distribuir recursos escassos por sorteio, com o uso da inovao gradativa e,
com projetos-pilotos, podero conseguir experimentos
verdadeiros com grupos de controle de designao
aleatria. Se a reforma precisar ser introduzida simultaneamente em todas as unidades administrativas,
podemos usar o esquema da srie temporal interrompida. Se houver unidades semelhantes sob administrao independente, um esquema de srie de controle
refora a anlise. Se um beneficio escasso precisa ser
distribudo aos que mais necessitam dele ou aos que
mais o merecem, a quantificao dessa necessidade ou
desse mrito toma possvel a anlise da descontinuidade
na regresso.

Campbell, D.T. From description to experimentation:


interpreting trends as quasi-experiments. In: Harris,
C.W., ed. Problems in measuring change. Madison.
University of Wisconsin Press, 1963.
Campbell, D.T. Administrative experimentation, institutional records and nonreactive measures. In: Stanley, I.C., ed. Improving experimental design and statistical analysis. Chicago. Rand McNally, 1967.
Campbell, D.T. Quasi-experimental designo In: Sills,
D.L., ed. International encyclopedia ofthe social sciences. New York. Macmillan and Free Press, 1968, V. 5, p.
259-63.

Campbell, D.T. ar Fiske, D.W. Convergent and discriminant validation by the multitrait-multimethod
matrix. Psychological Bulletin, V. 56, p. 81-105, 1959.
Campbell, D.T. & Ross, H.L. The Connecticut crackdown on spending: time-series data in quasi-expermental analysis. Law and Society Review, V. 3, n. 1, p. 33-53
1968.

'

Campbell, D.T. ar. Stanley, I.C. Experimental and


quasi-experimental designs for research on teaching. In:
Ga~e, N.L., ed. Handbook of researcb on teaching.
Chicago. Rand McNally, 1963. (Reeditado como Experimental and quasi-experimental design for research.
Chicago. Rand McNally, 1966.)
Chapin, F.S. Experimental design in sociological. research. New York. Harper, 1947.
Etizioni, A. "Shortcuts" to social change? The Public
Interest, V. 12, p. 40-51, 1968.
Etz!oni, A. & Lehman, E.W. Some dangers in "valid"
SOCIalmeasurement. Annals of the American Academy
ofPolitical and Social Science, V. 373, p. 1-15, 1967.
Galtung, I. Theory and methods of social research. Oslo.
Universitetsforloget; London. Allen and Unwin; New
York. Columbia University Press, 1967.

BIBLIOGRAFIA
Aubert, V. Chance in social affairs. Inquiry, n. 2, p. 1-

44

24, 1959.

Bauer, R. M. Social indicators. Cambridge, Mass.


M.I.T. Press, 1966.
Blayney, I. R. & Hill, I.N. Fluorine and dental caries.
The Journal of the American Dental Association
(nmero especal),v. 74, p. 233-302, 1967.
'
Box, G.E.P. & Tiao, G.C. A change in level of a nonstationary time series. Biometrica v. 52 p. 181-92
1-965.

'"

Campbell, D.T. Factors relevant in the validity of experiments in social settings. Boletim Psicol6gico, v. 54,
p. 297-312, 1957.
Revista de Administrao de Empresas

Glass, G.V. Analysis of data on the Connecticut


speeding crackdown as a time-sries quasi-experiment.
Law and Society Review, V. 3, n. 1, p. 55-76, 1968.
Glass, G.V.; Tiao, G.C. ar Maguire, T.O. Analysis of
data on the 1900 revision of the German divorce laws as
a quasi-experiment. Law and Society Review, no prelo.
Greenwood, E. Experimental sociology: a study in
method. New York. King's Crown Press, 1945.
Gross, B.M. The state of the nation: social system accounting, London. Tavistock Publications, 1966. (Tambm em R.M. Bauer. Social indicators. Cambridge.
Mass. M.I.T. Press, 1966.)
Gross, B.M., ed. Social goals and indcators. Annals of

the American Academy of Political and Social Science,

University of Chicago Law Review,

v. 371, Parte 1, May, p. i-iii e 1-177; Parte 2, Sept. p. i-iii


e 1-218, 1967.

1967.

Hyman, H.H. & Wright, C.R. Evaluating social action


programs. In: Lazarsfeld, W.H. Sewell & Wilensky,
H.L., ed. The uses ofsociology. New York. Basic Books,
1967.

Selvin, H. A critique of tests of significance in survey


research. American Sociological Review, V. 22, p. 51927, 1957.
Simon, J.L. The price elasticity of liquor in the V.S. and
a simple method of determination. Econometrica, V. 34,
p. 193-205, 1966.

Kamisar, Y. The tactics of police-persecution


oriented
critics of the courts. Cornell Law Quarterly, v. 49, p.
458- 71, 1964.

Solomon, R.W. An extension of control group designo


V. 46, p. 137-50, 1949.

The Public In-

Psychological Bulletin,

Stieber, J.W. Ten years of the Minnesota Labor Relations Act. Minneapolis. Industrial Relations Center,

Manniche, E. & Hayes, D.P. Respondent anonymity


and data matching. Public Opinion Quarterly, v. 21, n.
3, p. 384-8, 1957.

Vniversity

New York. Russell Sage, 1967.

V.

Sween, J. & Campbell, D.T. A study of the effect of


proximall~ auto-correlated error on tests of significance
for the interrupted
time-series
quasi-experimental
designs. Recebida do autor, 1965 (rnultilith).

Popper, K.R. Conjectures and refutations. London.


Routledge and Kegan Paul; New York. Basic Books
1963.
'

This~let~waite, ~.L. & Campbell, D.T. Regression-discontll~ulty analyss: an altemative to the ex post-facto
experiment, Journal ofEducational Psychology V. 51 p.
309-17, 1960.
'
,

Rh~instein, ~. Divorce and the law in Germany: a


review. American Journal of Sociology, V. 65, p. 489-98,
1959.

Walker, H.M. Sr. Lev, J. Statistical inference. New York.


Holt, 1953.

Rose, A.M. Needed research on the mediation of labor


disputes. Personnel Psychology, V. 5, p. 187-200, 1952.
Ross, H.L. & Campbell, D.T. The Connecticut speed
crackdown: a study of the effects of legal change. In:
Ross, H.L. ed. Perspectives on the social order: readings
in sociology. New York. MacGraw-Hill, 1968.

Schanck, ~.L. & Goodman, C. Reactions to propaganda


on both sides of a controversial issue. Public Opinion
Quarterly, V. 3, p. 107-12, 1939.

Schwartz,

R.D.

&

Orleans,

in sociological
13, p. 401-10

S. On Legal

'
sanctions.

Webb, E.J.: Campbell, D.T.; Schwartz, R.D. &. Sechrest, L.B. Unobstrusive measures: nonreactive research
in the social sciences. Chicago. Rand McNally, 1966.
Wolf, E.; Lke, G. &: Max, H. Scheidung und Scheidun-

gsrecht: Grundifrgen der Ehescheidung


chland. Tubigen. J.C.B. Mohr, 1959.

Sa~er, J. & Schechter, H. Computers, Privacy and the


National Data Center: the responsibility of social scientists. American Psychologist, V. 23, p. 810-18, 1968.

V.

1949.'

Suchman, E.A. Evaluative research: principIes and


practice in public service and social action programs.

Polanyi, M. A society of explorers. In: The tacit dimension. New York. Doubleday, 1966. Capo 3.

Schwartz, R.D. Field experimentation


research. Joumal of Legal Education,
1961.

of Minnesota,

S!ouffer, S.A. The point system for rdeployment and


discharge. In: Stouffer, S. A. et alii. The American soldier. Vol. 2, Combat and its aftermath. Princeton. Princeton V niversity Press, 1949.

Office of the Secretary of Defense, Assistant Secretary of


Defense (Manpower), Guidance paper: Project
One
Hundred Thousand. Washington, D.C., March 31,1967
(multilith),

Polanyi, M. The growth ofscience in society. Minerva,


5, p. 533-45, 1967.

34, p. 247-300,

Schwartz, R.D. & Skolnick, J.H. Televised comunication


and inco~e. tax compliance. In: Arons, L. & May, M.,
00. Television and human behavior. New Y ork. Appleton-Century-Crofts,
1963.

Guttman, L. An approach for quantifying paired comparisons and rank order. Annals of Mathematical
Statistics, v. 17, p. 144-63, 1946.

Kaysen, C. Data banks and dossiers.


terest, v. 7, p. 52-60, 1967.

V.

in Deuts-

1 ~s.!a lista foi ampliada em relao s verses anteriores com a


adio de Instabili~a~e (v~r ~ambm Ca~pbell. 1968; Campbell e
Ross. 1968). Esta adl~ fo~feita ~omo reaao discusso sociolgica
do uso dos .testes de slg.D1tic~cla na pesquisa no-experimental
e
quase-expenmental (Selvin, 1957; a critica desse trabalho feita por
Galtun.g. 1967. p. 358-89). Por um lado. uno-me aos que criticam o
prestigio ~xagerado das "diferenas estatisticamente significativas" no
estabeleclme~to de ce,!ieza de validade. Na melhor das hipteses, os
testes estatsticos s sao relevantes para 1 dentre 15 ameaas valiReformas

45

dade. Por outro. concordo com os que defendem seu uso em situaes
onde no foi usada a aleatorizao. Mesmo nesses casos, faz sentido
dizer-se ou negar-se: "Esta diferena trivial. t;:. da ordem que teria
ocorrido com freqncia se essas medidas tivessem sido designadas
por pura chance." Os testes de significincia que utilizam uma redesignao aleat6ria das medidas realmente obtidas so especialmente
teis para se transmitir este argumento.
2 Esta lista tambm foi ampliada em relao s verses anteriores
deste trabalho para tornar mais evidentes as ameaas 5 e 6, as quais
so especialmente relevantes na experimentao social. A discusso
nas verses anteriores (Campbell, 1957, p. 309-310; Campbell e
Stanley. 1963, p. 203-4) tinha abrangido essas questes mas no
haviam sido includas na lista de verificao.
3 No h dvida de que tanto o pblico como a imprensa participaram do susto do governador com o nmero de mortes em 1955. Essa
reao discriminat6ria poderia ser encarada como um sistema de
realimentao negativa no qual o efeito amortecedor proporcional ao
aumento em relao tendncia prvia. Na medida em que tal susto
causa uma reduo nas mortes causadas pelo trnsito, ele acrescenta
uma componente negativa autocorrelao, aumentando o efeito de
regresso. Esta componente deveria provavelmente ser encarada como
uma causa rival ou um tratamento rival em vez de como um efeito
ilus6rio. (O efeito de regresso menor quanto maior for a autocorrelao positiva e estar presente na medida em que essa correlao
menor do que a unidade positiva. Uma correlao negativa numa srie
temporal representaria uma regresso alm da mdia, numa forma
no exatamente anloga correlao negativa entre pessoas. Para
autocorrelao com retardamento I, uma alta correlao negativa
seria representada por uma srie que oscilasse com mxima amplitude
de um extremo a outro.)
4 A inconsistncia de Wilson na utilizao dos registros e o problema
politico de registros relevantes esto competentemente documentados
em Kamisar(1964). Etzioni (1968) relata que em 1965, em Nova York,
foi proclamada uma onda de crimes que se revelou depois ser devida a
uma melhora no divulgada no sistema de registro.
5 Sween, J. e Campbell, D. T. Computer programs for simulating
and analyzing sharp and fuzzy regression-discontinuity experiments.
Em preparao.
6 Embora disponhamos de pelo menos um teste de significncia
exeqlvel, pode ser bem diftcil conseguir um teste que preserve a
imagem de se extrapolar para um hipottico teste de desempate com
aleatorizao. Inicialmente, seguindo a orientao de Walker e Lev
(1953. p. 400; Sween e Campbell, 1965, p. 7), testamos a significncia
da diferena das duas linhas de regresso no ponto de separao, uma
ajustada s observaes abaixo do ponto de separao e a outra ajustada s observaes acima dele. Na simulao 'por computador de
casos de efeito nulo, foram encontrados repetidamente pseudo-efeitos
"significativos". Acontece que esta uma daquelas situaes em que a
soluo pelo mtodo dos mlnimos quadrados viciada. Uma forma de

46

compreender a natureza desse vicio talvez considerar o que aconteceria se tanto a reta de regresso do teste prvio sobre o teste posterior como a do teste posterior sobre o teste prvio fossem traadas
para toda a distribuio. Essas duas retas de regresso cruzariam no
centro da distribuio (isto , no ponto de separao, em exemplos
simtricos como os das figuras 14 e 15) e se afastariam nas extremidadesi Quando, em vez disso, as duas retas de regresso so ajustadas
para cada metade da distribuio, elas cruzaro no centro de cada
metade e se afastaro nas imediaes do-ponto de separao. Num
exemplo como o da figura 14, a regresso do teste posterior sobre o
teste prvio ser a mais baixa no ponto de separao para a metade
no tratada e a mais alta para a metade tratada. Este pseudo-efeito
no aparece quando se traam os pontos representando as mdias de
cada coluna, o que pode ser verificado visualmente, e as figuras 14, 15,
16 e 17 deveriam ter sido desenhadas com as mdias de cada coluna
representadas em vez das retas ajustadas. O tamanho desse vicio
uma funo- da correlao entre o teste prvio e o teste posterior e se
esta puder ser adequadamente estimada, poder-se-ia calcular uma estimativa corrigida da diferena no ponto de separao. No entanto,
no se pode usar a distribuio inteira para se estimar essa correlao,
pois um efeito real ir causar parte da correlao. Poder-se-ia basear
uma estimativa nas correlaes calculadas em separado para as partes
acima e abaixo do ponto de separao, corrigindo-a pelo fato de
abrangerem uma faixa restrita. Poder-se-ia tambm encontrar procedimentos de estimao de mxima verossimilhana.
No momento, a melhor sugesto parece ser a que foi fornecida por
Robert P. Abelson. A reta de regresso.do teste posterior sobre o teste
prvio ajustada para um grupo de dados que se estendem para cima
e para baixo do ponto de separao em pores iguais. As mdias das
colunas so expressas como desvios daquela regresso. Um teste t
ento usado para se comparar as colunas junto ao ponto de separao,
acima e abaixo dele. Para aumentar a base estatstica, pode-se explorar uma classificao em colunas mais largas. Este teste infelizmente perde a analogia com o experimento verdadeiro de desempate,
analogia da qual o presente autor lanou mo para um esclarecimento
conceitual.
7 H alguns indlcios estatsticos sutis que poderiam distinguir estes
dois casos se tivssemos observaes suficientes. Deveria haver um
aumento da varincia dos valores combinados das colunas nas colunas
mistas no caso de um efeito real. Se os dados fossem tratados arbitrariamente como se tivesse havido um ponto de separao.nltido no
meio da regio em que as observaes se misturam, ento no deveria
haver descontinuidade no caso de efeito nulo e sim alguma descontinuidade no caso de efeito real, embora neste segundo caso a descontinuidade fosse subestimada, j que existem casos no tratados acima
do ponto de separao e casos tratados abaixo desse ponto, diminuindo o efeito vislvel. A intensidade desta diminuio deveria ser estimvel e corrigvel, talvez atravs de procedimentos iterativos. Mas estas so esperanas' para o futuro.

NO IMPORTA
ONDE vOC ESTEJA
NOSSAS PUBliCAES
CHEGAM AT vOC.

Basta pedir pelo ReembolsoPostal


Editora da FGV - Praia de Bo/afogo, 190
CP 21.120 - ZC-05 - Rio de Janeiro

Você também pode gostar