Você está na página 1de 44

'.

Trs delineamentos pr-experimentais

.~;~~

Donald
Julin

'"",,.,..,,t:e r.t
r~~_.t"o~

T. Campbell
C~ Stanley

;r~ ~.:
'-",
\'

A.r.I
I

~
:\

.
1. Estudo de um nico caso sem controle

Delineamentosexperimentais
,e qua~e-expe~imentais
,de pesquisa

Muitas pesquisas educacionais, em n~ssos dias, seguem o modelo


em que um nico grupo estudado apena'S uma vez, em seguida a
algum agente ou tratamento presumivelmente capaz de causar mudana. O diagrama de tais estudos pode ser o seguinte:

~l(lV~~:e~~6~.'e)~

.1

\':i
Traduo de

"

:231-0

Renato Alberto T.' pio Dio'


U. F. M. G. - BIBLIOTECA UNIVERSITRIA

O(

O~

t
'\

([;;;.tt.-/cit
111111I111111111I1111111111111111I111

~::
.1

18913138709

"
\;~

NO DANIFIQUE ESTA ETIQUETA

O~\j06'

E.P.U.

j
't
II
I
f.I

Editora Peaggi~a e Universitria Ltda.

EDUSP - Editora da Universidade de So Paulo


So ~aulo

Como tem sido salientado (p~ ex., Boring, 1954; Stouffer, 1949),
tais estudos ressentem-se. de uma to completa falta de controle a
.ponto de no possurem quase nenhum valor cientfico. O delineamento aqui introduzido como um ponto de referncia mnimo. No
obstante, devem ser feitos alguns comentrios a seu respeito em
razo do contnuo investimento em tais estudos e das inferencias
causais que deles se tiram. O processo de comparao, de anotao
de ~ferenas ou de contraste essencial evidncia cientfica (e a
todos os processos de diagnstico do conhecimento que incluem a
retina do olho). 'Qualquer aparncia de conhecimento absoluto ou.
de conhecimento intrnseco acerca de objetos singulares isolados
resulta ilusria aps a anlise. A evidncia cientfica exige pelo
menos uma comparao; para que tal comparao possa ser til,
ambos os lados dela 'devem ser tratados com o mesmo cuidado e com
a mesma preciso.
Nos estudos de caso representados pelo Delineamento 1, uma
nica instncia cuidadosamente estudada implicitamente comparada
com outros eventos- observados e lembrados casualmente. As infern<:iasbaseiam-se na expectativa geral do que os dados teriam sido, caso
X no tivesse ocorrido, etc. Tais estudos freqentemente envolvem
coleta tediosa de pOImenores especificos, observao cuidadosa, apli.
cao de testes e operaes semelhantes, envolvendo, em tais instncias, o erro de precistio mal empregada. O estudo seria muito mais
13

I
,li

r-

.,

valioso, se um conjunto de observaes r~ reduzido pela metade


e o esforo poupado. dirigido. ao estudo, igualmente ponnenorizado,
de uma instncia comparativa apropriada. Parece quase um dc:sres.peito tica, em nossos dias, aceitar estudos de caso dessa natureza como teses ou dissertaes. em educao (ou seja, estudos que
envolvam um nico grupo observado apenas uma vez). Testes "padronizados" em tais estudos de caso proporcionam apenas um auxilio
muito limitado, uma vez que as fontes rivais de diferena que no X
so to numerosas a ponto de tomar o grupo de referncia "padro"
quase intil como "grupo de cpntrole". Pela mesma razo, as muitas
fontes de diferena no controladas .entre o presente estudo de caso
e os potenciais estudos futuros, que possam ser comparados com ele,
so to numerosas que eliminam as esperanas de se criar um
quadro de refer~cia para futuros estudos. De inodo. geral, seria
melhor canalizar o esforo descritivo nQ sentido de distribu-lo entre
ambos os lados de uma, comparao interessante.
O Delineamento I, se tomado em conjuno com as comparaes
do "conhecimento comum" impl1cito, padece do Diaior nmero de
fraquezas de cada um dos delineamentos subseqentes. Por esoarazo,
o enunciado de tais fraquezas ser deixado' para as ocasies mais
especificas.

2. Pr.teste e ps-teste aplicados a um grupo


Embora esse delineamento ainda seja largamente usado em pesquisa educacional e embora seja considerado to melhor do que o
Delineamento I, a ponto de ,ser tido como aceitvel quando nada
melhor possa ser feito (ver a discusso ds planos quase-experimen.
tais adiante), aqui introduzido como um "mau exemplo" parailus-'
trar diversas das variveis estranhas "confundid~s" capazes de comprometer a validade interna. Essas variveis oferecem hipteses plausveis para explicar uma diferena 01
O2, rivalizando. com a hiptese de que ?' causou a diferena:
01
X
OJ!'

A primeira dessas hipteses rivais no controladas histTia.


Entre 01 e O2 muitos outros eventos produtores de mudana podem
ter. ocorrido alm do X. do experimentador. Se o pr-teste (01) e o
ps-teste (02) foram aplicados em dias diferentes, ento os eventos.
intercorrentes podem ter causado a diferena. Para tomar-se uma
hiptese rival plausivel, tal evento deve ter oconido maioria dos
1.4

es.tudantes no grupo estudado, ou seja, em alguma outra aula ou


atravs de uma notcia amplamente divulgada. No estudo de salade-aula de CoIlier (realizado em 1940, mas comunicado em 1944),
enquanto os estudantes estavam lendo materiais da propaganda
nazsta, a Frana capitulou; aS mudanas de atitude obtidas parece.
r,am mais 'provavelmente ser o resu1i:ado desse evento do que da
prpria propaganda.4 Histria toma.se uma explanao rival. de
mudan.a. mais plausvel quanto maior for o lapso de tempo entre
01 e-0J! e pode ser encarada como um problema trivial num experimento realizad~ num perodo de uma ou duas horas, embOr devam
ser, mesmo nesse caso, levad~ em conta fontes estranhas tais como
. risos, distraes, "etc.~ relevante para a varivel histria a condio
de isolamento e"pe~imental, que pode ser quase alcanado ~m muitos
laboratrios de cincias fsicas a ponto de tomar o Delineamento 2
aceitvel para muitas .de suas pesquisas. Em pesquisa sobre mtodos
de ensino quase nunca se pode'presumir um isolamento experimental
efetivo. dessa natureza. Por essas razes consta um sinal menos no
cruzamento do Delineamento 2 e Histria na Tabela 1. Classificare..
mos como histria um grupo de possveis efeitos de estao ou de programao d~_eventos institucionais, embora tais efeitos possam .tambm ser rotulados de maturao. Assim, otimismo pode variar com
as estaes do ano e ansiedade com o horrio dos exames semestrais
(p. ex., Crook,. 1937; Windle, 1954). Tais efeitos podem produzir
uma mudana 01
O2 suscetvel de ser confundida com o efeito
deX.

Uma segunda varivel ou classe de variveis rival designada


por maturao. Esse termo aqui usado para cobrir todos aqueles
processos bi~lgicos ou psicolgicos que variam sistematicamente com
a passagem do tempo, independentemente de eventos externos espedficos. Assim, entre 01 e O2 os estudantes podem ter ficado mais
velhos, mais fami-ntos, mais. cansados, mais aborrecidos, etc., e a diferena obtida pode refletir esse processo mais do que X. Em educao
remedial, que visa a pessoas excepcionalmente carentes, um processo
de "remisso espontnea", anlogo cura de uma ferida, pode ser
confundido com o efeito especifico do tratamento X. (No preciso
dizer que tal remisso no encarada como "espont~nea" em qualquer sentido causal, mas representa os efeitos cumulativos de processos
de aprendizagem e as presses ambientais da experincia diria total,
que estariam opera~do, ainda que X no tivesse ~do introduzido.)
4 Collier usou, na realidade, um plano mais adequado do que esse, designado
Delineamento 10 no presente sistema.
IS

~_.~_

,.

-o..

.__

'"

Tabela I. Fontes de invalidade para Delineamentos 1 a 6.


Fon~s de invalidade
Interna
Externa
o
~
'fi.
u .
S!
'to
o"
'" 'fi.

Delineamentos
tais:

2. Pr-teste e ps.teste a um
grupo
O
X
O

3. Comparao de grupo esto


tico

.
.

'e.

.! 11~
:a ~

~ a :I~
!i.E
.5fo.5.. u .5.g.

- -

- -

- ---

?+ + -

+ ++

.,....

j'

+++++++

O
.

primeira vez (p. ex., Anastasi,1958,pp. 190-191;Cane e Heim,


1950). Tais efeitos, equivalentes a uma faixa de trs a cinco pontos
de Q. I., em mdia, para os sujeitos no habituados a testes, .ocorrem
sem qualquer instruo relativa a escores ou itens. perdidos no. primeiro teste. Efeito semelhante observado em testes de personalidade: os segundos testes .mostram, em geral, melhor ajustamento,
.embora tenha sido encontrado ocasionalmente um efeito altamente
significante na direo oposta (Windle, 1954). Quanto a atitudes
em relao a grupos minoritrios, um segundo teste pode mostrar
mais preconceito, se bem que a evidncia seja bem leve (Rankin e
Campbel1; 1955). Obviamente, condies de anonimato, maior con~
cincia de qual resposta seja socialmente aprovada, etc., tudo isso
pode influir na direo do resultado. No que se refere a itens de
preconceito .sob condies de anonimato, o nvel de adaptao criado
pelas afirm.es hostis apresentadas pode induzir ~ expectativas do
estudante p~a os tipos de atitudes que so tolerveis na direo de
maior hostilidade. Num inventrio de personalidade ou ajustamento
assinado,. a aplicao inicial participa de uma situao de sol1~
o de problema em que o estudante tenta descobrir o objetivo disfarado do teste. Feito isso (ou aps ter discutido com seus amigos
sobre suas respostas a alguns dos itens bizarros), passa a saber melhor
como apresentar-se de forma aceitvel na segunda vez.
Afim ao problema dos deitas da testagem h a considerar a
distino entre as medidas potenciais quanto sua reatividade. Ser
esse um tema importante ao longo deste captulo, na medida em que
se fizer uma exortao geral ao uso, sempre que possvel, de medidas
no-reativas. De h muito tem sido um trusmo nas cincias sociais
o de que o processo <Jemedida pode mudar o que e.st sendo medido,
O ganho teste-reteste seria um importante aspecto de tal mudana.
(Outro, a interao. de testagem e X, ser discutido adi:Ulte,quando
se tratar do Delineamento 4. Alm disso, importante evitar essas
r~aes ao pr-teste, ainda quando ocorram diferentes efeitos p.ara
examinandos diferentes.) O efeito reatiyo pode ser esperado toda vez
que o processo de testagem seja em si mesmo mais um estmulo mudana do que um registro passivo de comportamento. Assim, num
experimento sobre terapia para controle de peso, a pesagem inicial
pode, por si s, constituir-se num estmulo reduo de peso, mesmo
sem o tratamento teraputica, Analogam~te,. a..colocao de.obser-

-- -

.....

AuMnticos delinelJmentos
experimentlJis:
4. Pr-teste e ps-teste a grupos experimental e de controle
casuais .
O

..ti 'Qftt
'0

.-----.
o

pr.Experimen.

1. .Estudo de um nico caso


sem controle
X
O

~ :a
.!:
.. lUa

4.1 4.l
~
'Q 'Q"".... -8
o~ o
of
~ 'e.::s
'fi.
"'~
..'" I::!.. I!

~ 5 ,o
'Cfc.oS;o:=
~
fi
1:.
._. B
ftt ri '" u _ o :Ia
s:::
11:: ::!! I-< ~ ~ ~ ::!! .....

E ~'~

,,:1
"'u

o
~
'"

Uma terceira .explanao rival "confundida" o. efeito de testagem - o efeito do' prprio pr-teste. Em testes de desempenho e
~te1igncia, estudantes submetidos ao teste pela segunda vez ou
submetidos a uma forma paralela do teste, etc., conseguem usualmente melhores resultados do que os que se submetem ao teste pela

5. Delineamento
de quatro
grupos de Solamon
A
O
X
O
A
O
O
A
O
A
O
6. Delineamento com grupo
de controle e s ps-teste
A
X
O

++++++++

+ + + ++ + + +

Nota: Nas tabelas, um sinal menos indica uma fraqueza indiscutfvel, um sinal
mais indica que o fator controlado; um ponto de interrogao indica uma
possvel fonte' de preocupao, e a ausncia de sinal indica que o fator no

relevante.

...

. com. extrema relutncia que essas tabelas sinticas so apresentadas porque


podem ajudar "demais" e servir de referncia bitoladora ao invs de ensejar
uma exposio, no texto, mais complexa e qualificada. Nenhum sinal
ou
deve ser respeitado a no ser que a leitor. compreenda por que foi colocado ali.
Em particular, contra o esprito deste trabalho criar temores ou confiana.
irracionais em delineamentos especlficos.

16

17 .

r-

F'=..

..-.

.,

correlacionam 0,50, sem qJ1alquer mudana na mdia ou variabilidade


do grupo. (Os dados foram selecionados' de modo que tomassem
bvia, inspeo ocuIar, a pOsiodas'mdidas das linhas e das colunas. O valor 0,50 foi tambm escolhido por comodidade de apresentao.) Nesta instncia hipottica, 'nenhuma mudana verdadeira
ocorreu, mas, como de costume, os escores falveis do teste mostram
uma correlao com o reteste consideravelmente menor do que a
unidade.'.se, como o sugere o exemplo iniciado na pgina anterior,
come!~~os por olhar apenas para os escores muito baixos no pr-

vadores, na sala de aula, para observarem.o treinamento prvio de


professores em relaes humanaS pode, por si, mudar o mtodo de
disciplina 40 professor. A presena de um microfc;me sobre a mesa
pode mudar o padro de interao do grupo, etc. Em geral, quanto
mais nova e motivadora a. tcnica do teste, mais de se esperar que
seja reativa.
1nstrumentao ou "desgaste do instrumento"
(Campbell, 1957)
o termo usado para in<l:icar uma quarta hiptese rival no controlada. Refere-se o tenno a mudanas. autnomas no instru~ento

de medida que possam ser responsveis por uma diferena 01


O2,
TaiS mudanas seriam anlogas distenso ou fadiga de balanas,
de molas, condensao numa cmara de nuvem, etc. Toda vez qu~
obset'v.fdores humanos forem usados para fornecer 01 e O2, diferenas entre 01 e O2 sero prodUzidas nos observadores pelos processos
de aprendizagem, pela fadiga, etc. Qu-ando se tratar de corrigir provas
de dissertao, os padres de atribuio de notas podem mudar,
entre 01 e O2 (sugeri~do a tcnica de controle de embaralhar as
dissertaesde modo a seremcorrigidas sem"o conhecimentodo momento em 'que foram feitas). Se o que est s'endo observado a participao, na sala de aula, ent~o os' observadores podem estar mais
habilitados ou mais blass, na segunda ocasio. Se os pais estiverem,
sendo entrevistados, a familiaridade do, entrevistador com 'o roteiro\
, da entrevista e com certos pais pode produzir. alieraes. Uma nu~-'
dana nos observadores entre 01 e O. p9der;ia causar a diferena.
.Uma quilta varivel .confundida em al~as
inst~cias do Delineamento 2 a r~gresso.estatstica. Se, por exemplo, num experimento de recuperao, so relacionados esttidantes para um tratamento experimental especial, porque obtiveram 'escores muito baixos
num t~ste de desempenhb (que se .toma, para eles 01); ento, num
teste subseqente que se .utilize de forma paralela ou que repita a
mesma prova, O2 para esse grupo alcanar, quase coio certeza, .mdia
superior de 01, Esse resultado fidedigno no devido a qualquer
genuno efeito de X, a qualquer efeito de prtica decorrente do
teste-reteste~ etc. , isso sim, um aspecto tautolgico da correlao

~inh8de
E!icpres
no

Escores no ps-teste ~
;

pr-teste

!! 2 !!! 11 li

11
12

1.

11

i.2

~1

2""'~;;

! ;/1
(D'.o

"1n

,-

!!!
8

'.,

ln

Mdia

-o

10,5
10,0
9,5

C>

o.u.

do pr-teste para o ps-teste.

11,5,
11,0

1~

~!t"'2"

4'" 3

Linha .de regresso c


mostrando 8 melhor predio
do ps-teste para. o pr-teste

Figura IIl. Disperso de freqiincia de escores'no ps-teste para cada classede


escoresno, pr-teste. .
Pr(!dio

De grupos homogneos
no pr-teste,

--+

13
12

Predio

Para mdia

Para mdia

no p6s-teste

no pr-teste

11 ,~

imperfeita entre 01 e O2, Porque erros de inferncia devidos ao

10

10

esqueciment~ dos efeitos de regresso tm causado. tanta confuso em


pesquisa 'educacional, porque a. compreenso fundamental de sua'
natureza to freqentemente' equivocada mesmo por estudantes
que tenham feito cursos avanados em estatstica moderna e porque

ciais em 'que o pr-teste e o ps-teste de uma inteira populao se

18

Figura

ps-teste.

.-

1b:

;Fig'ura1c

Figura 1. Regresso na predio


vice- versa.,
.

De grupos homogneos

+--no

.~;.~

11

em discussesfuturas (p. ex., sobre o Delineam'ento10e a anlise ex


post facto) presumiremosessecorihecimento, aqui repetida uma ele-mentar e antiga exposio. A Figura I apresenta 'alguns dados artifi-

regresso b

mostrand~ a melhor pr'7di~o

11 no ps-leste

l/I!
2
I

..a

1
1

,";--

de escores no' ps~teste a partir

do pr-teste e
.

19

..-

f
1

mais alto no teste de aproveitamento (embora bem alto) e que seus


estudantes de Q. I. mais baixo no se situam na extremidade inferior
da distribuio dos escores. do teste de aproveitamento (embora
obtenham escores baixo~) seria responsvel pela falcia da regresso,
se declarasse que sua escola desestimula os estudantes brilhantes e
inceritiva os fracos. Se selecionasse os estudantes includos no
grupo extremo superior e no grupo extremo inferior do teste de
desempenho e fosse verificar seus respectivos Q. I., seria for~do,pela
mesma ilgica, a concluir o contrrio.

teste, por exemplo, para os escores 7, e procurarmos somente os escores desses estudantes no ps-teste, encontraremos os escores dispersas,
mas em geral mais elevados e em mdia "regredidos" meio quninho
(ou seja, a regresso ou. coeficiente de correlao 0,50) rumo mdia
do grupo, resultando uma mdia de 8,5. Mas ao invs de ser isso uma
prova de progresso uma reafirmao tautolgica de correlao
imperfeita e de seu grau.
.

Porque houve decurso do tempo e ocorreram eventos entre o

pr-teste e o ps-teste, tem-se a tentao de relacionar causalmente


essa mdana com a direo especifica da passagem do tempo. Notese, porm, que uma anlise temporal inversa possvel neste caso:
se comearmos com aqueles cujos escores no ps-teste foram 7 e observ~os sua disperso no pr-teste, chegaremos a uma concluso oposta,
ou sej, que os escores no ps-teste pioraram. As inferncias causais
mais equivocadas ocorrem quando os dados. so apresentados na
forma da Figura. lb (a poro superior ou inferior de lb). Aqui o
brilhante parece tornar-se mais fraco e o fraco mais brilhante,
como que sob o efeito imbecilizante ou homogeneizantede
um
ambiente institucional. Enquanto essa errnea interpretao implica
que a variabilidade da populao no ps-teste deveria ser. menor
do que no pr-teste, as duas variabilidades so na realidade iguais.
Alm disso, procedendo anlise apenas com os grupos de escores do
ps-teste (como na linha de regresso c e na Figura lc), poderemos
tirar a inferncia oposta. Como foi frisado por McNemar (1940),0
uso de anlises de controle temporalmente. invertidas e o exame
direto de mudanas em variabilidades da populao so precaues
teis contra tal equIvoco.

Embora tenha sido discutida aqui em termos de erros de medida, a regresso mais geralmente uma funo do grau de correlao;
quanto menor a correlao, maior a regresso rumo mdia. A falta
de correlao perfeita pode ser devida a "erro" e/ou a fontes sistemticas de varincia espedfica a uma ou outra medida.
Os efeitos da regresso so, pois, acompanhamentos inevitveis
de correlao imperfeita de teste-reteste para grupos. selecionados
por sua posio extrema. No so, CC?ntu4o,concomitantes neces.
srios de escores extremos onde quer que, sejam encontrados. Se um
grupo, selecionado por 'motivos independentes, resulta possuir uma
mdia extrema, existe menor expectativa a priori de que a mdia do
grupo regrida num segurido teste, uma vez que as fontes de varincia
aleatrias ou estranhas tiveram liberdade de afetar os escores iniciais
em ambas as direes. Mas no esse o caSode um grupo selecionadC)
por causa de sua posio extrema numa vrivel falvel. Sua extre.
midade artificial eregredir rumo mdia da populao de que
foi extrado.

Pode-se encarar a regresso rumo mdia sob ponto de vista

correlato. Quanto Qlais extremo' o escore, maior o erro de medida


provavelmente por ele contido. Assim, num sentido, quem tiver
tipicamente obtido um escore extremamente alto t~r tido uma
"sorte" fora do comum (grande erro positivo)' e quem tiver conseguido um escore extremamente baixo ter sido prejudicado pelo
"azar" (grande erro negativo). Como a sorte caprichosa, espera-se,
no ps-teste, que os que alcanaram escores altos declinem algo rumo
mdia e os. que receberam escores baix.os melhorem sua posio
relativa. (A mesma lgica prev~ece se se partir de escores do psteste retrocedendo-se ao pr-teste.)
A regresso rumo mdia um fenmeno ubquo, que no se
limita ao pr-teste e ps-teste com o mesmo teste ou formas comparveis de um teste. O diretor. que observa que seus estudantes possuidores de. Q. I. mais alto tendem a conseguir menos do que o escore

Os efeitos de regresso de um tipo mais indireto podem ser


devidos sel~o de escores extremos em medidas outras que no
o pr-teste. Considere-se o caso de estudantes que foram "reprovados" num exame escolar e .so selecionados para uma recuperao
experimental. Pu Formas A e B de um teste padronizado de aproveitamento so aplic das, respectivamente, como pr-teste e ps-teste.
provvel que o exame escolar apresente correlao mais alta com
a aplicao imediata da Forma A do que com a aplicao da Forma B trs meses depois (se o teste foi aplicado classe inteira em
ambas as ocasies). Quanto maior a correlao, menor a regresso
rumo mdia. Por conseguinte, os 'alunos. reprovados no exame.
feito em aula regrediro para cima menos no pr-teste do que no
ps-teste, apresentando um pseudoprosresso que possa ser infun. dadamente
interpretado como um esforo de recuperao coroado
de xito. (Para mais pormenores em ganhos e regresso, ver Lord,
1956, 1958; McNemar, 1958; Rulon, 1941; R. L, Thomdike, 1942.)
21

20

".---.

Isso conclui a lista de deficincias do Delineamento 2 suscetveis


de ser convenientemente discutidas a esta altura. A Tabela I mostra
a existncia de mais um sinal menos sob. validade interna, em rela-

o a um fator que no ser examinado a~~esda discussodo Deli- .


neamento 10 (ver p. 83) na seo dos esquemas quase-experimentais,
e dois sinais menos sob validade externa, que no sero explicados a
no ser por ocasio da discusso do Delineamento 4 (ver p. 28).
3. Comparao de grupo esttico
O terceiro delineamento pr.experimental til elucidao de
fatores capazes de invalidar a pesquisa a comparao de grupo esttico. esse um esquema em que. o grupo submetido a X comparado com outro grupo no exposto. a X, com o fim de estabelecer o
efeito de X.
.

.................---

01

.~

01
O2 entre grupos, devidas evaso diferencial de sujeitos dos
grupos. Assim, ainda que no Delineamento 3 os dois grupos tenham~
iniciaimente, sido idnticos, podem diferir agora, no porque seus.
membros tenham sofrido individualmente qualquer mudana, mas
em conseqncia da evaso seletiva de pessoas de um dos grupos.
Em pesquisa educacional, esse probJema surge freqentemente em.
estudos tendentes a apurar os efeitos da educao universitria de um
college atravs da comparao de medidas em calouros (que no
foram expostos a X) com medidas em veteranos (submetidos X).
Quando tais estudos mostram que as calouras so mais bonitas que
as veteranas, repelimos a implicao de que nosso intenso curso de
treinamento enfeia e lembramo-nos da menor. proBabilidade que tm
as moas bonitas de concluir o curso porque se casam. Esse feito.
aqui classificado como mortalidade experimental. ( bvio que, se
considerarmos as mesmas moas, quando so calouras e veteranas,
o problema desaparece e temos ento o Delineamento 2.)

62

Instncias desse tipo de pesquisa incluem, por exemplo, a comparao de sistemas escolares q!1e exigep1 professores portadores do
ttulo de bacharel (X) versus sistemas que no fazem essa exigncia:
a comparao de estudantes em classes em que se proporciona treinamento em leitura dinmica versuS classes em que no se verifica .tal
prtica; comparao dos que assistiram a certo programa de TV
com os que no o viram, ete. Em marcante contraste com o "verdadeiro" experimento representado p~lo Delineamento 6, exposto adiante, no h, nessas il1stncias do Delineamento 3, nenhum meio formal
de apurar se os grupos teriam sido equivalentes, caso X no tivesse
sido aplicado. Essa ausncia, indicada no diagrama pela linha tracejada separando os dois grupos, espelha o prximo fator a exigir
controle, isto , seleo. Se 01 e O2 difere~, essa diferena bm
poderia ser conseqncia do recrutamento diferencial de pessoas que.
constituram os grupos: os grupos poderiam ter apresentado difer.~a de qualquer forma, ainda que no tivesse ocorrido X. Como
ser discutido por ocasio da apresentao da anlise ex post facto,
emparelhar os elementos dos dois grupos em caractersticas outras
que no O constitui, regra geraJ, prtica ineficaz e enganosa, especialmente nos casos em que os sujeitos do "grupo experimental" pro~
curaram expor.se a X.
Uma ltima variveJ confundida para esta lista pode ser deno.
minada mortalidade experimental, ou seja, a produo. de diferenas

22

23

.--

----.-.---.

Isso conclui a lista de deficincias do Delineamento 2 suscetiveis


de ser convenientemente discutidas a esta altura. A Tabela I mostra
a existncia de mais um sinal menos sob. validade interna, em rela-

01

o a um fator que no ser examinado a9~esda discussodo Deli- .

neamento 10 (ver p. 83) na seo dos esquemas quase-experimentais,


e dois sinais menos sob validade externa, que no sero explicados a
no ser por ocasio da discusso do Delineamento 4 (ver p. 28).
3. Comparao de grupo esttico
O terceiro delineamento pr-experimental til elucidao de
fatores capazes de invalidar a pesquisa a comparao de grupo esttico. esse um esquema em que. o grupo submetido a X comparado com outro grupo no exposto. a X, com o fim de estabelecer o
efeito de X.
.

X
--..-..---....

01

'l

O2

entre grupos, devidas evaso diferencial de sujeitos dos

grupo~. Assim, ainda que no Delineamento 3 os dois grupos tenham,


inicialmente, sido idnticos, podem diferir agora, no porque seus.
membros tenham sofrido individualmente qualquer mudana, mas
em conseqncia da evaso seletiva de pessoas de um dos grupos.
. Em pesquisa educacional. esse problema surge freqentemente
em.
estudos tendentes a apurar os efeitos da educao universitria de um
college atravs da comparao de medidas em calouros (que no
foram expostos a X) com medidas em veteranos (submetidos a X).
Quando tais estudos mostram que as calouras so mais bonitas que
as veteranas, repelimos a implicao de que nosso intenso curso de
treinamento enfeia e lembramo-nos da menor. proBabilidade que tm
as moas bonitas de concluir o curso porque se casam. Esse feito.
aqui classificado como mortalidade experimental. ( bvio que, se
considerarmos as mesmas moas, quando so calouras e veteranas,
o problema desaparece e temos ento o Delineamento 2.)

62

Instncias desse tipo de pesquisa incluem, por exemplo, a comparao de sistemas escolares q'!le exig~ professores portadores do
titulo de bacharel (X) versus sistemas que no fazem essa exigncia;
a comparao de estudantes em classes em que se proporciona treinamento em leitura dinmica ve1'SuSclasses em que no se verifica tal
prtica; comparao dos que assistiram a. certo programa de TV
com os que no o viram, ete. Em marcante contraste com o "verdadeiro" experimento representado p~lo Delineamento 6, exposto adiante, no h, nessas instncias do Delineamento 3, nenhum meio formal
de apurar se os grupos teriam sido equivalentes, caso X no tivesse
sido aplicado. Essa ausncia, indicada no diagrama pela linha tracejada separando os dois grupos, espeIha o prximo fator a exisir
controle, isto , seleo. Se 01 e O2 difere~, essa diferena bem
poderia ser conseqncia. do recrutamento diferencial de pessoas que
constituram os grupos: os grupos poderiam ter apresentado dife:r:~a de qualquer forma, ainda que no tivesse ocorrido X. Como
ser discutido por ocasio da apresentao da anlise ex post facto,
emparelhar os elementos dos dois grupos em caractersticas outras
que no O constitui, regra geral, prtica ineficaz e enganosa, especialmente nos casos em que os sujeitos do "grupo experimental" pro~
curaram expor-se a X.
Uma ltima varivel confundida para esta lista pode ser denominada mortalidade experimental, ou seja, a produo. de diferenas

22

23.

r-

...

Trs autnticos delineamentos experimentais

r
;..

t...;'

'

Os trs delineamentos bsicos de que trata esta seo so os plan~ correntemente recomendados na literatura metodolgica. Sero
tambm os.planos mais enfaticamente recomendados. nesta apresentao, ainda que este endosso esteja sujeito a muitas qualificaes. especificas relativas prtica usual e a alguns sinais menos, sob as colunas
da validade externa na Tabela 1. O Delineamento 4 o mais usado
dos trs e, por essa razo, sua apresentao ser-desproporcionalmente'
extensa, uma vez que ensejar discusses mais geralmente aplicveis.
Note-se que todos os trs planos so apresentados em termos de um
nico X comparado' com noX. Delineamentos com mais numerosos
tratamentos, na tradio do .experimento fatorial de Fisher, representam elaboraes importantes que tangenciam o fio condutor deste
capitulo e so discutidos' ao trmino desta seo, em seguida ao
Delineamento 6. Mas tal perspectiva pode servir para lembrar-nos, a
esta altura, de que a comparao de X com no X uma supersimplificao. A comparao faz-se, na realidade, com as atividades
especificas do grupo de controle que ocuparam o periodo de tempo

correspondente quele em que o grupo experimental recebia X.

t
tI

Assim, a comparao poderia, mais propriamente, ser entre Xl e XCI


ou entre Xl e Xo ou entre Xl e' X2. O fato de que essas atividades
do grupo de controle so freqentemente no especificadas empresta
uma indesejvel cunbigidade interpretao da contribuio de X.
Tendo esses comentrios em mente, obedeceremos, nesta seo,
conveno grilfica de apresentar 91oX no grupo de controle.
4. Pr-teste e ps-teste aplicados a grupo experimental e a grupo
de controle aleatrios (The pretest.posttest contraI gToup design)
Controles de .validade interna
Uma ou outra das consideraes. anterior~ levaram os pesquisadores das reas psicolgica e educacional, entre 1900 e 1920, a
25

acrescentar um, grupo de controle ao Delineamento 2, criando assim o


atualmente ortodoxo plano com grupo de controle. M<:CalI (19211),
Solomon (1949) e Boring '(1954) tm-nos oferecido um pouco ,dessa
histria e a perquirio do' Teachers Colle'ge Record relativo a esse'
perOdo mostra que j desde ]912 se fazia referncia a grupos de
y controle sem necessidade de explicao (p. ex., Pearson, ]9]2). Os
./;' delineamentos COmgrupo~ de controle assim introduzidos so clas~:'
f;.,ti sificados neste captulo sob duas rubricas: presente Delineamento 4
}- \'
em que so eIl!.Pregados grupos equivalentes, assim entendidos por
!t'.. '-.. serem aleatrio~ eo DeI~eamento ]0, quase-experimental, em que
soDelineamento
empregados grupos
intactos,
ctlja equivalncia
no assegurada.
O
4 assume
a seguinte
forma:
A . 0lX

O2

04

Da.

Porque este plano controla to nitidamente todas as sete hipteses rivais at aqui descritas, sua apresentao no tem usualmente
expJicitado as necessidades de controle por ele stisfeitas. Na tradio da pesquisa sobre aprendizado, os e~eitos,de prtica de testagem
parecem proporcionar o priD;1eiroreconhecimento da necessidade de
um grupo de controle. Maturao COstumavaser'um foco crtico nos
estudos experimentais em educao, tanto quanto no problema
"natureza-ambiente" dentro da rea do' desenvolvimento da criana.
Em pesquisas sobre ,mudana. de atitudes, como nos primeiros estUdos sobre efeitos de filmes, histdria pode ter sido a principal e forosa considerao. De qualquer forma, parece desejvel discutir aqui
so
controlados.
brevemente
o modo pelo qual ou as condies em que tais fatores
~ Histria controlada na medida em que acontecimentos histricos em geral, que possam ter produzido uma diferena 01 _ 02'
produziriam tambm uma diferena Os - 4, Note-se,todavia,que
muitas pretensas utilizaes do Delineamento 4 (tanto quanto dos Delineamentos 5 ou 6) no controlam a especifica histria interna a cada
sesso. Se 'todos os estudantes aleatoriamente selecionados do grupo
experimental ~o tratados numa nica sesso e, de forma s.emelhante,
os estudantes do grupo de controle em outra nica sesso, ento os
irrelevantes eventos peculiares a, cada sesso (a piada engraada, o
incndio do outro lado da rua, as observaes introdutrias do experimentador, etc.) constituem-se em hipteses rivais QPazes de explicar a diferena 01
O2 versus a dilerena 0a _ 4, Esse experimento no um autntico experimento, ainda quando seja
apresentado como um paradigma ilustrativo, com~, ocorreu com o
26

experimento de Solomon '(1949) sobre o ensino' de ortografia.


(Saliente-se, a bem. da vetdade, que' o experimento de Solomon
fora escolhido para ilustrar um ponto diferente.) O exame de nossa
"melhor prtica" sobre. o assunto, leva-nos a considerar a histria,
interna a cada sesso um pecado venial, mas nossa !'melhor prtica"
tem, muito ,freq.entemente, produzido experimentos no-replicveis,
e essa fonte .de diferenas "significati~as", mas estranhas, pode bem
ser uma falha importante. Ademais, o experimento tpico do Journal
of Experimental Psychology consegue controlar, a histria interna a
cada sesso''porque testa estu,dantes e animais .individualmente e
atribui os. est1;1dantese os penodos experimentais; aleatoriainente,
s condies.exJ!l"rimental e de con~ole. Note-se, contudo, que;' mesmo com sesses-individuais. a 'histria. intern~ pOde deixar de ser
controlada, se todo o' grupo experimental for submetido ao tratamento antes do grupo de controle, etc. O Delineamento 4 exige simultaneidade das sesses experimeI\tal e de controle. Se, de fato, efetuarmos as sess9es simult~neamente, ento ser preciso u~r experimentadores diferentes aas
4ifert':nS entre experimentadores pode
~omar-se -uma forma de histria interna a cada sesso cc>nfundida .

com JC.

. A soluo tima consiste na aleatoriedade_ doasocasies experimentais, com restries tais que garantam representao equilibrada
de fontes de vis altamente provveis, quais sejam, experimentadores,
hora do dia, dia da semana, parte do semestre, pr~ximidade 'de
exames, etc.
expediente comum de tratar os ""Sujeitosexperimentais
em pequenos grupos, ao 'invs de: individualmente, ' -inadmissvel,
se tal agrupamento no for levado em considerao na anlise, estadstica"J.(Ver a seo sobr~ atribuio "de_grupos intactos a tratamentos,adiante.) Etodos. os. includos na "mesma ses~o partilham. da
mesma histria interna e assim possuem fontes de similiuidade outras
que no XJSe tais sesses fo~
atribudas ao acaso, o tratamento
estatstico correto o me~o que ser discutido a seguir quanto

~,

f
t;
~
~
1
li
15
~,
n
h'
'11
li
i',
-a
..,1,.
h
UI
~i

atribuio d~ classesintactaSa tratanientos~(Em certos estudossobre


testagem de giupos~' os vrios tratamentos' experimentais' podem: ser
aleatoriamente distribudos dentror. de um grupo ~ace-a-face; como
oc~rre quando se usam formas d~ teste mltiplas; num estudo do
efeito da ordem de dificuldade de itens. Em tais casos, as "especificidade~ de histria interna so comuns a ambos os tratamentos e ~o
se constituem em }ptese rival plausvel, susCetvel de ser confundida com X na explicao das diferenas. obtidas.)
Maturao e testagem so controldas sempre que se manifestem
igualmente nos grupos experimental e de controle. Instrumentao
facilmente controlada desde que sejam controladas as condi~
27

'

,1

para o controle de histria interna. particularmente quando o O


obtido atravs de respostas de estudantes a um instrumento fixo
como o teste impresso. Quando so usados observadores ou entrevistadores. todavia, o problema toma-se mais srio. Se os observadores forem em nmero to reduzido, que no possam ser atribudos
aleatoriamente observao 4e cada sesso, ento no s cada ,observador dever ser usado em ambas as sesses, a experimental e a de
controle, como tambm os observadores devero ser mantidos na
ignorncia de quais estudantes estejam recebendo quais tratamentos,
a fim de que seu conhecimento no viese suas avaliaes ou registros.
Que tais vieses sejam "confiveis" fontes de varincia confirmado
pela necessidade, em pesquisa mdica, do segundo cego no experimento duplo cego., como decorre de pesquisa recente (Rosenthal, 1959) e de estudos mais antigos (p. ex., Kennedy e Uphoff,
1939; Stanton e Baker, 1942). O uso de registros de interao de
grupo, de tal sorte que juizes possam avaliar uma, srie de sees
aleatrias de transcries de pr-teste, ps-teste, de grupo experimental e de controle, ajuda a controlar a i~struo em pesquisa sobre
comportamento em sala de aula e sobre interao de grupo.
Regresso controlada no que se refere a diferenas de mdias,
independentemente de quo extremo se ache o grupo nos escores do
pr-teste, desde que ambos os grupos, experimental e de controle,
sejam selecionados aleatoriamente da mesma populao. Em tal
caso, o grupo de controle regride tanto quanto o grupo experimental;
todavia, mesmo sob as condies do Delineamento 4. ocorrem freqe~temente lapsos de interpretao devidos aos efeitos artificiais da
regresso. Um experimentador pode empregar o grupo de controle
para confirmar os efeitos mdios do grupo causados por X e, em seguida. abandon-Io ao examinar, dentro do grupo experimental, quais
subgrupos de escores no pr-teste foram mais influenciados. Se o grupo inteiro mostrou um ganho, ento ele chega concluso to estimulante quo artificial de que os que inicialmente se achavam na c;xtremidade inf~rior ganharam mais e os que inicialmente se situavam
na extremidade superior talvez no tenham tido nenhuma melhora.
Tal resultado proporcionado porque, sob condies de ganho mdio
do grupo total, o efeito artificial da regresso suplementa o escore
ganho pelos que no pr-teste se achavam :"baixo da mdia e tende a
cancel-Io para os que no pr-teste se situavam acima. (Se no houvesse ganho no cmputo geral. ento o experimentador poderia falsamente "descobrir" que isso teria sido devido a dois efeitos que se can o experimento"duplo cego" aqueleem que tanto quem.aplicao tratamentO
quanto quem o recebe ignoram que est sendo realizado um experimento. Nota
do Tradutor.

celarammutuamente, fazendocom que os escoresbaixossubisseme os


altos baixassem.) Uma precauo para evitar' tais erros de interpretao consiste em efetuar an'1isesparalel~, de sujeitos que obtiveram
escores extremos no pr-teste, ~o grupo de controle. e basear as
interpretaes de ganho diferencial em comparaes dos escores do
ps-teste obtidos pelos respectivos s~bgrupos do pr-teste dentro do
grupo experimental e de controle. (NQte-se, contudo, que, nesse caso.
distribuies assimtricas resultantes de seleo tomam as estatsticas
da curva normal de duvidosa aplicao.)

i;"

I'

Seleo, eWninada como uma explicao da diferena'"na medida em que a aleatoriedade garantiua igualdade dos grupos ao
tempo . Tal n,edida a medida propiciada pelas nossas estatsticas
de amostragem. Assim, a garantia de igualdade maior para grandes
do que para pequenos nmeros de atribuio aleatria. Na extens,o
indicada pelo termo do erro para a hiptese de no-diferena. essa
pressuposio ser ocasionalmente errada. No Delineamento 4, isso
significa que haver. oCasionalmente, uma ~ferena aparentemente
"significativa" entre os escores do pr-teste. Assim, se certo que a
amostragem casual simples ou estratificada garante a atribuio no
viesada de sujeitos experimentais .grupos, no menos certo que se
trata d~ um meio imperfeito de assegurar a equivalncia inicial de
e o meio essencial
tais grupos. No obstante, o nico meio
,de faz-l,o.Esta afirmao feita to dogmaticamente por causa da
generalizada e enganosa prefer~ncia. em pesquisa educacional, nOIl
ltimos trinta anos, pela equalizao atravs de emparelhamento
(matching). McCall (1923) e Peters e Van Voorhis (1940) ~judaram
a perpetuar esse equivoco. Como ser explicado mais pormenorizadamente durante a disCusso do Delineamento 10 e da anlise ex post
facto, o emparelhamento no constitui um auxlio real qUando usado
para corrigir difere~~ iniciais de grupos. Com isso no se quer
eliminar o emparlhainento como um adjunto aleatoriedade, c9mo
ocorre quando se ganha preciso estatstica, quando, em seguida.
um membro de cada par atribudo aleatoriamente a um grupo
experimental e outro ao grupo de ,controle. Na lite~atura estatstica isso conhecido como constituio de blocos (blocking).
Ver particularmente as discusses de Cox (1957). Feldt (1958) e"
Lindquist (1953). Mas emparelhamento ,como substituto de aleatoriedade inadmissivel mesmo para os planos quase-experimentais

com apenas dois grupos naturais intactos um experimental, outro


de contr~le: mesmo nesse "fraco" experimento h ,melhores meio~,
do que emparelhamento para tentar corrigir as diferenas iniciais
entre
de duas amostras.
. 'mdias
.,
, 29

28

.
,,--~

Com os dados que o Delineamento 4 toma disponveis posslvel


dizer se mortalidade oferece uma explanao plausvel para o
01 - O2, Mortalidade, casos perdidos e casos em q1,1ese obtm
apenas dados parciais so difceis de interpretar e acabam, omumente, varridos para baixo do tapete. Tipicamente, experimentos
sobre mtodos de ensino estendem.se ao longo de dias, semanas ou
meses. Se os pr-testes e os ps-testes so aplicados nas salas de aula
de que fOram extrados- o grupo experimental e o grupo de controle
e se a condio experimental requer comparecimento a certas sesses.
ao passo que a condio de controle no o exige. ento o comparecimento diferencial em trs ocasies. (pr-teste, tratamento e psteste) produz "mortalidade" capaz de introduzir sutis vieses amostrais. Se, dos membros iniciais do grupo experimen~aI. eliminarmos
os que deixarem de comparecer s sesses experimentais, ento o
grupo experimental seletivamente encolhido de uma forma no
comparvel do grupo de controle. viesando o grupo experimental
na dire9 do grau de responsabilidade e de sade. O processo preferido de tratamento; apesar de no ser comumente usado, seria incluir
todos os estudantes selecionados. tanto do grupo experimental quanto
do grupo de controle, que tenham feito o pr-teste e o ps-teste,
incluindo os sujeitos do grupo experimental que deixaram de receber' X. Esse processo atenua, obviamente; o efeito aparente de X,
mas elimina o vis amostral. Esta providncia repousa na pressuposio de que no ocorreram vieses de. mortalidade mais simples; tal
press~posio pode ser parcialmente testada atravs .do exame do
nmero e dos escores no pr-teste dos que compareceram ao pr-teste,
mas no ao ps-teste. t P?ssvel que alguns XX afetariam esse ndice
de evaso mais do que a mudana dos escores individuais. Naturalmente, mesmo quando os ndices de evaso forem os mesmos, permanecer a possibilidade de complexas interaes que podero fazer
com que difira a natuteza. dos evadidos nos grupos experimental e
de controle.
O problema da mortalidade pode ser visto' de um modo. grandemente exagerado no estudo do tratamento de recuperao convidado. Aqui, por exemplo, uma amostra de alunos com dificuldades
de leitura, numa escola secundria, convidada a participar de aulas
voluntrias de recuperao, ao p~so que um grupo equivalente no
convidado. Do grupo convidado, talvez 30% participem. Os escores
do ps-teste, conio os do pr-testc, provm de testes padronizados
de desempenho de leitura aplicados a todos em salas de 'aula. No
cabvel comparar os trinta por cento voluntrios com. o total do
grupo _de controle, porque eles representam os mais afetados por
seus escores no p,r.teste, os que tm maior probabilidade de' auto30

"
.~
,

ap~feioamento, etc., mas impossvel identificar sua exata contraparte no grupo de controle. Embora.. parea tambm pouco equitativo para a hiptese de eficcia teraputica comparar to~o o grupo
convidado com todo. o grupo' .no convidado, . essa uma soluo
aceitvel, ainda que. conservadra..~ote-se, todavia, a possibilidade
de que o prprio co~vite, mais. do que a u~rapia, venha a causar o
efeito. Em geral, o grupo de controle n~o convidado deveria ser
denti~cado, tanto quanto o convidalo, 'de sua posio' no pr-teste.
Outra alternativa convidar todos os que precisam de aulas de
recuperao e incluir os que atendem em dois grupos de tratamento
remedial: verdadeiro e placebo; mas, na presente situao, qualquer
terapia simulada (placebo) que seja to plausvel a ponto de'se
apresentar como -capaz de auxiliar o estudante/acabar sendo uma
terapia to boa quanto o tratamento que estamos estudando. Note-se,
contudo, a implicao vlida de que testes experimentais da ~lativa
eficcia de dois processos teraputicos so muito. mais fceis de
avaliar do que a absoluta eficda de. cada um. A nica soluo efetivamente prtica consiste em 'criar grupos experimental e de controle
a partir de pessoas que procuram tratamento de recuperao, atravs
d manipulao dos perodos de espera. (p. ex., Rogers e Dymond,
1954). Isso, como natural, cria por vezes outras dificuldades, como,
por ~xemplo, uma excessiva c:vaso no grupo de controle da terapia
adiada. Quanto ao emprego bem sucedido e aparentemente noreativo de um sorteio para decidir sobre um curso de recuperao de
leitura imediato ou adiado, ver Reed (1956).
Fatores que comprometem a validade externa
Os fatores de invalidade interna descritos at. aqui foram fatores capazes de afetar diretamente os escores O. Tratou-se de fatores
que, por si ss, poderiam. produzir mudanas suscetveis de serem
erroneamente tomadas como resultados de X, ou seja, fatores' que,
uma vez acrescentado o.grupo de co~trole, produziriam efeitos mani- '
{estados, por. si me~mos; nesse grupo e acrescentados aos efeitos de
X no grupo experimental. Na linguagem de anlise de varincia,
histria, maturao, testagem, etc. foram descritos. como efeit6s principais e, .como tais, fQram controlados ~o Delineamento 4, garan,tindo::'
lhe validade interna/As ameaas validade externa, de outro lado,
podem sei denQmina,das de. efeitos .de interao, envolvendo X e
algUma outra varivel. Elas representam, pois, uma especifidda:de
potencial dos efeitos de X a algum indesejvel conjunto de condies. guisa de antecipao: no Delineamento 4; por tudo o que
sabemos, os efeitos observados de X podem ser espedficos aos grupos
"esquentados" pelo pr-teste. Logicamente, no podemos generalizar
31

..--....-...-.......---

ao mais amplo universo n.o pr-testado a respeito do qual gostaramos de poder falar.
.

DiscutiremoS';nesta seo, vrias dessas ameaas generaliza-

bilidade e os processos tendentes a reduzi.las. Assim, desde que existem vrios esquemas que eliminam o pr-teste e desde que, em muitos
contextos (mas no necessariamente em pesquisa sobre ensino), a
grupos no pr-testados que se quer generalizar, tais. delineamentos
so preferidos sob o fundamento de que preservam' a validade externa
ou genera~bilidade.
Na rea do ensino, as dvidas freqentemente
levantadas sobre a aplicabilidade, na prtica efetiva, dos resultados
de experimentos altamente artificiais so juizos sobre validade
externa. A introduo de tais conside.raes na discusso de planos
experimentais timos causa uma reao emocional no praticante
que acha, com razo, que tais consideraes tm. sido indevidamente
negligenciadas na maioria dos tratados formais sobre metodologia
experimental. A discusso seguinte sustentar esses pontos de vista,
indicando numerosos meios de tomar os experimentos mais externamente vlido.s e criando bases mais apropriadas de generalizao
para a prtica de ensino, sem perder validade interna~
Mas antes de entrar em tal discusso, necessria uma precau.

o. Essa precauo introdUz alguns problemas penosos na cincia

f'

da induo. Os problemas so penosos por causa da persistente relu( tncia em aceitar o trusmo de Hume de que a i-nduo ou genera-

I lizao

nunca

\ Enquanto

se justifica

plenamente

do ponto

de vista lgico.

os problemas de validade 'interna so solveis dentro-'dos


/limites da lgica .da estastica de probabilidade, os problemas de
I validade
externa no so solveis de forma ntida e conclusiva, A
generalizao sempre acaba envolvendo extrapolao a um campo
no representado na amostra. Tal extrapolao feita pela suposio de que se conhecem as leis relevantes. Assim, se algum armar
um Delineamento 4 intemamente vlido, ter demonstrado o efeito
I somente para aquelas condies especficas q~e os grupos experii mental e de controle tm em comum, ou seJ.a, somente para os
grupos pr-testados de uma espedfiea idade, inteligncia, nvel scioI econmico, regio geogrfica, momento histrico, orientao das

Ao mesmo tempo que fazemos estas observaes, precisamos ter


em mente que as cincias '''bem sucedidas", ~omo a Fsica e a Qulmica, do seus passos sem emprestar a mnim ateno representatividade (mas com grande Ereocupao com a replicabilidade por
pesquisadores independentes):} Um laboratrio cientfico artificial
em torre-de-marfim uma va~sa conquista, ainda que no-representativa, e a artifidalidade pode freqentemente ser essencial separao analtica de variveis, requisito fundamental s realizaes de
muitas cinciaS; mas, sem dvida, se no interfere com a anlise ou
a validade interna, a validade externa uma considerao importante, especiahnente para uma disciplina aplicada como o ensino.

\\.deestrelas,
orientao do campo magntico, presso baromtrica,
radiao gama, etc.

nvel

Logicamente, no se pode generalizar alm de tais limites, isto


, no se pode generalizar de forma alguma; mas, no obstante,
tenta-se generalizar, antecipando leis e conferindo algumas dessas
generalizaes em outras condies igualmente especficas, porm
diferentes. No curso da histria de uma cincia aprendemos a "justificar" a generalizao pela acumulao de nossa experincia em

32

iI
II
I

,.j
~~

.--

generalizar, mas essa no uma generalizao lgica cieduclvel dos


pormenores do experimento. original. Em vista disso, ~9 RfneraliZatIDOS,faz~g.~.. antec~,!~~_!l:!!~Iltc!.a leis ainda no Erovadas,
incluindo alg!!!!!as nem mesmo ~~lora4..as. Assim, no que se refere
pesquisa sobre ensino, pressupomos de bom gndo que a orientao no campo magntico no exerce qualquer influncia; mas sabemos, com base em pesquisas .dispersas, que o pr-teste tem freqentemente ca'usado um efeito e, por conseguinte, gostaramos de remov-Io como um limite nossa generalizao. Se estivssemos fazendo
pesquisa com barras de ferro, saberamos, pela experincia, que uma
pesagem inicial' nunca resultou ser. reativa, mas que a orientao
no campo magntico, se no for controlada sistematicamente, poder
limitar seriamente a generalizao de nossas descobertas. As fontes
de invalidade externa so, portanto, antecipaes quanto a leis gerais
na cincia de uma cincia: antecipaes quanto aos fatores que sistematicamente interagem com nossas variveis de tratamento e, po"t
implicao, antecipaes quanto ao que pode ser ignorado.
Alm dessas consideraes espedficas, h uma lei emplrica geral
que postulamos, como o fazem todos os cientist~. essa a moderna
verso da ressu osi -o de Mill quanto legalidade ou regylaridade da natureza. m sua mo ema e mais fraca verso, isso pode
ser enunciado como a -Rressuposio da "adesividade" da natureza:
pressupomos que, quanto mais prximos se acham dois eventos no
t~gJ,E.~!_I!.2
~spao' e riOVIrIilea'io em alg!,!masou todas as dimen~~es, maJ!eles t~!ld~.a~guir
as mesmas 'leisJ Enquanto interaes
complexas e relaes curvilineas so esperadas para confundir tentativas de generalizao, devem elas ser mais esperadas q~anto mais
a situao experimental diferir do contexto para o qual se quer
generalizar. Nossa preocupao com uma validade externa JJ;1aior
ser, portanto, uma preocupao com uma similaridade inxima dos
experimentos com as condies de aplicao compatveis com a validade intema.

33

-..,.I
,

t"

~._.

lnterao de testag~m e X. Em .discusses do 'plano eXperimen;


tal em si, a ameaado pr-teste validade. externa foi inicialmente
apontada por Solomon P949), embora as mesmas consideraes
tivessem anter~oIJDente induzido experimentadores individuais ao uso
do Delineamento ,6, que 'omite o pr-teste. Especialmente em estudos
de mudana de atitudes, em que os prprios' testes de atitude introduzem pondervel quantidade de contedo jnslito (por 'exemplo,
raramente se v, em frios car~cteres impressos, uma dose to con,centrada de afirmaes hostis como a que se encontra lio teste tpiCo
de preonceito), bem provvel que' as atitudes ,das pessoas e sua
suscetibilidade , persuaso sejam modificadas -pelo pr.teste. Um
psiclogo duvidaria' seriamente da .coniparabilidade de uma platia
assistindo, a Gentlemen's Agreement (um filme co~tra o preonceito),
imediatamente aps ter sido submetida a um teste de anti-semitismo
de ~em itens, COrooutra platia assistindo ao filme sem tal pr-teste.
Essas .-dvidas atingem no s o efeito :principal do pt:-teste como
tambm seu efeito sobre a resposta p,ers~aso. Suponhamos que
esse filme particular tenha sido to bem feito que algumas pessoas
o apreciaraI1l por seu interesse amoroso sem tomar conscincia do
problema social subjacente. Tais casos ptovavelmente no ocorreriam
num grupo pr-testado. Se um pr-testesensibilizou a platia' para o
problema, poderia, pela focalizao da ateno, aumentar ,o efeito
edu,cacional de-X. concebvel que tal X possa ser efetivo somente
para um grupo pr-testado,
Embora tal efeito sensibilizador seja freqentemehte mencionado
nas apresentaes anedticas do efeito, .os poucos tesultados de pesquisa publiqldos mostram, quer ausnpa de efeito (por exemplo,
Anderson, 1959; Dunca~ et ai., 1957;' Glock, 1956; Lana, 1959a,
1959b; Lana ~ King, 1960; Piers, 1955; SobDI, 1959; Ziesel, 1947),
quer um efeito de interao desalentador. Assim, Solomon (1949)
apurou que a aplica~o de um pr-teste reduziu a eficincia: experimental de treino em ortografia, e HovIandj Lumsdaine e Shef~eld
(1949) sugeriram que um pr-teste reduziu os efeitos persuasivos,
de filmes. Vale a pena evitar esse efeito de interao, ainda que no
seja to enganador quanto a sensibiliz;,lo (uma vez que falsos
positivos se constituem em m~lor problema em nossa literatura do
que falsos negativos, devido ao excesso de descobertas publicadas
[CampbelI, 1959, pp. 168-170]).'
N a medida em que restringe a validade externa, o efeito do
pr-teste sobre X , naturalmente, uma funo do grau em que tais
medidas repetidas so caractersticas do universo para o qual se
quer generalizar. Na rea de comunicaes de massa, a entrevista do,
pesquisador e os processos de teste de atitude so bem atpicos; m,as,

em pesquisas sobre ensino,. tem-se. interesse ,em geQ.eralizar para um


ambiente em que testagem um fenmeno regular. Especialmente
se o experimento puder usar exames regulares de sala de aula como
00, mas provavelmehtetambm
se' os 00 ex~rimentais forem
semelhantes aos empregados costumeiramente, no ocorrer nenhuma,
indesejvel interao de testagem e X. 'Delineamentos com grupos
no-pr-testados sero altamente desejveis, se no mesmo essenciaiS,
sempre que forem empregados p.rocessosde testagem altamente inslitos ou toda vez que o processo de testar envolv.er engano, reestruturao perceptual ou cognitiva, surpresa, st~ess, etc.

'

34

',',

lnterao de se.leoe X. Enquanto <>Delineamento 4 controla os


efeitos de seleo,ao nvel de explicao das diferenas entre o grupo
experimental e o de controle, permanece a possibilidade de que os
efeitos validamente demonstrados prevale'am."somente para aquela
nica populao de que foram, conjuntamente, selecionados os
'grupos experiD;lental e de controle. Essa possibilidade tantommor
quanto maiores tenham sido as dificuldade~ em obter sujeitos para
'o experimento. Considerem-se as implicaes de um experimento
sobre ensino em que o pesquisador foi rejeitado por nove sistemas
,escolares e acaba 'sendo finalmente aceito, por um dcimo. Esse
dcimo, quase com certeza, difere dos outros nove e dQ universo de
escolas para o qual gostanaplos de generalizar, em muitas instncias
espedficas. No , pois, representativo. Seu co~ docente, quase
certamente, possui moral mais elevado, menor receio de serinspecionado, maior vontade' de melhorar, do que o corpo de professores
da escola 'tpica. E os efeitos encontrados, apesar de ,internamente
vlidos, podem ser especificos a tais escolas. Com o fim de ajudar-nos
a decidir a tal respeito, seria desejvel que os relatrios de pesquisa
,inclussem informaes sobre, quantas escolas e que tipo de escolas e
de classes foram convidadas a cooperar, mas recusaram, de maneira a
fazer com que o leitor pos~a estimar o grau dos possveis vieses seletivos. De modo geral, quanto maior o grau de cooperao envolvido,
maior a quebra de ,rotina, e quanto maior o ndice de recusa, maior
a oportunidade de haver um efeito de seleo especifica.
,

Elucidemos melhor o que significa "interao de seleo e X~'.


Se tivssemos de realizar, um estudo dentro de uma nica escola
voluntria, ,usando atribuio aleatria de sujeitos ao grupo experimental e ao de 'controle, ,no estaramos preocupados com o "efeito
principal" da prpria ~cola. Se as mdias de ambos os grupos,
experiment~l e de controle, fossem meramente elevadas por .igual
em funo do tratamento, .no haveria qualquer inconveniente; mas,
se ,ertas caractersticas fizessem com que o tratamento experimental
3S

,.-,".

fosse mais efetivo do que o teria sido na populao-alvo de escolas,


isso poderia ser srio. Queremos que a interao de caractersticas da
escola (provavelmente relacionadas com voluntarismo) com tratamentos experime~tais seja negligencivel. Algumas variveis experimentais podem ser bem sensveis s caractersticas da escola, interngindo com elas; outras podem no o ser. Tal. interao poderia
ocorrer entre escolas. com mdias semelhantes de Q.I. ou pQderia
inexistir, quando as diferenas em Q.I, fssem grandes. Esperaramos,
contudo, que as interaes seriam mais provveis se as escolas diferissem. marcantemente em vrias caractersticas do que se fossem
semelhantes.
Freqentemente ocorrem graves vieses aniostrais por causa da
illrcia de experimentadores que no do oportunidade de recusar-se
uma seleo mais representativa de escolas a participar. Por esse
motivo, muita pesquisa sobre ensino feita nas escolas cujas matrculas possuem a mais alta porcentagem de filhos de professores universitrios. Embora a representatividade amostral seja impossvel de
ser totalmente alcanada e seja quase completamente negligenciada
em muitas cincias (em muitos estudos publicados no Journal of
Experimental Psycholog;J. por exemplo), no s pode como tambm
deve ser enfatizada como um desidemtum em pesquisa educacional.
Um meio de aumentar essa representatividade consiste em reduzir
o nmero de alunos ou de classes de determinada escola ou grau e
aumentar o nmero de escolas ou graus em que o experimento
efetuado. bvio que nunca faremos experimentos com amostras
selecionadas representativamente de todas as salas de aula dos Estados Unidos ou de todas as salas de aula do mundo. Aprenderemos
at onde podemos generalizar um resultado internamente vlido
somente retorrendo montagem de pea por pea atravs de esforos
de generalizao conduzidos base de tentativa e erro; mas tais esforos de generalizao sero coroados mais freqentemente de xito
se, no experimento inicial, tivermos demonstrado o fenmeno ~ob
uma ampla variedade de condies.
Com relao aos sinais mais e menos da Tabela 1, bvio que
nada de categrico pode ser includo nessa coluna; contudo, a coluna
apresentada porque as exigncias de alguns. delineamentos exageram
ou melhoram esse problema. O Delineamento 4, no domnio das atitudes sociais, depende tanto da cooperao por parte dos respondentes
ou sujeitos que acaba comportando pesquisas feitas somente com
audinci!,-s cativas, mais do que com o cidado comum a respeito, do
qual se gostaria de falar. No obstante, na pesquisa sobre ensino,
nosso universo de interesse uma populao cativa , assim, podem
ser montados Delineamentos 4 altamente representativos.
36

Outras interaes com X. De modo semelhante, a interao de X


com outros fatores pode ser examinada como ameaa validade
externa. Mortalidade diferencial seria mais um produto de X do que
com ele interagiria. Instrumentao interagindo com X tem sido
implicitamente includa na discusso da validade interna, uma vez
que um efeito de instrumentao espedfico presena de X contrafaria o verdadeiro efeito de X (por exemplo, quando. observadores
atribuem escores, conhecem as hipteses e sabem quais estudantes
receberam X). Uma ameaa valid~de .extema representada pela
possibilidade da especificidade de efeitos de cada instrumento (testes,
observadores, metros, ete.) usados no estudo. Se mltiplos observadores ou. entrevistadores so empregados no tratamento, tais interaes podem ser estudadas diretamente (Stanley, 1961a). Regresso
no interage com X.
. A maturao tem implicaes de uma natureza de especificidade
seletiva: os resultados podem ser espedficos aos sujeitos de certo
nvel. de idade. nvel de fadiga, etc. A interao de histria e X
implicaria que o efeito foi espedfico s condies histricas do experimento e, embora validamente observado nessas condies, no seria
encontrado em outras. O fato de que o experimento tenha sido
efetuado em tempo de guerra ou logo depois de uma malograda
greve de professores, etc., pode produzir uma reao a X que no
seria encontrada em outras ocasies. Se tivssemos de criar um modelo
de amostragem para esse problema, exigiramos que o experimento
fosse repetido sobre 'uma amostra aleatria de ocasies passadas e
futuras, o que obviamente impossvel. Ademais; compartilhamos,
com outras cincias, a pressuposio emprica de que no existem
leis realmente dependentes do tempo e de que os efeitos de histria~
quando encontrados, sero devidos s combinaes espedficas das
condies de estimulo quele. tempo, sendo, pois, em ltima ~lise,
incorporados sob leis gerais independentes do tempo (Neyman,
1960). (Cosmologias do "universo em expanso" parecem exigir qualificao de~sa assertiva,. mas no de forma relevante para esta discusso.) No obstante, rplica bem sucedida de resultados de pesquisa atravs do tempo e do espao aumenta nossa confiana na
generalizao ao tornar menos provvel a interao com histria.
Esses vrios fatores no entraram como ttulos de colunas na
Tabela 1, porque no fornecem bases de discriminao entre delinea. meQ.tosalternativos.

Condies reativas. No experimento psicolgico usual, se no na


pesqUisa educacional, a mais importante fonte de no.representatividade a artificialidade manifesta do contexto experimental e o
37

,~:~j
~.

r-

r--!
;

conhecimento, por parte do estudante, de que est participando de


um experimento. Para sujeitos experimentais hu~anos, gerada
uma tarefa. de soluo de problema de' ordem mais alta, em que as
reaes aos procedimentos e ao tratamento .~xperimental se fOrqlam
no somente em funo de seus simples valores de estmulo, mas
tambm em funo de seu papel de indcios. capazes de conduzir
descoberta do intento do experimentador. A 'impresso de estar
"representando uma pea", de ter que adivinhar, de'penI1a11ecer sob
observao, de ser uma. cobaia ou quaisquer outraS atitudes assim
geradas no ' representativa do <:ontexto escolar e parece ser qualificadora do efeito de X, comprometendo seriamente a generalizao.
Sempre que tais condies reativas sejam inevitveis, experimentos
internamente vlidos desse tipo devem continuar a ser feitos; mas,
se puderem ser evitados, devem obviamente s-Io. Ao dizer isso,
associamo-nos, em parte, ao crtico antiexperimental tpico no sistema escolar ou. no corpo docente, ao endossar seu protesto mais
freqente contra a futilidade de "toda essa pesquisa"; 'Contudo, nossa
concluso mais moderada .n9 a de que a pesquisa deva ser abandonada por essa razo, mas sim de que deva ser melhorada sob esse
aspecto. Seguem-se vrias sugestes.
Qualquer aspecto do processo experimental pode produzir esse
deito de condie~ reativas. O pr-teste em si mesmo, feita a abstrao de seu contedo, pode causar tal efeito, e parte da interao 'do
pr-teste com X pode ser dessa. natureza,. embora haja amplas bases
para suspeitar as caractersticas de contedo 'do processo de teStagem.
O processo de aleatoriedade e atribuio de tratamentos. pode ser
dessa natureza: suponhamos o ef~ito sobre uma turma quando.
(como ocorreu na pesquisa de Solomon, 1949) metade dos alunos de
uma classe, aleatoriamente selecionados, foi colocada 'em outra' sala.
Essa ao, acrescida da presena de "professores" estranhos, deve ter
certamente criado expectativas do inusitado,. com suposies e te~tativas de adivinhar o propsito. A apresentao do tratamento X, se
for um fato fora do comum, poderia ter um efeito semelhante.
Presumivelmente, at mesmo o ps-teste, num esquema dotado apenas de ps-teste, como <>Delineamento .6, poderia criar tais atitudes.
Quanto mais bvia a conexo entre o tratamento experimental e o
contedo do ps-teste, mais esse efeito se toma provvel.
Na rea de mudana de opinio p\\blica, tais' condies reativas
podem ser muito diffcei!!de eliminar, mas, em muitas .pesquisas sobre
mtodos de ensino, no h necessidade de que os estudantes saibam
que est sendo feito um.xperimento. (Seria bom que os professores
tambm fossem mantidos nessa ignorncia, analogamnte ~o que
38
~:;i'

ocorre, .no camPo. da Medicina, com o ~xperimento "duplo. cego!',


mas isso 'usualmente difil de se conseguir.) Vrias providncias
podem tornar,esse disfarce possvel. Se os XX so v~antes de acon.~te~mentos usualmente ocorrentes em salas de aula' e que se repetem"em perodos plausveis. do calendrio curricular, ento'u~ tero
da batalha est ga~o quando tais tratamentos so aplicados sem
anncio especial. Se os .00 so. .deforri:1a semelhantei i.dentificados
com exames regulares, o segundo requisito est satisfeito. Se os XX
so comunicaes enfocadas. sobre estudantes individuais, 'ento a
aleatoriedade pode ser conseguida sem o transporte fsico'4e amostras
casualmente equiv~lentes a diferentes salas de aula, etc.'
Em conseqiJ,cia de tais . consideraes e co~o resultado de
observawes pessoais de experimentadores que publicaram dados
apesar de terem to pouca sensibilidade, que seus res1,1Itadosacabarain sendo comp\etamente enganosos, os presentes aut~res chegaram
gra~uaIIlente convico de que a experimentao rias scolas deve
ser 'cond!l~da: pelQs prprios professores das escolas envolvidas, sem. pre que possvel,' especialmente quando os resultados' devam ser

generalizadosa outrassituaesde salasde aula.

Atualmente, parece haver dois tipos principais de 'Iexperimentao" 'em :curso nas escolas: (1) pesquisas "impostas" escola por
algum de fora, que tem seus prprios problemas a resolver.e cujo
.objetivo no. ao imediata (mudana) pela escola; e (2) o assim

chamado pesquisador de. "ao", que tenta induzir os prprios pro- .


fessores a. serem. "experimentadores", usando a expresso em seu
se~tido mais amplo. <> primeiro pesquisador obtm resultado~ que
podem ser rigorosos, mas que no 'so aplicveis. O segundo con-

segue resultados que podem ser altamente aplicveis mas que pro- .
vavelmente no .so "verdadeiros" em conseqncia da extrem falta
de rigor na, pesquisa. Um modelo alternativo o da pesq~isa em
sala. de aula origin~da entre professores e outros profissionais da
escola, cujas .idias sejam testadas atravs de esquemas elaborados
em cooperao com especialistas em metodologia da pesquisa e cujo
processo experimental. fique a cargo dos prprios produtores de
idias. As anlises estatsticas apropria4as poderiam ser feitas pelo
especialista em metodologia da p~quisa e os resultados comunicados
ao grupo atravs de um intermedirio ttemado (supervisor, diret9r
de pesquisa no' sistema esColar, etc.) qu~ tenha s.ervido como elemento de contato todo o tempo. Os resultados, nesse 'caso, devero
ser relevantes e "certos". Como consegUir q~e pesquisa bdsica seja
realizada dentro desse padro quase sempre um problema sem
soluo, mas,. assim procedendo, ou seja, sob a coordenao de um
39

i
.!

intet1t1edidrio competente, os estudos poderiam tornar-se cada vez


menos ad hoc e cada vez mais orientados teoricamente.

mente equivalentes tomam.~e cada vez mais no-equivalentes com


o decurso de longos perodos de tempo.
.

Embora este captulo no tenha a inteno de proceder a um


levantamento de bons ou maus exemplos na literatura, um recente
estudo de Page (1958) mostra uma excelente utilizao de tais
caractersticas (ausncia de condies reativas e de interaes de tesiagem e X e obteno de representatividade de amostragem), aqui
citada como uma ilustrao concreta de prtica ideal. Seu estudo
mostra que breves comentrios escritos em provas objetivas devolvida~ aos alunos aumentam o desempenho em prova objetiva subseqente. Esse resultado foi obtido atravs de 74 professores, 12 'sistemas escolares, 6 sries (7-12), 5 nveis de desempenho (A, R, C, D, F)
e com uma ampla variedade de sujeitos, praticamente sem indcios
de efeitos de interao. Os professores e as classes forain selecionados
aleatoriamente', A primeira prova objetiva regular em cada classe
foi usada como pr-teste. Usando um dado especialmente marcado, o
professor distribuiu os estudantes entre os grupos de tratamento e,
respectivamente, fez ou no fez comentrios escritos nas provas. O
teste objetivo seguinte, normalmente programado na classe, tomou-se
o ps-teste. Ao que se soube, nenhum dos 2.139 estudantes. teve
conhecimento da experimentao. Poucos procedimentos instrucionais ensejam esse tipo no-manifesto de aleatoriedad.e, porquanto,
usualmente, a comunicao oral .envolvida . dirigida a toda uma
classe e no a indivduos. (Comunicaes escritas permitem tratamento aleatrio, embora a deteco do estudante submetido a vrios
tratamentos se constitua em problema.) No obstante, tendo em
mente. esses ideais, pesquisadores podero efetuar experimentos noreativos em maior nmero de instncias do que as atuais..
.

A melhor soluo em"todos-os-sentidos a esse problema consiste


em levar a aleatoriedade sala de aula como uma unidade e cons.
truir tanto o grupo experimental quanto o grupo de controle de
forma que cada um seja constitudo de numerosas salas de aula dis-

Atravs de provas regulares em sala de aula e atravs de testes


apresentados ~omo provas regulares e semelhantes em contedo,
bem como atravs de processos de ensino alternativos apresentados
sem aviso prvio ou sem' explicao no processo regular de
ensino, essas duas fontes de <:ondiesreativas podem provavelmente
ser evitadas em muitas ocasies. Aleatoriedade no-manifesta pode
ser o problema mais crnico. Algumas vezes, em numerosas escolas
secundrias ou collegesJem que os estudantes se inscrevem em cursos
populares em certos horrios e, . em seguida, so distribudos ar!Jitrariamente em mltiplas turmas simultneas, turmas aleatoriamente
equivalentes podem ser conseguidas atravs do processo de distribuio. (Ver Siegel e Siegel, 1957, quanto a um t;mprego op<?rtunistico ~e uI;i:l;'processode aleatoriedade natural.) Contudo, em con.
seq~cia de "histrias peculiares a cada grupo, tais turmas inicial.
40

.
.

tribdas aleatoriamente (~er Lindquist, 1940, 1953). Costumeira,


se bem que no essencialmente, as classes seriam classificadas para
anlise base de certos fatores como escola,. professor (quando os
professores ensinam em 'vrias classes), discip1ina, turno, mdia de
nvel de inteligncia, ete.; a partir de tais classes, seriam escolhidos
por processo aleatrio vrios grupos de trataJ;Ilento experimental.
Tem havido alguns estudos desse tipo. mas logo eles devero tornar-se padro. Note-se que o teste .de significncia apropriado no
a reunio de todos os estudantes, como se tivessem os estudantes
sido distribudos aleatoriamente. Os pormenores sero discutidos na
se~.subseqente.
Testes de significtincia para o. Delineamento 4

O bom delineamento experimental no se confunde com o uso de


testes estatsticos de significncia. O plano experimental a arte.
de alcan,ar comparaes interpretveis e, como tal, seria exigido
mesmo quando o produto final fossem per~entagens representadas
graficamente, estudos de caso em prosa paralela, fotografias de grupos
em ao,etc. Em todos esses casos, a interpretabilidade dos "resultados" .depende do controle dos fatores que acabamos de descrever.
Se a -comparao interpretvel, ento os testes estatsticos de significncia entram em cena para que se decida se a diferena apurada
se situa acima das flutuaes a serem esperadas em casos de ausncia
de verdadeira diferena para amostras daquele tamanho. O '1ISOde
testes de significncia prcsspe, mas no prova ou prov a comparabilidade dos grupos cotejados ou a interpretabilidade da diferena
encontrada. por isso que teramos prazer em ensinar como montar
,delineamentos experimentais com base no senso comum e em con. sideraes no matemticas. Esperamos que mesmo os estudantes.
de educao <:arentes de formao estatstica possam aproveitar a
essncia deste cpitulo. No obstante, como a questo dos procedimentosestatsticos se acha intimamente ligada ao deli~eamento experimental, apresentamos os seguintes comentrios' isola9-os sobre o
assunto. (Ver tambm Green e Tukey, 1960; Kaiser, 1960; Nunnally,
1960; e Rozeboom, 1960.)
.
.
41

.. -

_J

rI~

--

.--

.~

.~

~
"J

Uma estatlstica t'Tadacomumente usada. EmbOra a Deline~ento 4 seja o plano-padro e mais amplamente usado, OStestes de significAneia empregados com ele. so freqentemente errados, incompletos'
; ou inadequados. Ao. aplicarem a "razo crtica" ou teste t comuns
I ~ esse delineamento experimental padro, muitos pesquisadores tm
computado dois t, um para. a diferena entre pr-teste e ps-teste no
.) 'grupo experimerital, outro para a diferena c;ntre pr:teste e ps-teste
no grupo. de contrale. Se a primeira foi "estatisticamente significativa" e a segunda "na", ento. tm 'concludo qQe X teve um efeito,
sem qualquer comparao estatstica direta entre os grupos experimental e de controle. Freqentemente, as condies tm sido tais
que, houvesse sido apli~ado um' teste mais apropriado, a diferena
no teria sido significativa (como no caso .em' que os valores de
I significncia so prximos ao limite, com o grupo de' controle mostrando um ganho quase significativo). Windle (1954) e Cantor (1956).
tm mostrado como esse erro freqente.
Uso de escores diferenciais e covaridncia. O teste aceitvel mais
largamente usado o de computar, para cad grupo, o ganho em
escores do ps-teste em relao ao pr-teste e cal~ar um t entre
os grupos experimental e de controle. nesses escores diferenciais.
"Blocos casualizados" ou "nivelametito" em escores do pr-teste e a
-anlise de covarincia com os escores' do pr-teste coma covarivel
so, via de regra, preferveis simples comparao entre os ganhos em
escores. Certo como que a grande maiC?riados experimentos educacionais no mostram diferena. significativa e, por conseguinte, freqentemente no so. comunicados, o uso dessa' anuse mais precisa
pareceria altamente desejvel. Cansiderando o trabaijla de realizar um
experimento,. a trabalho de. proceder anlise apropriada 'relativam~nte siID;ples.Tratamentos-padro de anlise tipo-Fjsh~ pod~Il
ser consultados para conhecimento. de porm~ores.' (Ver tambm
Cox, 1957, 191)8j.Feldt, 1958j e Lindquist, 1953.)
Estatlsticas para atribui,o aleatria de turmas in.tacias a tt'atamentos; As estatsticas usuais so. apropriadas somente quatidoestu- .
dantes tenham sido individualmente atrlbu~os a tratamentos atravs
de seleo. cas-ual. Quando turmas intactas tiverem ,sido atribudos
a' trtamentos, as frmulas. acima prodUziro um termo. de. erro
muito pequeno porque o processo de casualizao foi, obviamente,
. mais "por atacado" e foi empregado um nmero menor de eventos.
aleatrios. Lindquist (1953, pp'.) 72-189) forneceu a fundamentao
e as frmulas para uma analise correta. Essenialmente,: as. mdias
das classes so usadas' como as observ'aesbsicas e os efeitos do
tratamento so testados em relao s variaes ne,ssas mdis. .Uma
anlise de covarincia usaria as mdias do pr-teste cO~(j a covarivel.

\
"

.,1
-'1
f;
"I
~~1
:;~,
.j

~
..
..

('1
i~m

42

Itstatis#cas para a validade 'interna. Os pontos acima. foram


abordados para garntir a ortodoxia estat1stic~ relevante ao delineamento experim~ntal. O tpico seguinte represeIJta esforo para expandir ou dirigir essa ortadoxia. Ele estende uma implicao da distino
entre validade externa e interna ao domnio da esta.tistica amestral.
Todas as estatsticas discutidas acima -iMplicam amostragem de um
.universo infinitamente grande, uma amostragem mais apropriada a.
uma pesquisa de opinio. pblica do que ao experim~nto de laboratrio usual. No caso rro de um estudo como p de Page (1958), h;
realmente, um.a amostragem extrada de um amplo universo preestabelecido, o, que toma as frmul~ usuais apropriadas. Na outro
extremo, acha-se o experimento de laboratrio publicado no ]ournal
of Experimental PsycholoD, por exemplo, em que a validade interna
foi a nica preocupao e em que todos os membros de um pequenQ
universo peculiar {Qram exaustivamente includos nos grupos de tratamento. H, em tais experimentos, uma grande nfase .em casuali'zao, mas no com o propsito de assegurar representatividade. de
, alguma populao mais ampla. Pelo contrrio, o propsito da casua,lizao unicamente equalizar os grupos experimental e de controle
ou os vrios grupos submetidos ao tratamento'. A cas~alizao feita,
por cnseguinte, 4entro de uma populao finita muito pequena,'
que representa, de fato, a soma dos grupOs experimental e de
controle. .
Essa posio extrema no universo amo$tral justificada quando
so. descritos processos de laboratrio deste tipo: chamada de voluntrios com au sem pramessa de recompensa pecuniria, escores de
testes de persanalidade, pontas de adlto eID;etp'sos ou satisfao
de um requisito obrigatria qe eles tero de cumprir em qualquer
tempo do perodo letivo. Quando os :voluntrios se apresentam, so
atribudos aleatoriamente aos tratamentos. Uma vez alcanado certo
nmero Eixo de s~jeitos, a experimento suspenso. No houve nem
mesmo uma sc:leocasual de uma lista muito mais ampla de. valuntrios. Os primeiros. voluntri~s constituem uma amostra viesada e
o universo total "amostrado" muda a cada dia medida que o experimento procede, que ~aior presso seja necessria para recrutar.
voluntrios, etc. A certa altura, o procedimento suspenso, quando
todos os. elementos disponveis do universo foram usados num ou
. noutro. grupo de tratamento. Note-se que os .vieses de amostragem
implcitos no comprometem 'em nada a equivalncia aleatria dos
grupos de tratamento,. D;lasafetam apenas sua ."representatividade".
Ou ento considere-se um cientista mais zelaso, que selecione
aleatoriamente 100 nomes de sua classe de 250' pessoas, comunicando-se com eles pel~ telefone ou pelo correio e, em. seguida, medida
43

r
~

~
i
j
;

i,

mento. Como natural, cerca de 20 deles no podem ser encaixados' .e social, se no mesmo ainda 'da pesquisa sob.re ensino), esse erro
se que erro deva existir. maior uma
convenientemente no horrio do laboratrio ou adoecem, etc., de ; est na direo preferida
possvel
subestimao
de
signifidncia
quando h apenas duas conforma que se opera, implicitamente, uma redefinio do universo. i
dies
experimentais
e
so
usados
tados
os suje~tos disponveis (Wilk
E mesmo que ele faa um esforo titnico e rena todos os 100, o i
e
Kempthome,
1955,
p.
1154).
que ganhou, do ponto de vista da representatividade, foi a habilidade
,

novo universo, se bem que maior, no se reveste, intrinsecamente,


de interesse cientfico. Seus limites no so os limites especificados
por qualquer teoria cientfica. Os interesses importantes na gene-.
ralizao tero de ser explorados pela amostragem de outros experimentos em outro lugar. lgico, d,esde que seus estudantes so
menos selecionados, que existe mais validade extema. mas o ganho
no suficiente para que seja justificado pela grande maioria de
psiclogos experimentais.

~
~
~

~
~
~

!
~
a

;e

de generalizar, com confiana estatstica, para a turma de 1961de '


PsicologiaEducaciomi.1A da Faculdade EstaduaI.de EduCao.Esse

'

'e

que se apresentam, os distribui, casualmente, aos grupos de trata- , dao cruzada ( esse certamente o caso da psicologia experimental

5.

ia
a
:1
I,
S
5
)
s
~

5. O delineamento de quatro grupos de Solomon

Embora o Delineamento. 4 seja mais usado, o Delineamento 5


o Plano de Quatro Grupos de So.lomon (1949) tem merecidamente
maior presdgio ~ representa a primeira considerao explcita de
fatores de validade externa. O esquema o seguinte:

A
A
A
A

01
Oa

O2
0"
06
Oe

X
Em geral, bvio 'que o objetivo dominante da aleatoriedade
em experimentos de laboratrio a validade interna, no a externa.
Tendo isso em vista, deveriam ser empregados termos de erro menores e mais apropriados baseados em pequenos universos finitos.
Ao estabelecer um paralelo entre os elementes de Delineamento 4
Subscrevendo Kempthome (1955) e Wilk e Kempthome (1956),
(01 at O~) com o grupo experimental e com o de de controle sem
notamos que o modelo adequado a aleatorizao por "grupos" atrapr-teste, tanto os efeitos prindpais de testagem quanto a interao.
vs de uma em vez da amostragem de um universo. H, pois, um
de testagem e X so determinveis. Dessa forma, no s aumenteste no.paramtrico disponvel mais apropriado e mais preciso, em
.tada a generalizabilidade, como tambm O' efeito d~ X replicado
que se tomam os escores obtidos nos grupos experimental e de conde quatro maneiras diferentes: 02>O, O2>0,, 011>0 e ()1I>Oa'
trole e se colocam aleatoriamente tais escores, repetidamente, em dois
As instabilidades reais da experimentao so tais que, se 'essas com"grupos", gerando empiricamente (ou matematicamente) uma distrip~aes estiverem de acordo, a fora da inferncia estar grande,
buio de diferenas de mdias surgidas completamente da distrimente aumentada. Outra contribuio indireta generalizabilidade
.buio aleatria desses escores especificos. Essa distribuio o critdos resultados experimentais prestada tambm no sentido de que,
rio com o. qual a diferena de mdias obtidas deveria ser comparada.
atravs da experincia com o Delineamento 5 em qualquer rea de
Quando ocorre a "interao tratamento-unidade" (heterogen~idade
'pesquisa determinada, se apreende a probabilidade geral de interade efeitos reais en~re sqjeitos), essa distribuio ter menos, variabilies de testagem e X e, por conseguinte, se pode interpretar melhor
dade do que a respectiva distrib~io pressuposta no teste t usual. . ,os Delineamentos 4 passados 'e futuros. De mo.do semelhante, pode-se
.'no.tar (pela comparao. de O, com 01 e 08) um efeito combinado
Estes comentrios no pretendem modificar substancialmente a
de maturao e histria..
prtica atual de aplicar testes de significncia em pesquisa &obre
ensino. As solues exatas so muito cansativas e, costumeiramente,
inacessveis. Seleo casual por grupo, por exemplo, exige ordinariaTestes estatsticos para o Delineamento 5
mente acesso a computadores de alta velocidade. A direo do erro
No h um nica processo estatstico que faa uso de todos os
. conhecida: o uso de estatsticas tradicionais muito conservador,
seis
conjuntos de observao simultaneamente. As assimetrias do
isto , muito incli~ado a dizer "nenhum efeito apurado Se julgardelineamento. eliminam a anlise de varincia das diferenas nos
mos nossas publicaes como sobrecarregadas de "falsos positivos",
escores. . (As sugestes de Solomon a esse respeito. so. consiou seja, de proclamaes de efeitos que no resistiriam a uma vali4S

44

il....

___o. _~.

.-

.
-

----.-----..

,...-.--.

-.---

deradas inaceitveis.) Ignorando os pr-testes, a no ser como outi.-o


"tratamento" coordenado com X, pode-se tratar 05 escores do pS:
teste com um simples esquema de anlise de varincia 2, X 2:
No X
X'
Pr-testado
O.
O2
No-pr-testado

06

Oli

Pelas mdias das colunas" estima-se o efeito principal de .X; pelas


mdias das linhas, o efeito principal do pr.teste e, pelas mdias das
celas, a interao de testagem com X. Se os efeitos principal e interativo da pr-testagem so negligenciveis, pode ser desejvel efetuar.
uma anlise de covarincia de O. veTSUSDa, ~omando como covarivel os escores do pr-teste.
6. Delineamento com grupo de controle e s ps-teste
Embora o pr-teste seja um conceito profundamente arraigadQ.
no pensamento de pesquisadores em educao e psicologia, no , na
realidade, essencial a planos verdadeiramente experimentais. Por"saber com certeza" que
motivos pskolgicos difcil .renunciar
os grupos experimeptal e de controle eram "iguais" antes do tratamento experimental diferencial. No obstante, a mais adequada
segurana, em todos os sentidos, de que inexistam vieses iniciais
entre os grupos a aleatoriedade. Dentro dos limites de confiana
estabelecidos pelos testes de significncia, a aleatoriedade pode ser
suficiente sem o pr-teste. Na tealidade, quase todos os experimentos
agrcolas na tradio de Fisher (1925, 1935) dispensam' pr-teste.
Alm disso, H~mpesquisa e<Jucacional, particularmente nos graus do
primrio, precisamos freqUentemente experimentar com mtodos"
destinados introduo inicial de matrias inteiramente novas, para
as quais pr-testes, na acepo comum, so impossveis, do mesmo'
modo como pr-testes sobre a presumida culpa ou inocncia seriam
incabiveis num estudo dos efeitos ds memoriais dos' dvogados sobre
05 jurados. O Delineamento 6 preenche esse requisito e, alm disso,
apropriadQ para todas as situaes em que os Delineamentos 4 'e 5
possam ser usados, ou seja, sempre que a seleo aleatria for possvel. Seu diagrama o seguinte:
.
.
Embora esse esquema tenha sido usado desde 1920, no tem sido
recomendado p,ela maioria dos textos metodolgicos em educao..

i
I

I.
. -~

A
A

L
~

~j

'

t
~

46

01
O2

Isso tem ocorrido em parte em conseqncia de uma confuso entre


ele e o Delineamento -3-e em parte devido. desconfiana com que se
tem encarado a, seleo aleatria como meio de equiparar os grupos.
O plano pode ser considerado como-05 dois ltimos grupos do De~ineamento de Quatro Grupos de Solomon e pode-se ver que controla
testagem como .efeito principal e como interao, mas, ao contrrjo
do Delineamento 5, no os mede; contudo, tal medida tangencial
questo central de esclarecer se )(. teve ou no Uio.efeito. Assim,
embora o Delineamento 5 deva ser preferido ao Delineamento 6 pelas
razes aciri:1acitadas, o que -se ganha a mais com o Delineamento 5
pode no valer o esforo. mais do que dobrado. O Delineamento 6
deve ser prt;ferido, ao Delineamento 4, a no ser que haja dvidas
sobre a autntica aleatoriedade da seleo. O Delineamento 6

usai:iomuito m:enosdo que deveria s-Ia em pesquisa educacional e .


psicolgica.
Todavia, em situaes de testagem repetida, prprias de muitas
pesquisas educacionais, desde que existam variveis antecedentes
apropriadas, elas deveriam certamente ser usdas para constitio de
blocos ou nivelamento ou ento como covariveis. Essa recomenda~o
feita por duas razes: (1) os testes estatsticos disponveis para. o
Delineamento 4 so mais poderosos do que oi; disponveis para o
Delineamento 6. Embora o. maior esforo do Delineamento 4 sobrepuje esse ganho na maiona das pesquisas, no. o conseguiria quando
escores, antecedentes teis estivessem auto~aticamente disposio.
(2) A disponibilidade de escores de pr-test~ toma possvel o, exame
'da interao de X e do nvel de habilidade no pr-teste, permitindo,
pois, uma explorao mais exaustiva da 'generalizabilidade do resultado. Algo semelhante pode ser feito com o D~lineamento 6, ~sando
outras medidas disponveis em vei de pr-testes, mas essas consideraes, associa~as ao fato de que,.em pesquisaeducaciona1, a testagem
freqUente caracterstiCa do universo para o qual se quer generalizar, podem inverter a situao de molde a fazer com que se pre~
o Delineamento 6, ao '4. Note-se ainda que, caso ocorra qualquer
mortalidade substaricial entre A e o ps-teste, os dados do pr-teste
do Delineamento 4 oferecem maior oportunidade para eliminar a
hip.tese de mortalidade diferencial entre os gnipos experimental e
de controle.
Mesmo assI!l, existem muitls problemas para 05 quais os pr.'
testes. no so disponveis -ou convenientes, oU so provavelmente
reativos e, por tais motivos, a legitimidade do Delineamento 6 ainda
merece nfase em muitos aspectos. Alm dos estudssobre a tcnica
de ensinar novas matrias, h uma ampla classe de instncia em
que (1) o X e o ps-teste O podem ser aplicados :a. estudant~s ou
47

es dpicas dos esquemas ~atoriais de Fisher podem ser ampliadas pela


adio de outros grupos com outros XX. Num critrio tpico de classificao simples ou de anlise de varincia simples (one-way),
teramos vrios "wveis" do tratamento, isto , Xl' X2, Xs, etc., com
talvez ainda um grupo Xo (no-X). Se o grupo de controle fosse
encarado como um dos tratamentos, nto, nos casos dos Delineamentos 4 e 6, haveria um grupo para cada tratamento. O Delineamento 5
teria dois grupos (um com e outro sem 'pr-teste) para cada tratamento e !linda poderia ser computada uma anlise de varincia de dupla
classificao (two-way). No temos conh'ecimento d~ que hajam sido
efetuados esquemas com mais de dois wveis do tipo do Delineamento
5. Usualmente, se 'algum estivesse preocupado com a interao do
pr-teste, seria empregado o Delineamento 6 por causa do grande nmero de grupos que, caSo contrrio, seriam exigidos. Muito freqentemente, sero empregadas duas ou mais variveis de tratamento, cada
uma a vrios "wveis", constitUindo uma srie de grupos que poderiam ser designados X01 Xblt X..1 Xb2' X..1 XbS' ..., X..2 Xu, etc.

grupos como um conjunto natural simples e (2) um pr-teSte seria


esquisito. Tais situaes ocorrem freqentemente em pesquisas sobre
os prprios procedimentos de testagem, como em estudos de instrues diferentes, formatos diversos de folhas de resposta, ete. So
semelhantes os estudos de apelos persuasivos para conseguir volun.

trios, etc. O Delineamento 6 usuabnente o mais conveniente,quan-

do seja necessrio manter o anonimato do estUdante. Em tais casos, a


seleo casual conseguida atravs da ordem aleatria de materiais
de distribuio.
As estatsticas para o J)elineamento 6

i.
!.

i!'

A mais simples das formas seria o teste t. O Delineamento 6 talvez


seja o ~ico contexto em que esse teste timo. Todavia, podem ~er
.usadas anlises de covarincia e "por blocos" em "variveis de contedo" (Underwood, 1957b), tais como notas anteriores, escores de
testes, ocupao dos pais, etc., provocando assim um aumento no
poder do teste de significncia muito semelhante ao obtido por um
pr-teste. No essencial a identidade de pr-teste e ps-teste. O'
aumento de preciso obtido corresponde diretamente ao grau de
covarincia e, embora esse aumento seja usualmente maior para formas alternadas do "mesmo" teste do que para testes "diferentes",
uma questo de grau e algo to confivel e fatorialmerite' com.
plexo quanto uma mdia geral de notas (grade-point average) possa
resultar superior a um breve pr-teste. Note-se, porm, que a mdia
geral de notas .(grade-point average) no usualmente recomendvel
como uma medida de ps-teste, por causa de sua provvel falta de
sensibilidade a X, comparda com uma medida mais especificamente
apropriada em contedo e ritmo. Pouco importa se esse pseudoesquema de pr-teste deva ser classificado como Delineamento 6 ou 4.
Teria as vantagens do Delineamento 6 ao evitar uma sesso'de prteste introduzida peIoexperimentador e ao evitar a repetio..,"gra-.
tuita" de contedo inslito idntico ou altamente semelhante (tomo
ocorre em estudos de mudana de atitude). por essas razes que a
entrada, ilo Delineamento 6, sob a coluna "condies rea,tivas" deve-ria ser ligeiramente mais po'!iitiva do que nos. Delineament<?~4 e 5.
.Essa diferena justifica-se, naturalmente, muito mais no campo das
cincias sociais em geral do qu~ .na rea da p'esquisa sobre instruo
educacional.

Delineamentos fatoriais

I
i

A partir da base conceitual dos trs delineamntos precedentes,


mas particularmente' dos Delineamentos 4 e 6, as complexas elabor.

Tais elaboraes, complicadas por esforos no sentido de economizar, por eliminao, algumas das possveis permutaes de X.. por
Xb tm produzido alguns dos mistrios traumatizantes do esquema
. fatorial
(blocos aleatris, unidades subdivididas (split plots], quadrados greco-Iatinos, rplicas parciais, "confundimento", ete.) que tm
criado um grande abismo entre metodologias de pesquisa educacional
avanadas e ttadicionais. Esperamos que est capitulo contribua para
vencer este abismo atravs da continuidade da metodologia tradicional e das consideraes de senso comum que o>estudante traz
consigo. Parece-nos tambm que a maior parte do que precisa ser
ensinado sobre delineamento experimental possa melhor ser entendido quando apresentado sob a forma de delineamento de dois tratamentos, sem a interferncia de outras complexidades. Ademais, uma
completa apresentao dos problemas do uso tradicional gerar uma
ompreenso da neces~idade e da importncia das abordagens modernas. Ao procurar o meio mais eficiente de sintetizr o antigo e.
amplamente aceito Delineamento 4, j fomos levados a sentir a neces~'
sidade da anlise de covarincia, que quase no tem sido usada neste
contexto. E, no Delineamento 5, com um problema de dois tratamentos, elaborado apenas para obter controles indispensveis, abandona.mos as raZes criticas e os testes t em favor .das respectivas estatsticas
. da anlise de varincia.
.

No podem ser ensinados ou mesmo ilustrados neste captulo


os pormenores de anlises estatsticas referentes a esquemas fatoriais.
ASpectos elementares desses .mtodos so apr~sentados para pesqui-

; .
:'_i
~ :f

49

48

L~

r- -

- -

.J

..,---

sadores educacionais por !dwards

(1960), Ferguson (1959), Joh~son

..e ]ackson (1959) e LindqQst. (1953). Espera-se,contudo, que os


pargrafos seguintes possam fornecer algum esclarecimento. para
certas alternativas e complexidades particularmente relevantes para

os problemas de esquema discutidosneste cap.tulo.As complexidades

a ser ventiladas no induenl as razes comuns para usar quadrados


latin~s e muitos outros esquemas incompletos em que o conhecimento relativo a certas interaes sacrificado meramente por motivos de custo. (Mas o uso de quadrados latinos como um substitUto'
para grupos de controle em que a seleo casual no possvel ser
discutido adiante, quando se tratar d Delineamento quase.experimental 11.) A rzo pela qual decidimos omitir esses esquemas incompletos .reside no fato de 'que o conhecimento pormenorizado de interao altamente relevante para o problma de validade externa,
particularmente numa ci~ncia que tem encontrado dificuldades em
replicar os resultados de um pesquisador em outro contexto (ver
Wi1k e Kenipthorne, 1957)..Os conceitos que pretendemos esclarecer
nesta seo so: inter;to, classificaes hierarquizadas versus classificaes cruzadYtse modelos f!itoriais finitos, fixos, cas~ais e mistos.
.

J usamos esse conceito em contextos em que se supunha cOJOpreensvel ao leitor no treinado. Como antes, nossa nfase repousa
aqui nas 'implkaes de generalizabilidade. Consideremos, sob forma
grfica, na Figura 2, cinco possveis resultados de um delineamento
com trs nveis' cada de XII e X1J,que sero design'ados por A e B.
A, B e O devem ser grafadas em
(Uma vez que trs dimenses
duas dimenses, existem vri!lS representaes alternativas, uma das
quais apenas ser usada aqui.) Na Figura 2a h um efeito principal
significativo tanto no caso de A quanto de B, mas no h interao.
(H, naturalmente, uma soma de efeitos
As, Bs surgindo como a
mais forte
mas no h inter;to, prquanto os efeitos so adidvos.) Em todas as demais figuras, h interaes significativas.
alm ou em lugar dos efeitos principais de A e B. Em outras
palavras, a lei que rege os efeitos de A muda em funo do valor
espedfico de B. Nesse sentido, efeitos interativos so regras de espetificidade de efeitos e, por conseguinte, relevantes aos esforos .de
generalizao. O efeito de interao em 2d mais claramente dessa
ordem. Nesse caso, A no tem um efeito principal (isto , se forem
tiradas as mdias dos valores de todos os BB para cada AJ o resultado
ser uma linha horizontal); mas, quando B mantido ao nvel 1,
aumentos em A tm um efeito decrescente, ao passo que, quando. B
mantido ao nvel 3, A tem um efeito crescente. Houvesse o expe.

.-

!:
I
i.

'

..~
.

Li

50

::

"

8'

..
"ti
'"
:;)
..

BII

./

9
..
"ti
..:;)
E

C)

/8,
B1

AI

A2
. Figura' 2a

As

AI

A2
Figura 2b

As

Ba

O
lU
"ti

'"
:;)
E,
C)

lnterao

. AI

Bs

O
lU
"ti

..
::I
I!!o

.C)

8B2

8B2

B1

B1
A2
Figura 2c

Aa

AI

lU
-c

A;t

Da.

.....

A2 .
Figure 2d

B2

C)

81

AI

A2

.As

!'igura 211

Figura 2. Alguns xesultados possveis de um

delineamento ftorial 8;x:8.


51

rimentador variado apenas A e mantido 1J constante ao nvel I, os


resultados, embora internamente vlidos, teriam conduzido a generalizaes errneas em relao a B2 e Ba. A estrutura fatorial mltipla
do esquema conduziu-nos, pois, a valiosas exploraes sobre a generalizabilidade ou validade externa de qualquer concluso sumria
sobre o efeito principal de A. Limitaes generalizabilidade ou
especificidade de efeitos surgem na anlise estatstica como inteiaes significativas.
A Figura 2e representa uma fonn~ de interao aincm:'mais'
extrema, em que nem nem B tm qualquer efeito principal (no
.emergem regras gerais quanto ao melhor nvel de A ou B), mas em
que as interaes so fortes e definidas. Considere-se um resultado
hipottico dessa espcie. Suponhamos que trs tipos de professores
sejam todos, em geral, igualmente eficientes (por exemplo, os improvisadores espontneos, os preparadores conscientes e os supervisores
rigorosos do trabalho do estudante). Analogamente, consta que trs
mtodos de ensino em geral sejam igualmente eficientes (por exemplo, discusso em grupo, preleo formal e ensino tutorial). Nesse
caso, mesmo na ausncia de "efeitos principais" por parte, quer do
tipo de professor, quer do mtodo de ensino, os mtodos de ensino
poderiam plausivelmente interagir fortemente com tipos: o improvisador espontneo consegUiria melhor resultado com a discusso em
grupo e pior com o ensino tutorial, ao passo que o supervisor rigoroso obteria melhor resultado com o ensino tutorial e pior co~ a
discusso em grupo.
Desse ponto de vista, deveramos distinguir entre as espcies de
interaes significativas encontradas. Talvez se aplique aO caso o
conceito de "interaes monotnCas". Note-se que, tanto em 2b
quanto em 2a, h um efeito principal de ambos A e B e que A
tem o mesmo efe~to direcional em cada painel separado de valores
de B. Sentimo-nos, portanto, muito mais confiantes em generaJ,izar
a expectativa de aumento em O, com incrementos em , para novos
contextos do que o faramos no caso 2c, que, de maneira semelhante,
pode ter efeitos principais significativos em A e B e uma significativa interao A-B. Podemos, com efeito, estar quase to confiantes
da generalidade do efeito principal de A' num caso como o de 2b
quanto no caso 2a livre de interao. Por certo, ao interpretarmos
os efeitos com propsitos de generalizao, deveramos represent-Ios
graficamente e examin-Ios nos pormenores. Algumas interaes
"mono tnicas" ou unidirecionais produzem poucas ou nenhuma limi.
taes de especificidade. (Ver Lubin, 1961, para uma' discusso ampla
desse problema.)
.i

52

Classific~~cs hicr4rquizadas

Nas ilustraes que apresentamos at agora, todos os critrios de


classificao (os e os BB) "cruzaram" todos os outros critrios
de classificao; Em outras palavras, todos os nveis de A ocorreram
com todos os nveis de Bj contudo, a anlise de varincia no se
limita a essa situao.
At aqui, usamos, como ilustraes, critrios de classificao que
eram "tratamentos experimentais". Outros tipos de critrios de classificao, tais como sexo e idade de alunos, pOderiam ser intrOduzidos em muitos experimentos como classificaes completamente
cruzadas; mas, paia introduzir os usos mais freqentes de classi~caes "hierarquizadas", preciso apresentar a possibilidade de critrios de classificao menos bvios. Um deles 'professQres". Operando
ao nvel completamente cruzado, pode-se fazer um experimento numa
escola secundria em que cada um de dez professores emprega cada
um de dois mtodos de. ensinar determinada matria a diferentes
classes experimentais. Nesse caso, "professores" seria um critrio de
classifi.cao completamente cruzado, sendo cada professor um
"nvel" diferente. O "efeito principal" de "professores" seria prova
de que alguns professores so melhores qo que 'outros, qualquer que
seja o mtodo -usado. (Estudantes ou classes devem ser atribudos ao
acaso, sob pena de haver "confuso" de idiossincrasias de professores e diferenas de seleo_) Uma interao significativa eIltre
professoreS e mtodos evidenciaria que o mtodo que deu melhor
resultado dependeu de um tipo especial de professor.
Suponhamos agora, acompanhando tal interao, que se quisesse
saber se determinada tcnica ou no, em geral, melhor para. professores do que para professoras. Dividimos ento nossos dez professores em dois grupos de cinco homens e cinco mulheres, com o que
ocorre,uma cl,assificao"hierarquizada", no sentido de que a classificao "professor", embora ainda til. no cruza seXos:isso q~er dizer
que o mesmo professor no aparece em ambos os sexos, ao passo
que cada professor'e cada sexo cruzam mtodos. Esse aninhamento
exige uma anlise. algo diferente daquela que seria requerida caso
todas aS dassificae~ cruzassem todas as outras. (Para anlises ilustrativas, ver Green.. e Tukey, 1960, e Stanley, 1961a.) Alm disso,
certas interaes de vari-yeis hierarquizadas so eliminadas. Por conseguinte, as intel'aes professores-sexo e professores-sexo-n:ttodono
so computvei~e, com efeito, no faze~ sentido conceitualmente.
"Professores" poderia tambm tornar-se uma classificao hierarquizada se, o experimento acima fosse estendido a vrias escolas, de
modo que escolas se tornassem um critrio de classificao (para o
.

53

r-

---

I
:\

.1

j
!!
;\

1i
.\
,\1

"

t~M
.

"

.I

qual os efeitos principais pudessem reflenr as diferenas em grau


de aprendizado por parte de estudantes de vrias escolas). Em taI
caso, professores seriam usualmente "hierarquizados" em escolas, de
maneira que um professor daria usualmente aula dentro de apenas
uma escola. Embora nessa instncia uma interao professor-escola
seja concebvel, no poderia ser computada, ~ no seJ:,que todos os
professores ensinassem em ambas as escolas, caso em que professores
e escolas seriam "cruzados" e no "hierarquizados".

d~peUdentes. Outra forma de encarar variveis independentes consider-Ias ~ntrinsedunente ordenadas (srie escolar, nvel scio-econmico, altura, tentativas, ett.) 'e no-ordenadas (mtodo de ensino,
matria, profesSor, sexo, etc.).' Os efeitos de variveis ordenadas
podem freqentemente ser analisados mais a fundo ~ fim de apurar
se a tendncia linear. quadrtica, cbica ou mais alta (Grant,
1956; Myers, 1959).

Estudantes ou sujeitos de um experimento podem tambm,. ser


tratados como um critrio de classificao. Num esquema totalmente cruzado cada estudante recebe cada um dos tratamentos, mas,
em muitos casQS,o estudante entra em vrios tratamentos, mas no
em todos; i~so quer dizer que ocorre hierarquiza~. Uma instncia
freqente o estudo de dados. tentativa-por-tentativa em aprendizado. Nesse caso, pode haver curvas de aprendizagem para cada
estudante, com. os estudantes separados entre dois mtodos de apren:
dizagem. Os estudantes cruzariam tentativas, mas no mtodos. Poderiam ser estudadas interaes tentativa-mtodo e estudante-tentativa, no, porm, intera~es estudante-mtodo. Analogamente, se
os estudantes so classificados por sexo, ocorre hierarquizao.'

Modelos finitosJ casuaisJ fixos e mistos

A maioria das variveis de interesse ,em experimentao educacional pode cruzar outras variveis e no precisa. ser hierarquizada.
Excees dignas de nota, alm das mencionadas acima, so: idade
cronolgica. idade mental, srie escolar (primeira, segunda, etc.) e
nvel scio-econmico. O leitor perspicaz pode ter notado que vari, veis independ.entes ou critrios de classificao so de vrias esp<;ies:
(I) variveis manipuladas, tais como mtodo de ensino, suscetveis
de ser atribudas vontade pelo experlmentadori (2) aspectos potencialmente manipulveis, tais COmOmatrias estudadas, que o experimentador pode atribuir de alguma forma casual aos estudantes
que est usando, embora raramente o faa; (3) aspectos ambientais
relativamente fixos, tais como escola, comunidade ou nvel scioecoI)mico,que' no se acham sob controle direto do experimentador,
mas servem como bases explcitas para estratificao no experimentOi (4) caractersticas "orgnicas" de alunos. tais como idade, altura,
peso e. sexo; e (5) caractersticas de resposta de' estudantes. tais
como escores em \!rios testes. 'Costumeiramente. as variveis independentes manipuladas da Classe I so de primordial. interesse, ao
passo. que as variveis' independentes no manipuladas das Classes
3, 4 e, por vezes, 5 servem para aumentar. a preciso e revelam quo
generalizveis so os efeitos das variveis manipuladas. As variveis
da Classe 5 usualmente aparecem como covariveis ou variveis
54

Recentemente; estimulados pelo manuscrito indito de Tukey

de 1949, vrios estatsticos matemticos construram modelos "finitos'~ para a nlise de varincia que aplicam amostragem de.
"nveis" de fatores experimentilis (variveis independentes) os prin~
dpios previamente aplicados com xito amostragem extrada de
populaes finitas. Scheff (1956) procedeu ao levantamento histrico desse desenvolvimento esc1arecedor. Q\ladrados mdios espera-.
~os, que ajudam a determinar "termos de erro" apropriados, podem
ser cQmputados (Stanley, 1956) para delineamentos atoriais de classificao trlplice completamente aleatrios. Modelos finitos so particularmente teis, porque podem ser prontamente generalizaaos ,para
situaes em que um ou mais dos fatores so casuais ou fixes. Uma
explicao simples de tais extenses (oi apresentada por Ferguson

(1959).

'

Em vez de fornecermos as frmulas, mostraremos. por uma.


ilustrao 'verbal, como' diferem as selees finita; casual e fixa de
nveis de um fator. Suponhamos que "professores" constituem uma
das vrias bases de claSsificao (isto , variveis independentes)
num experimento. Se houver 50 professores, poderemos selecionar
casualmente 5 e us-Ios na pesquisa. Ento apareceria em algumas
de nossas frmulas um coefiCiente de fator de amostragem igual a
I -5/50, ou seja. 0,9. Se fossem'usados todos os 50 professores, ento
"p~ofessores" seriam um efeito "fixo" e o coeficiente' passaria a ser
(1 - 50/50)
O. Se, de outro lado, existisse uma populao de
professores virtualmente infinita, 50 indivduos selecionados ca~malmente dessa populao constituiriam uma percentagem infinitesimal.
de modo que ~ coeficiente se aproximaria de 1 para cada efeito
"casual". Os coeficientes acima modificam as ftmulas para quadrados mdios esperados e, portanto, para termos de "erro". Mais pormenores podem ser encontrados em Brownlee- (1960), Cornfield e
Tukey (1956), Ferguson (1959), Wilk e Kempthorne (1956) e
Winer (1962). .

5S

,
I

Outras dimenses de extenso

Antes de deixarmos os experime~tos "verdadeiFos" para tratar


dos delineam~tos quase-experimentais, gostariamos de explorar algumas outras extenses deste simples ncleo, extenses essas apropriadas
a todos os delineamentos que devero ser discutidos.

uma rea de' certo modo afim da


Na rea da persuaso
Hovland e seus colaboradores apuraram,
educao e do ensino
repetidas vezes, que efeitos a longo prazo so no S qualitativa
mas tambm quantitativamente diferentes. Efeitos a longo prazo so
maiores do que efeitos imediatos no caso de atitudes gerais, embora
mais fracos com relao a atitudes especficas (Hovland, Lumsdaine
e Sheffield, 1949). Um locutor desacreditado no tem efeito persuasivo imediato, mas pode ter um efeito significativo um ms depois,
a menos que os ouvintes sejam lembrados da fonte (Hovland, Janis.
e Kelley, 1953). Esses resultados alertam-nos contra a tendncia de
fixar toda a nossa avaliao experimental de mtodos de ensino em
ps-testes imediatos ou em medidas aplicadas em algum nico instan-

te do tempo. A despeito dos problemas imensamente maiores de


execuo (e do inconveniente da programao de nove meses para
uma dissertao de PhD), no podemos deixar de recomendar que
sejam includos no planejamento da pesquisa perodos de ps-teste,
tais como de um ms, seis meses e um ano.

Quando as medidas de p6s-teste so graus e notas que sero .

registrados de qualquer forma, um estudo como esse no mais do


que um problema de arquivo {e mortalidade); mas quando os 00.
so introduzidos pelo experimentador, a maioria dos autores de
opinio que medidas de ps-teste repetidas dos mesmos estudantes
seriam mais enganosas do que o pr-teste. Isso tem sido apurado,
com certeza, em pesquisa sobre a memria (por exemplo, Uhderwood, 1957a). Embora o grupo de Hovland tenha usado tipicamente
um pr-teste (Delineamento 4), organiwu .grupos experimental e de
controle separados para cada ~ilao do ps-teste, por exemplo:
A
O X
O

.~
.f

;j

56

~
~"...

r--

O
X

Testagem de efeitos ao longo do tempo

1~

O
O

Uma semelhante duplicao de gmpos seria, exigida pelos Delineamentos 5 ou 6. Note-se que esse plano carece 'de controle perfeito em
seu propsito de comparar diferenas em efeito em funo do tempo
decorrido, porquanto as diferenas poderiam tambm ser .d.evidas a
uma intera~ entre X e os eventos histricos espedficos ocorridos'
entre o ps-teste a curto prazo e o ps-teste a longo prazo. Um completo controle dessa possibilidade conduz a delineamentos ainda mais
elaborados. Em vista da grande despesa de tais estudos, salvo quando
os 00 so obtidos' rotineiramente, seria de esperar que os pesquisadores que se prevalecem de 00 institucionalizados, repetidamehte
disponveis, fizessem uso das vantagens especiais de seus contextos
para acompanhar longitudinalmente os efeitos ao longo de muitos
instantes no tempo.
Generaliza:ndo para outros XX: variabilidade na execuo de X
o objetivo da cincia inclui no s generalizao para outras
populaes e tempos, mas tambm para outras representaes noidnticas do tratamento, ou seja, o1;ltrasrepresentaes que teorkamente deveriam ser as mesmas e que, entretanto, no so idnticas
em pontos especificos teoricamente irrelevantes. Esse objetivo contrrio extenso, freqentemente desejada, da busca de controle
experimental que conduz ao anseio de uma rplica exata do X em
cada repetio. Assim, ao estudar o efeito de um apelo emocional
versus um apelo racional, pode-se ter o mesmo orador fazendo todos
os apelos a cada tipo de grupo ou, mais extremamente, podem-se
gravar os apelos de modo que todas as audincias de um dado tratamento ouam "exatamente a mesma" mensagem. Isso pode parecer
melhor do que ter vrias pessoas fazendo cada apelo apenas uma
vez; visto que, neste ltimo caso, "no saberamos exatamente" que
estmulo experimental foi aplicado em cada sesso; mas o que ocorre.
precisamente o contrrio, se por "saber" entendermos. a habilidade
de apreender a classificao abstrata apropriada ao tratamento e
transmitir a infprmao efetivamente a novos usurios. Com a entrevista gravada, repetimos cada vez muitos pormenores espedficos
irrelevantes; por tudo que sabemos, esses pormenores, no as carac~
ter:lsticas essenciais, -foram responsveis pelo efeito. Se, contudo,
tivermos muitas exemplificaes independentes, as irrelevncias especificas no tero condies de se repetirem cada vez e nossa interpretao da fonte dos efeitos , pois, maiS provavelmente correta.
Considere-se, por exemplo, a comparao dos mtodos de exposio e discusso no ensino, feita por Guetzkow, Kel1y e McKeachie
57

- --I
.,,

if
;
;

(1954). Nosso "conhecimento" do. que eram os oatamentos experimentais, no sentido de fornecer recomendaes. a outros professores,
' melhor porque oito professores foram usados, cada 1,1.mdos quais.
interpretando cada mtodo a seu modo, o que no o seria, .se apenas
tivesse sido usado um professor ou se os oito tivessem memomadQ
pormenores comuns no includos na descrio abstrata dos procedimentos sob comparao. (Essa nfase sobre execuo heterognea
de X. deveria ser acompanhada, se possvel, como em Guetzkow
et aI., 1954, pela execuo de cada tratamento por cada um dos professores experimentais, de modo que as irrelevncias especficas no
se confundam com o tratamento especfico. Para estimar-se a 'significncia da interao professor-mtodo, caso sejam empregadas classes
intactas, cada professor dever exe~utar cada mtodo duas vezes.)
Numa ilustrao mais bvia, Um estUdo do efeito do sexo do
professor em instruo inicial' de aritmtica deveria usar numerogos
exemplos, de cada sexo, no apen!iS um de cada. Embora seja essa
uma precauo bvia, nem sempre tem sido tomada, como observou
Hammond (1954). O problema um aspecto da nfase de Brunswik
(1956) em delineamentos representativos; Underwood (1957b, pp. 281287), seguindo a mesma linha de pensamento} argiu objees
exata padronizao ou exata rplica de aparelliamento de um
estudo para outro, numa atitude no incompatvel com seu vigoroso operacionalismo.
Generalizando .para outros XX: refinamento seqencial de X e novos
grupos de controle
'

O X real de-quIquer experimento um conjunto co~plexo


do que eventualmente ser conceitualizado como diversas variveis.
Uma vez observado um efeito forte e ntido, o curso da cincia .consiste em ult:riores experimentos que refinem X, depurando aqueles
aspectos que so. os mais essenciais para o efeito. Esse refinamento
pode ocorrer atravs de tratamentos mais especificamente definidos
e representados ou atravs da criao de novos grupos de controle,
que venham a emparelhar-se ao gtupo expeiimental em cada vez
maior nmero de caractersticas do tratamento, reduzindo 'as diferenas a caractersticas mais especficas do complexo X original.
Isso ilustrado pelo grupo de controle placebo e pelo grupo de
controle falso ou aparente. Os experimentos iniciais demonstr3!am
um efeito internamente' vlido, que, todayia, pode ter, sido devido
ao conhecimento por parte do paciente de que ele estava sendo
tratado ou ao choque cirrgico e no aos ingredierites espedficos da
droga ou remoo do tecido cerebral. Da a introduo de con58

troles 'especiais contra essas possibilidades. A generalizao para


outros' XX uma srie exploratria de extrapolaes, gtiia4as' por
uma teoria e feitas b:l

de tentativas e erros. No curso desse pro-

cesso,o refinamntode __)pode deseri1penharum papel importante.


Generalizando para outros 00
Assim como um dado X traz consigo uma bagagem de especificidades teorkamente iI1i,elevantes que podem causar o efeito, assim
tambm qualquer dado O, qualquer dado instrumento de medida,
um complexo cujo contedo relevante se acha necessariamente inserido num contexto instrumental especfico, cujos. pormenores so
tangenciais ao objetivo terico. Assim, quando usamos lpis e folhas
de resposta mecanicamente corrigidas do tipo IBM; fazemo-lo usualmente por motivos de convenincia e no porque queiramos incluir
em nossos escores varincia devida a habilidades de escritrio, familiaridade com a forma do teste, aptido de seguir instrues, 'etc.
De forma semelhante, nosso exame de desempenho em matria especfica atravs de prova de dissertao deve ser feita 'por meio dos
veculos de escrita e uso de vocabulrio e, por conseguinte, deve
conter varincia devida' a tais fontes freqentemente irrelevantes a
nossos propsitos. Dada essa inerente. complexidade de qualquer O,
defrontamo-nos com um problema toda vez que queiramos generalizar a outros 00 potenciais. A que aspecto de nosso O experim'ental
se deveu esse efeito internamente vlido? Uma vez que os objetivos
do ensino no so apenas os de preparar pesso!iSpara futuros exames
objetivos e dissertativos, esse pro~lema de validade ex'terna ou generalizabilidadedeve estar sempre presente em nossa mente.
Ainda uma vez, conceitualmente, a soluo no est em esperar
piamente por medidas "puras" sem complexidadesirrelevantes, mas
sim em usar medidas mltiplas em que os veculos especficos e os
pormen_ores irrelevantes especficos so to diferentes quanto possvel,
embora esteja presente' em cada um o contedo comum que nos
interessa. Nesse particular, muito mais pode ser feito, dentro de um
nico experimento, em proveito de 00, ,do que de 'XX, porquanto
usua!mentepossvel obt~r muitas medidas do efeito, (ou seja, das
variveis dependentes) num. experimento. No estudo de autoria de
Guetzkow, Kel1y e McKeachie (1954), foram notados efeitos no s
durante exames 'e em testes de atitude especial introduzidos com
esse propsito, como tambm em certos comportamentos subseqen'tes como escolha de rea de especializaO' (major) e matrcula em
cursos avanados no mesmo tpico. (Esses comportamentos demonstraram ser to sensveis a diferenas de tratamento quanto as medi59

,t

Deiineamentos
quase-experimentais
1\

das de teste.) Em qualquer estudo de mtodos de ensino, 00 m11ltipios deveriam se" um requisito ortodoxo. Ao nvel mais simples, deveriam ser usadas ambas as provas: dissertativa e objetiva (ver Stanley
e Beeman, 1956), paralelamente, sempre que possvel, a ndices de
participao da classe, etc. (Campbell e Fiske, 1959, e Campbell,
1960, fornecem uma extenso dessa perspectiva questo da validade
dos testes.)

I'
I

H muitos <ontextos sociais naturais em que o pesquisador pode


introduzir algo semelhante ao delineamento experimental em sua programao de procedimentos de coleta de dados (por exemplo, quando
e quem medir), ainda que lhe falte o pleno controle da 'aplicao
dos estimulas experimentais (qllaT)do e quem expor e a capacidade
de casualizar exposies) que toiba possivel 'um autntico experimento. Coletivamente, tais situaqes podem ser encaradas como
delineamentos quase-experimentais. rUm dos propsitos deste capitulo
incentivar a utilizao de tais quase-experimentos e aumentar o
conhecimento das espcies de contextos em que se apresentam oporumidades de empreg-Ias; mas justamente porqu~ falta completo
controle xperimental, torna-se imperioso que o pesquisador tenha
plena conscincia das variveis espedficas.que s~u delineamento deixa
de controlar. Foi para atender essa necessid~e de avaliar quase-experimentos, mais do que para entender os experimentos verdadeiros,
que foram organizadas as listas de fontes de invalidade, constantes
das Tabelas I, 2 e 3.
provvel que o estudante mdio ou o aspirante a pesquisador,
aps a leitura da seo anterior deste captulo, acabe com a mente
povoada de mais preocupaes do que esperava a respeito do plane-,
jamento de um experimento. Isso s poder redundar em seu benefcio, se o levar a planejar e executar melhores experimentos e a ser
mais cauteloso em' tirar inferncias dos resultados. Acarretar, contqdo, um, efeito secundrio indesejvel, se criar uma sensao de
des,esperana em relao obteno de controle experimental e induzir renncia de esforos em favor de mtodos de investigao ainda
"

mais informais.

(
60

Ademais, essa lista formidvel

de fontes de invalidade

15Esta seo baseia-se predominantemente em Delineamentos Quase-Experimentais


a Serem Usados em Contextos Sociais Naturais. In: Campbell, D. T. EKPerimenting, JTalidating, Knowing: Problems of Melhod in lhe Social Sdences. New
York: McGraw.HiIl, em prepara.llo.
'
61

.:".

..-

--I

-,
II
i;

f
f
~

talvez possa, com maior probabilidade ainda, reduzir a vontade de


adotar delineamentos quase-experimentais, cuja ipr6pria estrutura
evidencia a falta de pleno controle experimental. Tal efeito seria o
oposto do objetivo colimado.
Do ponto de vista da interpretao final de um experimento e
da tentativa de inseri-Io na cincia em curso, todo experimento
imperfeito. O que uma lista de critrios de validade pode fazer
alertar o experimentador para as imperfeies residuais de seu esquema de modo que,. em pontos relevantes, possa ter conscincia de interpretaes alternativas de ses dados. Ele deve, lgico, planejar o .
melhor experimento que a sit\!.ao permita. Deve, deliberadamente,
recorrer aos laboratrios naturais e artificiais capazes de fornecer as
melhores oportunidades de controle: Alm disso, porm, deve prosseguir em seu experimento e em sua interpretao, completamente
ciente dos pontos em que os resultados so equivocos. Embora tal
conscincia seja importante par experimentos em que foi garantido
"absoluto" controle, crucial no caso de delineamentos quase-experimentai's.
Ao implementar esse objetivo geral, procederemos, nesta parte
do capitulo, ao lev;mtamento das eficincias e deficincias de uma
coleo heterognea de delineamentos quase-experimentais, cada um
deles considerado digno de ser usado quando no forem viveis melhores modelos. Inicialmente, sero discutidos trs delineamentos
experimentais de um nico grupo. Em seguida, sero apresentados
cinco tipos gerais de experimentos de grupos mltiplos. Outra seo
tratar de correlao, pesquisas ex post facto, estudosde painel e

coisassemelhantes. .

Alguns comentrios preliminares sobre a teoria da experimentao


Esta seo destina-se primordialmente ao educador que queira
conduzir sua pesquisa fora do laboratrio e dentro da situao ope.
rante. No obstante, os autores no podem deixar de estar cientes
de que psiclogos experimer.ltais podero encarar com grande suspeita qualquer esforo no sentido de sancionar estudos que se ressintam da falta de controle experimental completo. Os seguintes comentrios gerais sobre o papel de experimentos em cincia so tecidos
em parte para justificar a presente atividade aos olhos de tais criticos.
Esses comentrios so considerados compatveis com as mais modernas filosofias da cincia e derivam de um perspectiva da psicologia
geral potencial dos processos indutivos (Campbell, 1959).
62

:.ti:.~,.-_

Assim como outros processos cognitivos, a cincia envolve a


proposio de teoria, hipteses, modelos, etc., e a aceitao ou rejeio dos mesmoli com base em alguns critrios externos. A experimentao pertence a essa segunda fase, ou seja, fase de desbaste,
rejeio e edio. Podemos pressupor uma ecologia para a nossa
cincia em que o nme o e hipteses positivas potenciais excede de
muito o nmero de ipteses que resultaro ser compatveis
com as nOS!iasobserva es. A tarefa de coletar dados para testar teorias , pois, predominantemente, uma tarefa de rejeitar hipteses
inadequadas. Ao cumprir essa misso, qualquer organizao de observaes para as quais . certos resultados possam rejeitar Uma teoria
seria til, inclusive os delineamentos quase-experimentais menos eficientes do que os experimentos verdadeiros.

Mas, pode-se argir, no resultaro tais delineamentos imperfeitos em confirmao d~ teorias inadequadas, desorientando nossos
esforos subseqentes e ocupando o espao de nossas publicaes com
. as dzias de estudos que parecem ser necessrias para erradicar um
falso positivo? t esse um srio risco; , porm, um. risco que precisamos correr. um risco partilhado em sua natureza, se no nO mesmo
grau, pelos experimentos "verdadeiros" representados pelos })elineamentos 4, 5 e 6. Num sentido muito fundamental, resultados experimentais nunca "confirmam" ou "provam" uma teoria: o que ocorre
que a teoria vitoriosa testada e deixa de ser rejeitada. A palavra
"prova", por ser freqentemente empregada para designar validade
dedutiva, adquiriu, em nossa gerao, uma conotao imprpria tanto
a seus usos antigos quanto sua aplicao a processos indutivos
como a experimentao. Os resultados de um experimento "pem
prova", mas no "provam" uma ,teoria. Uma hiptese adequada
uma hiptese que sobreviveu repetidamente a esse desafio, mas estar
sempx:esujeita a ser novamente posta prova.
hoje geralm~te ceito que a "mptese nula", freqentemente
empregada por convenincia para enunciar a hiptese de um experimento, no pode nunca .ser "aceita" pelos dados obtidos; ela pode'
apenas ser "rejeitada" ou "deixar de ser rejeitada". Coisa semelhante
acontece com hipteses mais gerais: tecnicamente, elas nunca so
"confirmadas": quando, por comodidade, usamos essa expresso,
entendemos implicitamente que a hiptese foi submetida a rejeio
e no foi rejeitada. Esse ponto de vista compatvel com as filosofias
da cincia inspiradas em Hume, as quais enfatizam a impossibilidade.
de provas dedutivas para leis indutivas. Recentemente, Hansn
(1958) e Popper (1959) mostraram-se particularmente explcitos a
63

tal respeito. Mu~tos conjuntos de dados -coletados em pesquisas sobre


ensino possuem pouco ou nenhum valor probante e muitos conjuntos
de hipteses acham-se de tal maneira. interligados que no podem
ser rejeitados pelos testes disponveis. Est fora de nossa inteno
aumentar a aceitabilida4e de tais pseudopesquisas. Os delineamentos
de pesquisas discutidos a .regulr so considerados suficientemente
exploratrios, de modo a serem havidos como dignos de uso quando
no sejam possiveis modelos mais eficientes.
"

A noo de que experimentos jamais "confirmam" ~ma teoria,


embora correta, fere a tal ponto nossas atitudes e experincias de
cientistas, que chega a ser quase intolervel. Essa nfase parece par- .
ticularmente insatisfatria em face das elegantes e espetaculares confirmaes. encontradas na Fsica e na Qumica, em que os dados experimentais POdem aderir, em seus menores detalhes, a nUmeroso~
pontos de medida de uma curva complexa predita pela teoria. E a
perspectiva torna-se fenomenologicamente inaceitvel a muitos de
ns, quando estendida aos desempenhos indutivos da viso. Por
exemplo, custa crer que as mesas e cadeiras que "vemos" diante de
ns no so "confirmadas" ou ",provadas" pela evidncia visual, mas
so "meras" hiptest:S sobre os objetos externos ainda no rejeitadas
pelas mltiplas exploraes do sistema visual. H um gro de verdade em tais relutncias.

Conferem-se vrios griIs de "confirmao" a uma teoria atravs


do nmero. de hipteses rivais plausveis disposio para explicar
os dados. Quanto menor o nmero de hipteses rivais remanescentes,
tanto maior ~".g;raude "confirmao". Presumivelmente, em qualquer
estgio. de. acmulo de evidncia, mesmo para a cincia mais avanada, h "numerosas teo.rias possveis compatveis com os .dados, particularmente. se forem admitidas teorias que envolvam contingncias
complexas. No obstante, em face de teorias "bem estabelecidas~' e
teorias testadas. a fundo por experimentos complexos, poucas Jtipteses rivais; se alguma houver, podem. ser encontradas ou seriamente
propostas. Esta escassez a contraparte epistemolgica da afirmao
positiva da teoria que experimentos elegantes.parecem oferecer. Uma
escassez comparvel de hipteses rivais ocorre no conhecimento feno~
menicamente positivo que a viso parece" 0 er cer em contraste, por
exemplo, com a relativa equivocidade da eXBorao tctil cega.

:t

Em tal perspectiva, a lista de fontes de' validade que os delineamentos experimentais controlam pode ser encarada como uma lista de
hipteses freqentemente plausveis que rivalizam ,com as hipteses
de que a varivel experimental teve um efeito. Quando um plano
experimental "controla" um de tais fatores, torna apenas essa hip~

64

"

"

tese rival no plausvel, embora ainda possa, atravs de eventuais


coincidncias complexas, agir de modo a produzir o resultado experimental. As "hipteses rivais plausveis" que provocaram o .uso
rotineiro de grupos de controle especiais possuem o status de leis
empricas bem estabelecidas: efeitos de prtica a exigir um.grupo de
controle no Delineamento 2, sugestibilidade a requerer o grupo de
controle placebo, choque cirrgico a impor o controle da operaosimulada.. As hipteses rivais so plausveis na medida em que quisermos emprestar-lhes o status de leis empricas. Quando faltem controles num quase-experimento, preciso, ao interpretar os resultados,
que se considere a fundo a probabilidade de que fatores no contralados sejam responsveis pelos resultados. O experimento ser mais
"flido"
quanto menos plausvel isso se tomar.
I
I

Como foi salientado na discussodo Delineamento 5 de Quatro

Grupos de Solomon, quanto mais numerosos e independentes os


trlodos pelos quais o efeito experimental de~onstrado, menos provvel e menos plausvel se toma qualquer hiptese rival capaz de
invalidar o experimento. O apelo que se faz no sentido da pardmnia. A "validade" da experimento se torna a validade da relativa
aiedibilidade das teorias rivais: a teoria de que X provocou um
efeito versus as teorias de causao envolvendo os fatores no controlados. Se vrios conjuntos de diferenas podem todos ser explicados pela nica hiptese de que X provocou um efeito, ao passo
que vrios efeitos separados de variveis no controladas precisam ser
admitidos hipoteticamente, de modo qu"e a cada diferena observada
corresponda uma varivel diferente, ento o efeito de X torna-se
o mais sustentvel. A esse modo de inferncia rec~rre-se freqentemente quando cientistas resumem uma literatura que peca pela falta
de experiII).entos perfeitamente controlados. Assim Watson (1959,
p..296) considerou ,confirmada a evidncia dos efeitos deletrios qa
carncia materna, potque essa explicao sustentada por uma ampla
variedade de tipos de evidncias, cujas especificas inadequaes
variam de estudo para estudo. Da mesma forma Glickman (1961),
a despeito da presena de hipteses rivais plausveis em cada estudo
disponvel, convenceu-se da evidncia do processo de consolidao
s porque a hiptese rival plausvel diferent~ de estudo para estudo. Esse aspecto inferencial, comumente usado. quando se comb41am
inferndas de vrios estudos, introduzido deliberadamente em
certos esquemas quase-exp"erimentais, especialmente em de1inea:mentos "remendados" como o Delineamento 15.
O apelo parcimnia no sustentvel dedutivamente, mas
um postulado geral .sobre a natureza do mundo, subjacente a quase
65

I;
li,"",

.-

-I
"!1
1 '

t
!
.f
-t

:~

todo o uso de teoria ~m cincia, apesar de freqentemente errneo.


em aplicaes espedficas. Relacionado a ele h outro argumento de
plausibilidade, que talvez invoquemos mais especificamente com relao ao muito amplamente usado Delineamento 10 (um bom esquema
qttase-experimental, muitas vezes confundido. com o verdadeiro Delineamento 4). Trata-se da pressuposio de que, em casos de igno~
rncia, um efeito principal de uma varivel deve ser julgado mais
provvel do que a interao de outras duas variveis; ou, mais geralmente, que efeitos principais so mais provveis do que int~ra~s.
Em forma extrema, podemos notar que, se -cada interao de ordem
mais alta ' significativa, se cada efeito espedfico a certos valores
em todas as outras dim~nses de tratamento potencial, ento a cincia .no possvel. Se algumas vezes podemos generalizar porque
o grande nmero de fatores determinantes potenciais pode; ser ignorado. Underwood (1957b, p. 6) referiu~se a esse fato como a pressuposio de causao finita. Alhures Underwood (1954) contou a freqncia de efeitos principais e lnteraes constantes 90 Journal of
Experimental Psychology, confirmando a relativa raridade de interaes significativas (embora a seleo editorial, ao favorecer resultados
ntidos, torne sua concluso suspeita).
A seguir, trataremos inicialmente de experimentos de um nico
grupo. Desde 1920, pelo menos, o plano experimental dominante, em
.Psicologia e Educao, tem sido o esquema com grupo de controle, de
que so exemplos o Delineamento 4, Delineamento 6 ou, talvez mais
freqUentemente, o Delineamento 10, a ser discutido adiante. Em Cincias Sociais e na abordagem de situaes de campo, os esquemas com
grupo de controle dominam de tal forma que a muitas pessoas parecem sinnimo de experimentao. Em conseqncia, muitos pesquisadores podem renunciar a conseguir algo semelhante exp.erimentao toda vez que no existam grupos de controle e, assim, acabam
enfrentando maior impreciso do que seria necessrio. H, .com
efeito, vrios delineamentos quase-experimentais aplicveis a grupos
nicos que podem ser usados com vantagem, com uma lgica e interpretao experimental, em muitas situaes em que o esquema com
grupo de controle seria impossvel. Cooperao e acesso experimental
apresentam-se freqentemente em unidadeS administrativas naturais:
um professor tem sua prpria classe disponvel; um diretor de escola
pode querer introduzir peridicos levantamentos do moral, etc. Em
tais situaes, o tratamento diferencial de segmentos dentro da unidade administrativa (exigido pelo experimento com grupo de con.
trole) pode ser administrativamente impossvel ou, ainda que possvel,
experimentalmente desaconselhvel em face dos efeitos reativos de
66

montagem. Em tais casos, bem podem ser considerados experimentos


de um nico grupo.
7. O experimento de srie temporal
~

~:

A essncia do delineamento de srie temporal a presena de um


processo peridico de medida em algum grupo ou indivduo e a
introduo de uma mudana experimental nessa srie temporal de
medidas, (:ujos resultados so indicados por uma descontinuidade
nas medidas registradas na srie temporal. Seu diagrama pode ser
este:
01 O2 Os 04XOfj 0\ 07 Os

Esse esquema experimental tipificou ~Ultas das experimentaes clssicas do sculo XIX nas Cincias Fsicas e na Biologia. Por
exemplo, se uma barra de ferro que permaneceu inalterada em peso
por muitos meses imersa num banho de cido ntrico e em seguida
removida, a inferncia associando o banho de cido ntrico perda
"de peso pela barra de ferro seguiria esse tipo de lgica experimental.
~ bem possvel que tenha havido "grupos de controle" de barras de
ferro que permaneceram na prateleira e no perderam peso, mas a
medida e a comunicao de tais pesos no seriam considerados tipicamente necessrios ou relevantes. Parece provvel, pois. que esse
plano experimental seja freqUentemente encarado como vlido
em cincias mais bem sucedidas embora raramente tenha conseguido.
status nas enumeraes de esquemas experimentais disponveis nas
cincias sociais. (Ver, contudo, Maxwell, 1958; Underwood, 1957b,
p. 133.) H boas razes para esse status diferencial e uma anlise
cuidadosa dessas razes ensejar melhor compreenso das condies
em que Qesquema possa ser usado validamente pelas Cincias Sociais,
desde 'qu seja impossvel mais eficiente controle experimental. O
delineamento tpico dos experimentos clssicos da "British lndustrial Fatigue Resear'ch Board" sobre fatores capazes de afetar a produ~o das. fbricas (por exemplo, Farmer, Brooks e Chambers, 1923).
A Figura 3 indica alguns possveis padres de sada para sries
. temporais em que uma alterao experimental tenha sido introduzida; como se v~ representado pela linha vertical X. Para fins de
argumentao, suponhamos que algum seja tentado a inferir que X
causou algum eleito em uma srie temporal com resultados como
os de A e B e, possivelmente, C, D e E, mas que rto se sinta inclinado a inferir um efeito em sries temporais do .tipo F, G e H,
embora o salto em valores de 04 para 06 fosse to grande e estatisti67

"1
t
i

..

Y'I

11 'A

I
8

D
E

,.

Os

O,

O.

Figura 3. Alguns padresde possi"eisresultadosda introduode'uma vari~el

experimental

numa srie temporal de medidas, 01


OS' Exceo feita de D, O
05 o mesmo em todas as sries temporais, 'embora a legitimidade
de se inferir um efeito varie amplamente.
O efeito mais forte em A. e B e

ganho 4

totalmenteinjustificadoem F, G e H.

68

'

camente estvel quanto a diferena de 04 para 06 nos casos A e B,


por exemplo: Embora a discusso do problema. de testes estatstico!,
seja adiada por alguns pargrafos, pressupe-se que o problema da
validade interna envolve a questo de hipteses rivais plausveis
capazes de oferecer explicaes alternativas verossmeis de que o
salto na srie temporal efeito de outra causa que no X. Uma
tentativa de apontar os controles ensejados por esse experimento sob
essas condies timas de sada apresentada na Tabela 2. Os aspectos positivos do esquema de srie temporal so mais evidentes quando
comparados com o Delineamento 2, com o qual tm uma semelhana
superficial, pois ambos no possuem grupo de controle e ,ambos usam
medidas antes e depois.
Exam~nando a lista de problemas de validade interna na' Tabela 2, notamos que a incapacidade de controlar histria a fraqueza
mais decisiva do Delineamento 7. Em outras palavras, persiste a hiptese rival de que no foi X, mas algum evento mais ou menos simultneo que produziu o salto. na plausibi1i~ade de eliminar tais estmulos estranhos que deve repousar, em cada instncia dada, a crena
na interpretao desse experimento. Considere-se um experimento que
envolva medidas repetidas e o efeito de um filme documentrio
sobre o otimismo dos estudantes acerca da probabilidade de guerra.
Neste uso, a incapacidade de fornecer um ntido controle de histria,
p'arece de fato muito sria" uma vez que os estudantes so obviamente
expostos, todos os dias, a muitas fontes de estimulo potencialmente
relevantes alm das que se acham sob o controle do experimentador
na sala de aula. Naturalmente ta~bm neste cas, houvesse o experimentO de ser acompanhado por um registro de estmulos no-experimentais de possvel relevncia, uma interpretao plausvel poderia
ser alcanada, tornando o experimento digno de ser feito. Como j
foi observado antes, a varivel histria a contra parte do que, na
cincia de laboratrio fsica e biolgica, tem, sido chamado "isolamento experimental". ,A plausibilidade de histria como uma 'explicao de saltos <:omo os observados nas sries temporais 'A e B da
Figura 3 depende, numa medida considervel, do grau de isolamento
exp&imental que o experimentador pode te):"conseguido. Os estudos
sobre reflexo condicionado feitos por' Pavlov com ces, essencialmente experimentos de "um grupo" ou de "um animal", teriam sido
muito menos plausveis como sustentculos das teorias de 'Pavlov
se tivessem sido conduzidos ntmia esquina movimentada e no num
laboratrio prova de som. O que constitui isolamento experime~tal
varia com o problema sob estudo e 'com o instr1iID.entode medida
'usado. So necessrias maiores precaues para conseguir isolamento
experimental para 'um estudo de cmara de nuvem ou contador de
69

r- --

Tabela 2. Fontes de invalidade para Delineamentos quase-experimentais


Fontes. de invalidade
Interna
Externa

'5-

,
I

.,

.. :a
~
e
... lU

U
'O

11.~

:1

? -

+ ++ ++ + I

+ ++ +++ + ? J ?

? -

+ + + + ? + + -I

com grupo

O
O
11. DelineamenLOs contrabalanados
X10 X20 XaO -X4O

11I
'O

...--.....--..

~
'iI

de controle no.equivalente

f3 o
'g
11
'I)!
'C
bO
I)
o
==
f3 ::I

+ + ?+++
++ + +++

temporais equivalentes
X10 XoO X10 XoO, et
9. Delineamento de amostras + +
de materiais equivalentes
MaXIO MbXOOMoXIO MdXOO.etc.

...

o-

O OXO O O
8. Delineamentode amostras+

10. Delineamento

" .
" '00

... ..
u
'B.
ri c
01 ~
0><: o
0r!
I() "f ><:
'5'a.
e
.;:: ~
'ta eu 11I eu .~
."9 :I
'O ~"o cn
~ 11 t:: -u~~~
__ o ~ ~ y 8 ~><: C u_
l '1 E-o1! ~ ~ '1 oS" oSfo .; " 8 .E.g.
O

Delineamentos
quase-experi.
mentais:
7. Serie temporal

o
';'iI~
'" "

7 a 12.

.._----------------

X20

X40 X10. XaO


-------._._----_.XaO X10 X40 X20
-------.-.--------X40

XaO

X20

X10

12. Delineamento

com pr e -

pstestede amostrasdistintas.
A

_ + .? + + _ _

+ +

(X)

12a.A
A (X)
+ _ + ?+ + _ + + + +
X
-----------------..
A
(X)
A
X
(X)
12b. A 01
- + + ? + + - :1 I + ---=F1=
A
02 (X)
X

A
12c.A 01
A
70
[ij
lt,,,,,...

2
a

a
--+?+++

-1+

.+ +

cintilao de partculas subatmicas do que para o experimento


hipottico sobre o peso de barras de ferro expostas a banhos de
cido ntrico. Em muitas situaes em que o Delineamento 7 possa
ser usado, o experimentador poderia, plausivelmente, alegar existncia de isolamento experimental no sentido de que estaria ciente de
eventos rivais possveis capazes de causar tal mudana e poderia,
plausiveImnete, reduzir a probabiIidade de que sejam responsveis
pelo efeito.
.
Entre outras variveis estranhas que podem, por convenincia,
ser arroladas sob histria acham-se os efeitos do tempo e os efeitos
da estao. Experimentos desse tipo tendem a estender-se por perodos
de tempo que envolvem mudanas de estao e, assim como nos
estudos de produo de trabalhadores, as flutuaes sazon;lis em
iluminao, temperatura, etc., podem ser confundidas com a mudana
experimental. Talvez melhor includas tambm no conceito de histria, embora em certo sentido afins maturao, seriam as mudanas peridicas em sries temporais relacionadas com os hbitos institucionais do grupo, tais como os ciclos de trabalho semanais, ciclos
de perodos de pagamento, pocas e exame, frias e festividades
estudantis. As sries de observao de eriam ser dispostas de tal forma
a manter constantes os dclos conhecid ou ento ser suficientemente
longas de modo que incluam vrios de tais ciclos em sua inteireza.

Continuemos com os fatores .a serem controlados: maturao


parece eliminada no sentido de que, se o resultado semelhante aos
das ilustraes A e B da Figura 3, maturao no constitui usualmente hiptese rival plausvel para explicar um salto ocorrente entre
04 e OG que no ocorreu nos perodos de tempo anteriores sob
observao. (Contudo, nem sempre a maturao de natureza suave
e regular. Note-se como a abrupta ocorrncia da menstruao em
meninas do primeiro ano da junioT high school pode, num Delineamento 7, apresentar-se como um efeito da mudana por parte da
escola nos dados fisiolpgicos.) ~alogamente,
testagem parece, em
geral, uma hiptese. rival implausvel para um salto de 0,1 para 01S'
Se houvesse apenas uma observao em 04 e outra em OG,como no
Delineamento 2, ento os efeitos de ma turao e teste-reteste poderiam ser plausveis. essa a grande vantagem desse delineamento
sobre o Delineamento

2.

De modo semelhante, muitas hipteses que alegassem mudanas na. instrumentao pecariam pela falta de uma razo espedfica
que justificasse a expectativa de o erro instrumental ocorrer .nessa
ocasio particular e no em outras anteriores; conudo, o ponto de
interrogao na Tabela. 2 chama a ateno para situaes em que
71

,!
~

i.
!

~.

!
;

:t
;,I

uma mudana na calibrao do instrumento de medida possa ser


interpretada como o efeito de X. Se o processo de medida envolve
os julgamentos de observadores humanos que estejam a par do plano
experimental, uma pseudoconfirmao da hiptese pode ocorrer
como um resultado das expectativas do observador. Assim, a mudana
experimental de empossar um novo diretor pode produzir uma
mudana no registro das infraes disciplinares mais do que no prprio ndice de infraes. O Delineamento 7 pode freqentemente ser
empregado para medir efeitos de uma mudana maior na' poltica
administrativa. Tendo isso em mente, seria prudente evitar substituir
instrumentos de medida ao mesmo tempo que se muda de poltica.
Na maioria das instncias, para preservar a interpretabilidade de
uma srie temporal, seria melhor continuar usando um instrumento
algo antiquado do que passar para um novo instrumento.
Os efeitos de regres
so usualmente uma funo negativamente acelerada do tempo
corrido e so, pois, implausveis como
explicaes de um efeito em 6 maior do que os efeitos em O2, Oa
e 04, Seleo como uma fonte de efeito principal eliminada tanto
neste como no Delineamento 2, desde que as mesmas pessoas
especficas estejam envolvidas em todos os 00. Se os dados de um
grupo forem basicamente coletados em termos de membros individuais do grupo, ento mortalidade pode ser excluda tanto neste
experimento omo no Delineamento 2. Entretanto, se as observaes
consistirem em produtos coletivos, ento deveria ser feito um registro da ocorrncia de faltas, desistncias e substituies a fim.de garantir que coincidncias de mudana dos sujeitos no constituam hipteses rivais plausveis.

No que. se refere a validade externa, claro que o efeito experi~ental bem pode ser especifico quelas populaes sujeitas a testes
repetidos. t essa uma limitao provvel em pesquisas sobre o ensino
em escolas. a menos que o experimento seja conduzido com 00 aru,'ficiais, no comuns no contexto escolar costumeiro. Alm disso, esse
esquema ajusta-se particularmente quelas situaes institucionais' em
que dados so regularmente registrados e, pois, constituem uma parte
natural do ambiente. Testes anuais de desempenho nas escolas pblicas, fichas de sade, etc., so usualmente no reativas no sentido
de que so tpicas do universo para o qual se quer generalizar. A
interao seleo-X refere-se . limitao dos efeitos da varivel
experimental quela amostra especfica e possibilidade de que essa
reao .no seria Upica de algum outro universo geral de interesse
para o qual o grupo-de-exposio naturalmente agregado constituiu
uma amostra viesada; .Por exemplo, as exigncias dos dados podem
limitar a pesquisa aos estudantes que tiveram cem por. cento. de

[i

72

:1

j
j

,
I

I
;J

fj

~' ~
'/':""

treqncia por muitos perodos - umsubconjunto obviamente selecionado. Alm disso, se foram usados novos 00, essa ocorrncia
repetitiva pode ter provocadb ausncias.
Se tais sries temporais devem ser interpretadas como experimentos, parece essencial que o experimentador deva especificar, de
antemo, a esperada relao temporal entre a introduo da varivel
experimental e a manifestao de um efeito. Se isso tivesse sido feito,
o padro indicado na srie temporal D da Figura 3 poderia ser
quase to definitivo quanto o padro em A. Levantamentos exploratrios .que decidam. oportunisticamente sobre a interpretao de
efeitos retardados exigiriam validao {:ruzada antes de se tomarem
interpretveis. Na medida em que o intervalo de tempo entre X e
um efeito aumenta, a plausibilidade de efeitos de eventos histricos
estranhos tambm aumenta.
Parece tambm imperativo que o X seja especificado antes de
se examinar o resultado da srie temporal. O exame post hoc de
uma srie temporal para inferir qual X precedeu a mudana mais
dramtica deve ser excludo porque a capitalizao oportunstica
de resultados casuais que tal exame encerra toma difcil, se no
impossve1, qualquer teste de signifkncia de efeitos.
A adoo desse delineamento pelas cincias mais desenvo~vidas
deveria torn-Io merecedor de algum respeito. No obstante, no nos
podemos esquecer de que os fatos de "isolamento experimental" e
"condies {:onstantes" o fazem mais interpretvel por elas do que
por ns. Deveria tambm ser lembrado que, quando tais cincias o
usam, um nico experimento jamais conclusivo. Embora possa
ocorrer que um grupo de controle nunca seja usado, o Delineamento
7 repetido em muitos lugares diferentes por vrios pesquisadores
antes que se estabelea um principio. Essa tam~m deveria ser nossa
norma ao us-Io. Ser usado sempre que no seja posstvel algo com
melhor controle.. Organizaremos nossos arquivos institucionais de
modo a ensejar t~ntas sries temporais quantas forem possveis para
tais avaliaes e tentaremos examinar com mais cuidado os efeitos de
mudanas administrativas e outros eventos a.~pitrrios e abruptos
como XXj mas esses efeitos no sero encarados como definitivos
enquanto no tiverem sido replicados muitas' vezes em vrias
situaes.
Testes de significncia para os delineamentos de sries tempm'ais
Se as dncias mais avanadas usam testes de significncia menos
do que o fazem a psicologia e a educao, sem dvida porque a
73

-I
','"

H
II
I

magnitude e a -clareza dos efeitos com que se defrontam so tais.


de modo a tornar os testes de significncia desnecessrios. Se nossos
testes de significncia fossem aplicados, seriam. encontrados elevados graus de significncia; todavia, parece tpico da ecologia das
cincias sociais trabalhar minrio de baixo grau em que so necessrios testes de significncia. Parece tambm provvel que, toda vez
que o senso comum ou consideraes intuitivas apontam para um.
efeito Itido, usualmente possvel algum teste de signifidncia que
formalize argumentos subjacentes ao julgamento intuitivo. Assim,
podemos dispor de testes de significncia d~s efeitos de X que distinguiriam entre os. vrios resultados ilustrados na Figura 3, julgando A e B significativos e F e G no significativos.
Em primeiro lugar, porm, preciso que rejeitemos, por inadequadas, certas abordagens que possam ser concebidas. Se os dados da
Figura 3 representam mdias de grupos, ento um simples teste de
significncia da diferena entre as observaes de O, e 01S insuficiente. Ainda que, nas sries F e G; tais razes t fossem altamente.
significativas, no poderamos encontrar nos dados evidncia do
efeito de X por causa da presena de outros saltos significatiVl)s
semelhantes ocorridos em ocasies para as quais no tnhamos uma
explicao experimental correspondente. Quando algum tem diante
de si a espcie de dados fornecidos por levantamentos da opinio
nacional, comum encontrar saltos altamente significativos de um
levantamento para outro, os quais constituem ruido casual para o
cientista intrprete, desde que representam uma parte da variao
nos fenmenos para a qual ele no tem explicao. O efeito de um
evento ntido ou de uma varivel experimental precisa elevar-se
acima desse ~vel ordinrio. de salto para ser interpretvel. De fonna
semelhante, um teste de significncia que env()lva os .dados reunidos
de todas as observaes do pr-X e do ps-X inadequado, uma vez
que no distinguiria entre instncias do tipo F e instncias do
tipo A.
.
Uma no. independncia perturbadora existe que deve ser levada.
em considerao ao desenvolver um teste de significncia. Fosse essa
no-independncia distribuda por todas as observaes, no haveria
ameaa validade interna, embQra a validade externa se-visse limitada. O que perturbador que, em quase todas. as sries temporais;
se constatar que observaes adjacentes so mais semelhant.es do
que as no-adjacentes (isto , que a autocorre1ao da defasagem
[lag] I maior do que a autocorrelao da defasagem ~, etc.). Assim,
uma influncia estranha ou perturbao casual que afetem um. ponto
de observao, digamos em 06 ou 0a, repercutir tambm em 07

74

e Os, sendo, dessa forma, ilegtimo trat-os como yrios. desvios


independentes da extrapolao da tendncia de 01 - O,.
O teste de .significncia empregado depender, em parte, da
natureza hipotetizada do efeito de X. Se estiver envolvido um modelo como o da linha R, ento poderia ser sado um teste de desvio
por parte de 011da extrapo1ao de 01
04, Mood (1950, pp. 297298) fornece tal teste. Esse teste poderia ser usado em todas as instncias, mas seria necessariamente fraco toda vez que fosse admitida a
hiptese de um aumento contnuo ou de um ndice crescente de
ganho. Em tais casos, .pareceria mais apropriado um teste que
fizesse uso de todos os pontos. Dois componentes existem que podem
entrar nesses testes de significncia. So eles a intercepo e a inclinao. Por intercepo entendemos o salto na srie temporal em X
(em alguma fase especfica aps X). Assim, as ~nhas fI e C mostram
um salto ou intercepo sem evidenciar qualquer mudana na inclinao. A linha E mostra uma mudana na inclinao, mas nenhuma
mudana na intercepo no sentido de que a. extrapolao pr-X e a
extrapolao ps-X coincidem. FreqUentemente tanto a intercepo
quanto a inclinao seriam alteradas por um X efetivo. Um teste
puro de intercepo pode ser obtido de um modo anlogo ao da
aplicao do teste de modo a partir de ambas as direes de uma
. vez. Nesse caso, estariam envolvidos dois pontos extrapo1ados, sendo
tanto as observaes pr-X quanto as observaes ps-X extrapola.
das a um ponto X equidistante de 04 e 011'

Testes estasticos envolveriam, provavelmente; em todas as


sries temporais exceo das mais extensas, ajustainentos lineares
aos dados, no s por conver.incia como tambm pbrque. um ajustamento mais exato esgotaria os graus de liberdade; no deixando
oportunidade para testar-se a hiptese de mudana; contudo, a pressuposio de linearidade pode, freqUentemente, no ser apropriada.
A plausibilidade de inferir-se um efeito de X maior nas adjacncias
de X. Quanto mais ~adual ou retardado o suposto efeito, tanto mais
sria sua confuso com histria, porquanto as causaS estranhas possveis se tomam mais numerosas.
~
8. O delineam~to

de amostra!! temporais equivalentes

A forma mais usual de delineamento experimental emprega uma


amostra. equivalente de pessoas para fornecer uma linha de base em
relao qual se possam comparar os efeitos da varivel experimental. Em contraste, a fonna recorrente de experimentao de um
75

rr
j
ii
,

!I

:, !
~

X10

.i

ao longo de. perodos mensais. Assim, num experimento e1e pde


comparar 56 dias de msica com 51 dias sem nisica e, em outro,
pde comparar trs diferentes tipos de msica, cada um dos quais
representado por amostras equivalentes de 14 dias.
Da forma pela qual foi empregado por Kerr, por exemplo, o
Delineamento 8 parece tambPl internamente vlido. Histria, a
maior fraqueza da srie temporal, controlada pela apresentao de X
em numerOsas ocasies distintas, tornando e:lf,tremamente improvvel
qualquer explicao rival baseada na coincidncia de eventos esttanhos. As outras fontes de invalidade so controladas pela mesma

grupo emprega duas equivalentes amostras de ocasies, numa das


quais a varivel experimental est presente sem que o esteja na
outra...Esse esquema pode ter o seguinte diagrama (embora se queira
uma alterao mais casual do que regular):
XoO

XIO

XoO

Esse delineamento pode ser visto como uma forma do experimento de


srie temporal com a introduo repetida da varivel experimental.
O experimento Q15viamentemais til quando o efeito da varivel
experimental a fecipado como de carter transitrio ou reversvel.
Enquanto a lgic do experimento pode ser vista como uma extenso
do experimento 1e srie temporal, o modo de anlise estatstica
mais tipicamente semelhante ao do experimento de dois grupos
em que empregada a significncia da diferena entre as mdias de
dois conjuntos de medidas. Usualmente, as medi<{asso bem especificamente emparelhadas com as apresentaes da varivel experimental, sendo freqentemente concomitantes, como no caso de estudos de aprendizagem, produo de trabalho, condicionamento, reao
fisiolgica, etc. Talvez o primeiro dos usos mais tpicos desse esquema
experimental, como nos estudos de eficincia do trabalho de estudantes sob vrias condies de autoria de Allport (1920) e Sorokin
(1930), envolveram a comparao de duas variveis experimentais
uma com a outra, isto , Xl ve,.sus X2, e no a de uma com um
controle. Por muitos motivos, a simples alternao de condies e o
emprego de um espaamento temporal consistente so indesejveis,
partkularmente quando possam introduzir confuso com um ciclo
dirio, semanal ou mensal, ou quando, atravs da periodicidade
previsvel de um condicionamento no querido ao intervalo temporal. possam acentuar a diferena entre uma apresentao e outra.
Assim, Sorokin tomou precaues para que' cada tratamento experimental ocorresse com igual freqncia tarde e pela manh.
A maioria dos experimentos que empregaram esse delineamento
tm usado relativamente poucas repeties de cada condio experimental, mas o tipo de extenso da teoria de amostragem apresentado
por Brunswik (1956) chama ateno para a necessidade de ;u:nostragens casuais de perodos de tempo amplas, representativas e equivalentes. Kerr (1945) talvez tenha sido quem mais se aproximou desse
ideal em seus experimentos sobre os efeitos da m-qsica na produo
industrial. Cada um de seus vrios experimentos envolveu um nico
grupo experimental com uma amostra casual e equivalente de dias
76

lgica invocada em.rela~o

ao Delineamento

7. Com

relao valida-

de externa, generalizao obviamente possvel apenas para populaes freqentemente testadas. O efeito reatiV;ode montagem (arrangements), a conscincia de experimentao representam uma vulnerabilidade tpica desse experimento. Quando grupos distintos so
submetidos a XX distintos, possvel (particularmente no Delineamento 6) mant-los no total desconhecimento da presena de um experimento ou dos tratamentos em cotejo; Isso no ocorre quandb se
acha envolvido apenas um grupo e quando esse grupo repetidamente exposto a' uma condio ou outra, 'por exempl9, a uma base
para -computar pagamento e' outra, comQ ocorre:u no experimento
de Sorokin; a uma espcie de ventilao e a outra, como se deu nos
,estudos de Wyatt, Fraser e Stock (1926); e a uma espcie de msica
ou outra, como se verificou na pesquisa de Kerr (embora Kerr
tomasse precaues elaboradas para que a programao variada fosse
vista como uma parte natural do ambiente de trabalho). No que
tange interao de seleo e X: como de hbito, existe a limitao
da generalizao do&efeitos ~emonstrados de X para o tipo particular de populao envolvida.
Esse delineamento experimental traz consigo uma aleatoriedade
quanto validade externa, que ser encontrada em todos os experimentos descritos neste, ensaio em que mltiplos nveis de X so
apresentados ao m~mo conjunto de pessoas. Esse efeito tem sido
rotulado como "interferncia de X mltiplo". O efeito de Xl' na
situao mais simples em que est sendo comparado com Xo, pode
ser generalizado somente para condies de apresentaes repetitivas
ou espaadas de Xl' Nenhuma base aceitvel existe para generalizao a possveis si~uaes em que Xl se acha continuamente presente
ou condio em que , introduzido uma vez e apenas uma vez.
Alm disso, a q>ndio Xo ou a ausncia de X no tpica de perodos sem X em geral, mas apenas representativa de ausncias
de X intercaladas entre presenas. Se Xl tiver algum efeito prolongado capaz de repercutir nos perodos de no-X, como pare77

.
i!I

i
~

I
!

ceria usualmente provvel. o plano. experimental poder subestimar o efeito de Xl se comparado com um estudo do Delineamento
6, por exemplo. Do outro lado, o simples fato de haver freqentes
mudanas pode aumentar o valor estimulante de X em relao ao
que esse valor seria sob uma apresentao contnua e homognea.
A msica hawaiana no estudo de Kerr pode afetar o trabalho de.
modo completamente diferente se intercalada por um dia entre dias
de outra msica, do que o faria se constitusse uma programao
contnua. Os delineamentos experimentais de Ebbinghaus (1885) p0dem ser encarados como essencialmente desse tipo e, como observou
Underwood (1957a), as leis por ele encontradas so limitadas em
sua generalizabilidade a uma populao de pessoas que aprenderam
dzias de outras listas ltamente semelhantes. Muitas de suas concluses, com efeito, no prevalecem no. caso de pessoas que tenham
aprendido uma nica lista de slabas sem sentido. Assim, embora o
esquema seja vlido internamente, sua validade externa pode ser
seriamente limitada a alguns tipos de contedo. (Ver tambm
Kempthorne, 1952. Capo 29.)
Note-se, contudo, que muitos aspectos do ensino sobre os quais
algum gostaria de conduzir um experimento podem muito bem ter
efeitos limitados, do ponto de vista prtico, ao perodo de efetiva presena de X. Para tais fins, esse delineamento pode ser perfeitamente
valioso. Suponhamos que um professor levante a questo do valor
de recitao oral versus estudo individual silencioso. Ao variar esses
dois processos .ao longo de uma srie de unidades de ensino, pode-se
montar um experimento interpretvel. O efeito da presena de um
pai-observador na sala de aula sobre o debate voluntrio de estudantes pode ser estudado dessa forma. Conscincia de tais esquemas
pode situar uma testagem experimental d~ alternativas dentro do
alcance de um nico professor. Isso poderia . servir de teste-piloto
para avaliar procedimentos que, se promissores, poderiam ser examinados por experimentos mais amplos e mais coordenados.
Essa abordagem pode ser aplicada a uma amostragem de ocasies
em relao a um nico indivduo. Embora no d ensejo tipicamente
aplicao de testes de significncia, eSse um delineamento recorrente em pesquisa fisiolgica, em que um estmulo aplicado ]:'epetidamente a um animal, com o cuidado de evitar qualquer periodicidade na estimulao. Esta ltima caracterstica corresponde exigncia de aleatoriedade de ocasies exigidas pela lgica do plano.
Podem ser usados tambm quadrados latinos ao invs de simples
casualizao (por exemplo, Cox, 1951; Maxwell, 1958).
78

I..-~~~.

Testes de significdncia para o Delineamento 8


Ainda uma vez, necessitamos de testes de significncia apropriados para esse particular tipo de delineamento. Note-~ que se acham
implicadas duas dimenses de generalizao: generalizao atravs
de ocasies e generalizao atravs de pessoas. Se considerarmos uma
instncia em que uma p.essoa apenas empregada, o teste de significncia ser obviamente limitado a generalizaes a respeito dessa
nica pessoa e envolver uma generalizao atravs de instncias,
para cujo propsito ser apropriado usar ~ t com graus deliberdade iguais ao nmero de ocasies menos das. Se algum tiver registros individuais sobre certo nmero de pessoas submetidas ao mesmo
tratamento
todas parte de um mesmo grupo - ento os dados
podem tambm ser usados para generalizao atravs de pessoas.
Nessa situao usual, parecem comuns duas estratgias. Uma estratgia errada seria a de gerar para cada indivduo um nico escore
para -cada tratamento experimental e, em seguida, aplicar testes de
significncia da diferena entre mdias com ddos correladonados.
Embora no fossem efetivamente empregados testes de significncia,.
foi essa a lgica implcita n.as anlises de Allport e Sorokin, mas,'
quando se acham envolvidas apenas uma ou duas repeties de cada
condio experimental, erros de amostragem de ocasies podem ser
muito amplos ou o controle de histria pode ser muito pobre. Erros
casuais de amostragem de ocasies podem contribuir para o que,
sob essa anlise, se apresentaria como diferenas significativas entre
tratamentos. Se o efeito de ocasies for significativo e aprecivel,
isso parece ser um erro muito srio. Poder-se-ia,.por exemplo, seguindo essa lgica, obter uma diferena altamente sigrtificativa entre
Xl c: X2, caso cada um dos tratamentos tenha sido apresentado
apenas uma vez e. numa ocasio, algum evento estranho tenha
produzido, por acaso, um resultado marcante. Parece essencial, pois,
que pelo menos duas ocasies sejam "hierarquizadas" em cada tratamento e que estejam r~presentados graus de liberdade entre ocasies
dentro de tratamentOs. Esse requisito , provavelmente, mais facilmente satisfeito qUandO se testa inicialmente a diferena entre mdias de
tratamentos contra
termo de erro "entre-ocasies-dentro.de-tratamentos". Aps deter inar dessa forma a significncia do efeito do
tratamento, pod~-se prosseguir a fim de descobrir para que proporo de sujeitos essa significncia prevalece.u de modo a obter evidn-.
cia relevante para a generalizao do efeito atravs de pessoas; Medidas reiteradas e amostragem de ocasies levantam muitos problemas de estatsticas, alguns dos quais ainda sem soluo (Collier, 1960;
Cox, 1951; Kempthorne, .1952).
.

79

9. O delineamento de materiais equivalentes


Intimamente aliado ao delineamento de amostras. temporais equivalentes acha~seo Delineamento 9, cujo argumento se baseia na equi.
valncia de amostras de materiais a que so aplicadas as variveis
experimentais em comparao. Sempre, ou. quase sempre, amostras
temporais equivalentes acham-se tambm ehvolvidas, mas elas podem
ser to sutil e estreitamente entremeadas qu~ existe prtica equivalncia temporal. Num delineamento de X.re~ido
a um grupo, so
necessrios materiais equivalentes toda vez que a natureza das vari.
veis experimentais tal, que os efeitos so duradouros e que os tratamentos diferentes e as repeties de tratamentos devem. ser aplicados
a contedo no-idntico. O esquema pode ser simbolizado assim:

Os 00 entre parnteses indicam que, em alguns delineamentos, ser


usado um pr-teste e, em outros, no.

Outra ilustrao decorre dos primeiros estudos de conforinidade


com a opini) grupal. Por exemplo, Moore (1921) obteve uma
estimativa de "controle". de estabilidade (reteste) de respostas a
questionrio a partir' de um conjunto de itens e, em seguida, "comparou essa estimativa com a mudana resultante quando, com outro
conjunto de itens,o reteste (oi acompanhado por uma afirmativa de
o.pinio majoritria; ou, ento, considere-se o estudo em que estudantes so solicitados a emitir sua opinio sobre um nmero de
questes apresentadas num longo questionrio. Essas questes so
ento distribudas em dois grupos to equivalentes quanto possvel.
Mais tarde, os questionrios so devolvidos aos estudantes e o grupo
vo~a para cada item indicado. Esses votos so falsificados para que
indiquem maiorias em direes opostas pra as duas amostras de
itens. Como uma medida PS-X,os estudantes so solicitados a votar
de novo sobre todos os itens. Dependendo da adequao do argumento de equivalncia amostral dos dois conjuntos de itens, as
diferenas em "mudanas entre os dois tratamentos experimentais
pareceriam fornecer uma demonstrao experimental definitiva dos
efeitos da comunicao de opinies do grupo, mesmo na ausncia de
qualquer grupo de controle de pessoas.

O experimento inicial de Jost (1897) sobre prtica massificada


versus prtica distribuda oferece uma ilustrao excelente. Em seu
terceiro experimento, foram preparadas 12 listas montadas mais ou
menos casualmente de 12 slabas sem sentido cada uma. Seis das
listas foram atribudas prtica distribuda e seis prtica massif-.
cada. Essas 12 listas foram, em seguida, simultaneamente aprendidas
ao longo de um periodo de sete dias, com uma program~o entretecida cuidadosamente de modo a controlar fadiga, etc. Sete de tais
conjuntos de seis listas distribudas e de seis listas massificadas foram
aprendidos ao longo de um perodo que se estendeu de 6 de novembro de 1895 a 7 de abril de 1896. Ao trmino, Jost possua resultados
em 40 diferentes listas de slabas sem sentido aprendidas pela prtica
massificada e 40 aprendidas pela prtica distribuda. A interpretabilidade das diferenas encontradas em um nico sujeito, Professor
G. E. MIler, depende da equivalncia amostral das. listas no-idnticas envolvidas. Dentro de tais limites, esse experimento parece
possuir validade externa. Os resultados, naturalmente, limitam-se

Assim como o Delineamento 8, o Delineamento 9 possui validade


interna elIJ.todos os pontos e, em geral, pelas mesmas razes. Podemos
~otar, com relao validade externa, que os efeitos no Delineamento
9, como em todos os experimentos que envolvam medidas repetidas,
podem ser absolutamente especficos a pessoas medidas repetidamente.
Em experimentos de aprendizagem, as medidas so de tal forma uma
parte do contexto experimental no mtodo tpico usado em nossos
dias (embora no "necessariamente no mtodo de Jost, em que as
prticas envolveram nmeros controlados de leituras das listas) que
essa limitao generalizao se torna irrelevante. Condies reativas
parecem estar menos certamente envolvidas nQ Delineamento 9 do que
no Delineamento 8 por causa da heterogeneidade dos materiais e da
maior. possibilidade de que os sujeitos no sabero que esto sendo
submetidos a diferentes tratamentos em pocas diferentes em relao a
itens diferentes. Essa baixa reatividade no seria encontrada no experimento de Jost, mas estaria presente no estudo sobre conformidade.
Interferncia entre os nveis da varivel experimental ou interfern-

MeXIO

MbXOO MeXIO "MrlXoQ etc.

Os MM indicam materiais espedficos, sendo a anlostra ~MelMel etc.,


eoi termos amostrais, igual amostra M bl Mil' etc. A importncia da
equivalncia amostral dos dois conjuntos de materiais talvez seja
melhor indicada se o plano for diagramado desta forma:
uma pessoa

80

..

81

~-i

1;

Amostra de materiais A .(0) Xo O


{ Amostra de materiais B (O) Xl O

ou grupo

.1

psicologia do Professor G. E. Ml1er em 1895 e 1896 e ao universo


de materiais mnemnicos amostrados. bvio que seria necessrio
replicar o experimento em numerosas pessoas a fim de se poder
generalizar atravs de pessoas, com o que se conseguiria uma relao
psicolgica mais geral.

-.'

ff

""f
'

'I
L
I1
H

Li
"H
li
d

il.

;{
!
I

I
,I
I

r
I

da entre os materiais constituem provavelmente uma clara fraqueza


desse experimento, tanto quanto do Delineamento 8.
Temos- uma ilustrao espedfica do tipo de limitao assim
.introduzida com relao aos resultados obtidos por lost. Suas concluses foram de que a aprendizagem espaad~. mais efide~te do
que a prtica intensiva. Pelas condies de su experimentao em
geral, ele estava autorizado a generalizar apenas~pessoas que estavam aprendendo muitas listas, isto , pessoas para as quais o nvel
de interferncia era elevado. Pesquisa atual indica que a superioridade de aprendizagem espaada limitada apenas a tais populaes
e que, para pessoas aprendendo materiais altamente novos pela primeira vez, essa vantagem no exis-te (Underwood e Richardson,
1958).

a um grupo ou outro pressupe-se casual e sob o controle do experimentador.

X
o
--.----------

I'

Duas coisas precisam ser mantidas claras a respeito deste plano:


primeiro, no deve ser confundido com o Delineamento 4 o Plano
com Grupo de Controle e com Pr e Ps-Teste - em que os
sujeitos experimentais so atribudos aleatoriamente de uma popu~
. lao comum aos grupos experimental e de controle. Segundo, apesar
disso, o Delineamento ]O deve ser considerado como digno de ser
usado em muhas instncias em que os Delineamentos 4, 5 ou 6 forem
impossveis. Em particular, deve admitir-se que a adio de um grupo
de controle, ainda que no emparelhado ou no equivalente, reduz
sensivelmente a equivocidade de interpretao em comparao com o
que obtido pelo Delineamento 2
o Plano de um Grupo Pr e
Ps-testado. Quanto mais semelhantes Jorem" os grupos experimental
e de controle em seu recrutamento e quanto mais tal similaridade
for confirmada pelos escores no pr-teste, tanto mais efetivo se tomar
esse controle. Pressupondo que tais desiderata sejam aproximados
para fins de validade interna. podemos encarar o delineamento como
capaz de controlar os efeitos principais de histria, miiturao, testagem e instrumentao, porquanto a diferena para o grupo experimental entre pr-teste e ps-teste (se maior do que a apurada no
grupo de controle) no pode ser explicada pOr 'efeitos principais
dessas variveis que afetariam tanto o grupo experimental quanto
o grupo de controle. (No obstante, devem ser tom~das srias precaues com relao histria intra-sesso j lembrada com relao
ao Delineamento 4.)

11

Estatlsticas para o Delineamento' 9

A amostragem de materiais obvimente relevante validade


e ao grau de prova do"experimento. Sendo assim, o N para a computao da significncia das diferenas entre as mdias de grupos
de tratamento deveria provavelmente ter sido um N de listas no
experimento d~ Jost (ou um N de itens no estudo de conformidade)
de modo a representar esse relevante domnio amostral. Isso deve
ser suplementado por uma base para genera~izar atravs de, pessoas.
Provavelmente a melhor prtica, atualmente, proceder seriatim,
estabelecendo ntes a generalizao .atravs das amostras de listas ou
itens e, em seguida, computando um escore de efeitos experimentais
para cad.a pessoa e empregando esse escore como base para generalizar atravs de pessoas. (Ver a literatura a'cautelatria citada acima
com referncia ao Delineamento 8.)
.

.'

,'I

10. O delineamento com grupo de controle no-equivalente

i
l~~
:1
i
"

Um dos mais divulgados planos experimentais em, pesquisa


educacional envolve um grupo experimental e,um grupo de controle,
ambos submetidos a um pr e ps.teste, mas em que o grupo de
controle e o grupo experimental no possuem equivalncia amostral
pr-experimental. Pelo contrrio, os grupos constituem coletivos
naturalmente reunidos, tais como classes escolares, to semelhantes
quanto a situao o permitir, mas, de qualquer forma, no to seme.
lhantes que justifiquem a dispensa do' pr.teste. A atribuio de X
82,

Um esforo para explicar um ganho do pr-teste ao ps-teste,


especfico ao grupo experimental, em termos de fatores estranhos
tais como histria, inaturao ou testagem, deve admitir como hiptese uma interao entre essas variveis e as diferenas de seleo
especficas que distinguem os grupos experimental e de controle.
Embora tais interaes sejam, em geral, improvveis, um nmero de
shuaes existe em que podem ser invocadas. Talvez as mais comuns
sejam interaes. envolvendo maturao. Se o grupo experimental
for constitudo de pacientes de psicoterapia e o grupo de controle
de alguma outra populao disponvel testada e retestada, um ganho
especifico ao grupo experimental pode bem ser interpretado como
um processo de remisso espontnea especfico a tal grupo extremo,
83

1
~
~

... ...",

F
i,I
t~. ,

li:j ,
rr

um ganho que tf:ria ocorrido mesmo sem X. Tal interao seleomaturao (ou uma interao seleo-histria ou ainda uma interao seleo-testagem) poderia ser tomada erroneamente pelo efeito
de X e, portanto; representa uma ameaa validade interna do
.experimento. Essa possibilidade est prevista na oitava coluna da
Tabela
2 e o principal
os
Delineamentos
4 elO. fator de validade interna que distingue

'I;

t.

! .

Regresso constitui-se em outro srio problema de validade interna para o Delineamento 10. Como o indica o "?" da Tabela 2, essa
possibilidade evitvel, mas talvez se trate de um problema mais
freqentemente ignorado do que evitado. Em geral, se ambos os
grupos comparados tiverem sido selecionados pelos seus escores extremos em O ou em medidas correlacionadas, ento a diferena em
grau de mudana do pr-teste para o ps-teste entre os dois grupos
bem pode ser um produto de regresso ~ais do que o efeitq de X.
Essa possibilidade tem prevalecido cada vez mais por causa de uma
teimosa e enganadora tradio da experimentao educacional, em
que o emparelhamento tem sido encarad como o processo apropriado e suficiente para estabelecer a equivalncia pr-experimental
de grupos. Esse erro tem sido acompanhado pela incapacidade de
distinguir os Delineamentos 4 e 10 e as funes bem diferentes do
emparelhamento nos escores do pr-teste sob as duas condies. No
Delineamento 4, o emparelhamento pode ser reconhecido como um
adjunto til casualizao mas no como seu substituto: em termos
de escores no pr-teste ou em variveis relacionadas, a populao total
disponvel para os objetivos experimentais pode ser organizada em
pares de sujeitos cuidadosamente emparelhados; membros desses
pares podem da ser atribudos, aleatoriamente, s condies experimental ou de controle. Esse emparelhamento, acrescido casualizao subseqente, produz usualmente um delineamento experimental com preciso .maior do que a gerada apenas pela casualizao.

Uma ilustrao concreta extrada da pesquisa educacional pode


esclarecer esse ponto. Sanford e Hemphill (1952), com seu estudo
dos efeitos de um curso de S'cologia em Annap~is, fornecem um
excelente ex
emplo do Deline ento 10. Nesse estudo,..,aSegunda Turma em Annapolis constituiu grupo experimental e a Terceira Turma o grupo de controle. Os ganhos maiores por parte do grupo experimental podem ser explicados como uma parte de algum processo
geral de sofisticao ocorrente de forma acentuada nas primeiras
duas classes e apenas em grau mnimo na Terceira e .Quarta, representando, assim, uma interao entre os fatores de seleo diferenciadores do grupo experimental e do de controle e mudanas naturais (maturao) caractersticas desses grupps. Tais ganhos no representariam qualquer efeito do programa experimental. O peculiar
grupo de controle utilizado por Sanford e H~mphill toma possvel
testar, de alguma forma, essa hiptese rival (algo semelhante ao
processo do Delineamento 15 adiante). A hiptese de seleo-maturao prediria que a Terceira Turma (grupo de controle),em seu teste
inicial, mostraria uma superioridade s medidas do pr-teste da
Segunda Turma (grupo experimental) aproximadamente da mesma
magnitude daquela constatada entre o pr-teste e o ps-teste do grupo
experimental. Felizmente para a interpretao de seu experimento,
isso em geral no ocorreu. As diferenas entre turmas no pr-teste
no foram, na maioria das instncias, nem na mesma direo nem
da mesma magnitude apresentadas pelos ganhos pr-teste-ps-teste
do grupo experimental; contudo, sua concluso de um ganho si.~ificativo por parte do grupo experimental em escores de confiana
obtidos no questionrio de situaes sociais pode ser explicada como
um artifcio de seleo-matUrao. O grupo experimental apresenta
um ganho de 43,26 a 51,42, ao passo que a Terceira Turma comea
com um escore de 55,82 e chega a um escore de 56,78.

No se deve confundir esse ideal com. o processo pelo qual, no


Delineamento 10, se tenta compensar as diferenas entre os grupos
experimental e de controle no equivalentes atravs do recurso ao
emparelhamento, quando a atribuio aleatria aos tratamentos n
for possvel. Se, no Delineamento 10, as mdias dos grupos forem
substancialmente diferentes, ento a tcnica do emparelhamento no
s deixa de garantir a desejada equalizao, como tambm enseja a
ocorrncia de efeitos de regresso no queridos. Pode-se prever com
certeza que os dois grlipos diferiro em seus escores independentemente de quaisquer. efeitos de X e que essa diferena variar diretamente com a diferena entre as populaes totais de que foi feita a
seleo e inversamente com a correlao teste-reteste. Rulon (1941),
Stanley e Beeman (1958) e R. L. Thorndike discutiram esse problema
exaustivamente e chamaram a ateno para a anlise de covarincia e
outras tcnicas statsticas sugeridas por ]ohnson e Neyman (ver
Johnson e Jackson, 1959, pp. 424-444)e por Peters e Van Voorhis
(1940) para testar os efeits da varivel experimental sem o processo de emparelhamento; contudo, devem ser levadas em conta as
recentes advertncias feilas por Lord (1960) relativas anlise de

A hiptese de uma interao entre seleo e maturao ser


ocasionalmente sustentvel, mesmo q~aIido..os grupos forem idn,~
ticos em escores do pr-teste. A mais comum dessas instncias ser
a de um grupo que tenha um ndice de maturao ou de mudana
autnoma superior ao de outro. O Delineamento '14 oferece uma
extenso do lO que tender a eliminar essa interao.
84

85
!

L--...

.0

.-

-_ -

>.

covarinda, quando a covarivel no perfeitamente fidedigna. A


aplicao da anlise de covarincia a esse Delineamento 10 envolve
pressuposies (como a de homogeneidade de regresso) menos plausveis aqui do que nos contextos do Delineamento 4 (Lindquist, 1953).
Ao interpretar estudos publicados do Delineamento 10 em que
foi empregado emparelhamento, pode-se notar que a direo do erro
previsvel. Considere-se um experimento de psicoterapia que use
como O os graus de insatisfao dos sujeitos com sua prpria personalidade. Suponhamos que o grupo experimental seja constitudo
de sujeitos que procuraram a terapia e o grupo de controle emparelhado, de pessoas "normais"; ento o grupo de controle acabar
representando escores baixos extremos do grupo normal (selecionados por causa de sua extremidade), regredir no ps.teste em direo mdia do grupo normal e, por conseguinte, far com que um
efeito significat.ivo da terapia tenha menor probabilidade de ser
evidenciado ao invs de produzir uma impresso espria de eficcia
do processo terapu~ico.
A ilustrao de solicitantes de psicoterapia tambm fornece uma
instncia em que as pressuposies de regresso homognea e de
amostragem do mesmo universo, exceto por extremidade de escores,
pareceriam provavelmente ser imprprias. A incluso de controles
normais em pesquisa sobre psicoterapia de alguma utilidade, mas
deve.se ter a mxima precauo. na interpretao dos resultados.
Parece importante distinguir duas verses do Delineamento 10, atribuindo-se-Ihes diferente status como aproximaes da verdadeira experimentao. De. um lado, h a situao em que o experimentador
possui dois grupos naturais disponveis, por exemplo, duas classes,
e tem livre escolha ao decidir quem se submete a X ou, pelo menos,
no tem razo para suspeitar recrutamento diferencial relacionado
com X. Ainda que os grupos possam diferir em mdias iniciais em O,
o estudo pode aproximar-se da verdadeira experimentao. De outro
lado, h instncias do Delineamen,to 10 em que os respondentes .so
claramente aUto-selecionados, tendo o grupo experimental procurado deliberadamente expor-se a XJ sem que haja grupo de controle
disponvel originrio da mesma populao. Nesse ltimo caso, a
pressuposio de regresso uniforme entre os grupos experimental e
de controle torna-se' menos provvel e aumenta a probabilidade de
interao seleo-maturao (assim como. de outras interaes). O
Delineamento 10 "auto-selecionado" , pois, muito mais fraco, mas
capaz de fornecer informao que, em muitas instncias, afastaria a
hiptese de que X teve um efeito. O grupo de controle, mesmo se
amplamente divergente em mtodo de recrutamento e em nvel
mdio, auxilia a interpretao.

A ameaa de testagem validade externa igual apresentada


em relao ao Delineamento 4 (ver p. 34). O ponto de interrogao
para a interao de seleo e X lembra-nos de que o efeito de X
bem pode ser especfico a respondentes selecionados como o foram
os do nosso experimento. Uma vez que os requisitos do Delineamento
10 tendem a impor menos limitaes nossa liberdade de amplamente selecionar amostras do que os do Delineamento 4, essa especificidade ser usualmente menor do que o seria num experimento de
laboratrio. A ameaa valida~e externa representada por condies
reativas acha-se presente, mas provavelmente em menor grau do que
na maioria de experimentos em sentido estrito, como o Delineamento 4.
Quando houver a alternativa de usar duas classes intactas com
o Delineamento 10 ou extrair amostras casuais de estudantes das
classes para tratamentos experimentais diferentes dentro do Delineamento 4, 5 ou 6, esta ltima opo ser quase certamente a mais
reativa, criando mais conscincia do experimentol atitude de "eu sou
uma cobaia" e coisas desse tipo.
Os estudos de Thorndike de disciplina formal e transferncia
(por exemplo, E. L. Thorndike e Woodworth, 1901; Brolyer, Thorndike e Woodyard, 1927) representam aplica~es do Delineamento
10 a XX no-controlados pelo experimentador. ,Esses,estudos evitaram em parte, pelo menos, o erro de efeitos de regresso devidos a
simples emparelhamento, mas devem ser cuidadosamente analisados
em termos de mtodos modernos. O uso de estatsticas de covarincia
teria provavelmente produzido mais forte evidncia, de transferncia
de Latim para vocabulrio ingls, por exemplo.
Na direo inversa, os usualmente positivos; embora pequenos,
efeitos de transferncia encontrados poderiam ser explicados no
como transferncia, mas como a seleo nos cursos de Latim daqueles estudantes cujo ndice anual de crescimento \'ocabular teda sido
maior do que o do grupo de controle, mesmo sem a presena do
ensino do Latim. Isso .seria classificado aqui como uma interao
seleo-maturao. Em muitos sistemas escolares, essa hiptese rival
poderia ser testada atravs da extenso da amplitude dos 00 "prLatim" considerados, como no Delineamento 14. ais estudos foram
esforos monumentais no sentido de introduzir
pensamento experimental no campo da pesquisa. Merecem aten renovada e extenso a mtodos modernos.

lI.

Delineamento contrahalanado

Sob esse ttulo, acham-se compreendidos todos os delineamentos


em que o controle experimental alcanado ou a preciso aumentada

86
87

",
't

r.7

li'i
'

: ;:'
,,f.

ti
11

!
!

'i

!i

pela entrada',de todos os respondentes (ou contextos) em todos os


tratamentos. Tais esquemas tm sido cham,ados "experimentos rota~
tivos" por McCall (1923), "delineamentos contrabalanados" (por
exemplo, Underwood, 1949), delineamentos. cruzados (por exemplo,
,Cochran e Coxo 1957; Cox, 1958) e delineamentos de trocas mtuas,
em ingls switch ove1' designs (Kempthome, 1952). A montagem do
quadrado latino tipicamente empregada no contrabalanamento.
Esse quadrado latino empregado no Delineamento ll, classificado
aqui como um delineamento qUfise-experimental, em que quatro tra.
tamentos experimentais so aplicados, de um modo restritivamente
casualizado, por turnos, a quatro grupos naturalmente reunidos ou
mesmo a quatro indivduos (por exemplo, Maxwell, 1958):
Tempo 1 Tempo 2 Tempo 3 Tempo 4
X10
X20
XBO
X40

Grupo A

Grupo B

-----------------X20
X4.0

X10

Grupo C

XsO

X10

X40

X20

XaO

X20

X10

-----------------Grupo D

X40

~----

XaO

o delineamento foi diagranlado apenas com ps-testes, porque


seria especialmente preferido toda vez que pr-testes fossem desaconselhados e sempre que delineamentos, como o 10, no fossem possveis. O delineamento contm trs classificaes ou categorias (gru_
pos, ocasies e XX ou tratamentos experimentais). Cada classificao
"ortogonal" s outras duas no sentido de que cada varivel de
cada classificao ocorre com igual freqncia (uma vez para o
quadrado latino) com cada varivel de cada uma das outras classificaes. Para comear, pode-se notar que cada tratamento (cada X)
ocorre uma vez e apenas uma vez em cada coluna e apenas uma
vez em cada linha. O meS1Iloquadrado latino pode ser girado de
modo que os XX se tornem cabeas de linhas ou de colunas:
'

Grupo
Grupo
Grupo
Grupo

A
B
C
D

Xl

X2

.t1O
taO
t20
t40

,t2O
t1O.
t40
taO

Xa
taO
t40
t10
t20

X4

t.,p
t2O'
tua
t10

Somas de escores por XX so, por conseguinte. comparveis por se


acharem cada tempo e cada grupo representados em cada tratamento.
88

As diterenas em tais somas no poderiam' ser simplesmente interpretadas como artefatos das diferenas do grupo inicial ou como'
efeitos de prtica, histria, etc. Igualmente comparveis so as somas
das linhas quanto s diferenas intrnsecas aos grupos, bem como as
s,ornasdas colunas da primeira apre~ntao quanto s diferenas em
ocsies. Em termos de anlise de varincia, o delineamento vem,
pois. fornecer dados em trs efeitos principais num plano com
nmero de celas usualmente exigidas para dois. Raciocinando em termos de anlise de varincia, o custo dessa maior eficincia claro: o
que parece ser um efeito principal significativo para cada um dos
trs critrios classificatrios poderia, ao invs, ser uma interao
significativa de uma forma complexa entre os outros dois (Lindquist,
1953, pp. 258-264). As diferenas aparentes entre os efeitos dos XX
poderiam, pelo .contrrio, ser um efeito de interao especifica complexa entre as diferenas dos grupos e as ocasies. Inferncias quanto
aos efeitos de X dependero da plausibilidade dessa hiptese rival
e, portanto, sero discutid!J.Smais a fundo.
Note-se, inicialmente, que a hiptese de tal iriterao mais
plausvel para a aplicao quase-experimental descrita do que para
as aplicaes de quadrados latinos em experimentos em sentido
estrito, descritos em textos que tratam do assunto. No que tem sido
descrito como dimenso de grupos. confundem-se duas possveis fontes de efeitos sistemticos. Primeiro, fatores de seleo sistemtica
acham-se envolvidos na organizao natural dos grupos. Pode-se esperar que tais fatores' no s tenham efeitos principais como tambm
interajam com histria, maturao, efeitos de prtica, etc. Houvesse
sido montado dessa forma um experimento completamente controlado, cada pessoa teria sido atribuda a cada grupo independentemente e ao acaso e tal fe)Otede efeitos principais e interativos teria
sido removida, pelo menos na extenso do erro de amostragem.
, caract~rstica do quase-experimento introduzir o contrabalanamento a fim de criar uma espcie de equao precisamente porque
tal atribuio aleat~ria 'no foi possvel. (Ao contrrio, em experimentos completamente controlados, o quadrado latino empregado
por motivos de economia ou para superar 'problemas especficos 'da
amostragem de reas de terra.) Uma segunda possvel fonte de efeitos
confundida com grupos a associada com as especficas seqncias,
de tratamentos. ~e todas as rplicas num experimento em sentido
estrito' houvessem de seguir o mesmo quadrado latino, essa fonte de
efeitos principais e interativos tambm estaria presente; contudo, no
tpico experimento em .rentido estrito, alguns conjuntos de respondentes replicados teriam sido atribudos a diferentes quadrados latinos especficos, eliminando-se assim o efeito sistemtico de seqn89

.-

---

li},
ir
:lt
H
~

n
f

f..1
j
!

!!
li

li
d
II
11

I
I

!
.

!"

cias espedficas. Isso tambm elimina a possibilidade de que uma


interao sistemtica especifica tenha produzido um aparente efeito
principal de XX.
Ocasies podem provavelmente produzir um efeito principal
devido a testagem reiterada, maturao, prtica, efeitos cumulativos'
ou transferncia. Histria capaz tambm de produzir efeitos para'
ocasies. A estrutura do quadrado latino, claro, impede que esses
efeitos principais sejam contaminados pelos efeitos principais de XX;
mas, sempre que os efeitos principais sejam sintomas de heterogeneidade significativa, existe provavelmente maior justificativa em
suspeitar interaes significativas do que quando os efeitos principais
se acham ausentes; Efeitos de prtica, por exemplo; podem ser monotnicos, mas so provavelmente no-linear~s e gerariam, a um tempo,
efeitos principais e interativos. Muitos usos de quadrados latinos
em experimentos em sentido estrito, conio na agricultura, por exem- .
pIo, no envolvem medidas repetidas e ho produzem, tipicamente,
quaisquer correspondentes efeitos sistemticos de coluna. Os. do tipo
cruzado, todavia, t~m em comum com os quase-experimentos essa
fraqueza potencial. .
Essas consideraes tomam clara a extrema importncia da rplica do delineamento quase-experimental com diferentes quadrados
Jatinos espedficos. Tais rplicas, em nmero suficiente, transformariam o quase-experimento num experime~to verdadeiro. Envolveriam
provavelmente tambm um nmero suficiente de grupos a fim de
tornar possveL a atribuio aleatria de grupos intactos a tratamentos, o que constitui usualmente um meio de controle prefervel. No
obstante, falta de tais possibilidades, um nico quadrado latino
representa um delineamento quase-experimental intuitivamente satisfatrio, por causa de sua demonstrao de todos os efeitos em todos os
grupos comparados. Desde que se tenham em mente os possveis erros
de interpretao, trata-se de um plano digno de ser usado, quando
no seja possvel melhor controle. Apontadas que foram suas ~rias
debilidades. examinemos e salientemos suas relativas vantagens.
Como todos os quase-experimentos,. este ganha fora atravs da
consistncia das rplicas internas do experimento. Para tornar clara
essa consistncia, os efeitos principais de oeasies e de grupos devem
ser removidos pelo expediente de expressar cada cela como um desvio'
das mdias da linha

(grupo)

e da coluna

(tempo):

Mo'

Mil.

M ,I + M... Ento devem ser redistribudos os dados com trata.


mentos (XX) como cabeas de colunas. Suponhamos que o quadro
resultante seja o de uma consistncia gratificante, com o mesmo tratamento mais forte em todos os quatros grupos, etc. Quais so as
90

:~ . w.

possibilidades de no ser esse o verdadeiro efeito de tratamentos,


mas, ao contrrio, de ser uma interao de grupos e ocasies? Podemos notar que as interaes de grupos e ocasies mais. plausveis
reduziriam ou obScureceriam o efeito manifes.to de X. Uma interao
que imitasse um efeito principal de X seria improvvel e tanto mais
improvvel quanto maiores forem os quadrados latinos.
O experimentador seria mais atrado por esse delineamento
quando tivesse um controle programado sobre pouqussimos grupos
naturalmente agregados, tais como classes,mas no pudesse subdividir
tais grupos naturais em subgrupos aleatoriamente equivalentes, seja
para a apresentao de X seja para a testagem. Em tal situao,
desde que seja vivel a pr-testagem, poder ser usado tambm o
Delineamento 10; ele tambm envolve uma possvel confuso dos
efeitos deX com interaes de seleo e ocasies. Julgamos essa possibilidade menos provvel no plano contrabalanado, porque todas
s comparaes so feitas em cada grupo e, portant, vrias interaes
.emparelhadas precisariam imitar o efeito exp~ental.
Ao passo que, em outros delineamentos, a reatividade especial de
apenas um dos grupos a um evento estranho (histria) ou prtica
(maturao) pode simular um efeito de Xl' tais efeitos coincidentes,
no plano contrabalanado, deveriam ocorrer em ocasies separadas em cada um dos grupos em turno. Isso deixa implcito, claro,
que no interpretaramos um efeito principal de X como significativo se a inspeo das celas mostrasse que um efeito principal
estatisticamente significativo fosse primariamente p resultado de um
efeito muito forte em apenas um dos grupos. Para ulterior discusso
desse assunto, ver as comunicaes de Wilk e Kempthorne (1957),
Lubin (1961) e Stanley (J955).

12. Delineamento com pr-teste e ps-teste de amostrs distintas


Para populaes 'grandes, tais como cidades, indstrias, escolas
e; unidades militares, pode freqentemente acontecer que, embora
no seja possvel segregar aleatoriamente subgrupos para tratamentos
experimentais diferenciais, se possa exercer algo como completo controle experimental. sobre o quando e o a quem do OJ empregando-se
atribuio casual de processos. Tal controle toma possvel o
Delineamento 12:

A O
A

(X)
X

O
91

C)
,>

u
,

fi

..

f
!
Ii
I
t
1

H
,.
il
:1
:,

I'
I

I;
ii
I

I!

I i
,
, I,
,I

Nesse diagrama, linhas representam subgrupos aleatoriamente


equivalentes e (X) simboliza a apresentao de X irrelevante ao
problema em estudo. Uma amostra medida antes de X e outra
amostra equivalente depois de X. No este um delineamento intrinsecamente forte, como o indica sua linha na Tabela 2. No obstante,
pode ser ele freqUentemente tudo que seja vivel e, nessas condies,
merecer ser seguido. Tem sido usado em experimentos de cincias
sociais, que permanecem os melhores estudos existentes em sua rea
(por exemplo, Star e Hughes, 1950). Embora tenha sido chamado "o
delineamento simulado antes-e-depois" (Sentiz, ]ahoda, Deutsch e
Cook, 1959, p. 116), bom notar sua; superioridade sobre o delineamento comum antes-e-depois - Delineamento 2 - atravs de seu controle tanto do efeito p.rincipal de testagem quanto da interao de
testagem. com X. A principal debilidade do delineamento sua incapacidade de controlar histria. Assim, no estudo sobre a campanha
. de publicidade de Cincinnati em favor das Naes Unidas e da
UNESCO (Star e Hughes, 1950), eventos estranhos no cenrio inter~
nacional exerceram provavelmente influncia no observado decrscimo de otimismo quanto ao bom relacionamento com a Rssia.
do esprito d,este captulo incentivar delineamentos "remendados", em que so acresentadas certas caractersticas a fim de con.
trolar fatores especficos, mais ou menos um por vez (em contraste
com os mais ntidos experimentos em sentido estrito, em que um
nico grupo de controle contiola todas as ameaas validade int~
na). Repetind9-se o Delineamento 12 em diferentes con~extos em
tempos diferentes, como no D~linelD1ento 12a (ver Tabela 2, p. 70),
controla-se histria. porque. se o mesmo efeito apurado repetid~mente, a possibilidade de se tratar de um produto de eventos histricos coincidentes toma.se menos provvel; mas tendncias histricas
seculares consistentes ou ciclos sazonais ainda permanecem' explicaes rivais no controladas. Ao replicar o efeito em outros contextos,
pode-se reduzir a possibilidade de que o efeito observado seja 'especfico nica populao inicialmente selecionada; contudo, se o
contexto da pesquisa permitir o Delineamento 12a, permitir tam.
.b~ o Delineamento 13, que, em geral, deveria ser preferido.

Maturao - o efeito de os respondentes ficarem mais velhos


improvvel como hiptese 'rival,. mesmo num levantamento de
opinio pblica que se estenda por meses; mas, 'nas amostras ge
levantamento ou mesmo em algumas classes colegiais, as amostras
so suficientemente grandes e as idades suficientementeheterogneas
para que se possam comparar sub.amosttas do grupo no pr.teste
que difiram em maturao (idade, nmero de semestres'no college,
92

etc.). Maturao e a provavelmente mais ameaadora possibilidade


de tendncias seculares e sazonais podem tambm ser controladas por
um delineaniento como o 12b, que acrescenta um anterior grupo de
pr-teste adicional, aproximando o esquema do modelo da srie
temporal, embora sem a testagem repetida. Para populaes tais
como a de solicitantes de psicoterapia, em que a cura ou a remisso
espontnea podem ocorrer, podem no ser plausveis as pressuposies de linearidade implicitamente envolvidas. :t mais provvel que
a tendncia maturacional seja negativamente acelerada e faa, porO2 seja maior do que o
tanto, com que o ganho maturacional 01
ganho O2 Os, trabalhando, pois, contra a interpretao de que X
tenha tido uni efeito"
lnstrumentao representa um fator aleatrio nesse delineamento
quando empregado no contexto de levantamento amostrado. Se os
mesmos entrevistadores forem empregados no pr-teste e no ps-teste,
acontecer usualmente qUe muitos estaro {:olhendo sua primeira
entrevista no pr-teste e atuaro com mais experincia (ou talvez
com mais' cinismo) no ps-teste. Se os entrevistadores diferirem em
cada fase e forem poucos, diferenas em idiossincrasias de entrevistador sero confundidas com' a varivel experimental. Se os entrevistadores tiverem conhecimento da hiptese e do fato de X ter ou
no sido aplicado, ento as expectativas do entrevistador podem
criar diferenas, como foi"demonstrado experimentalmente por Stanton e BaIter (1942) e Smith e Hyman (1950). O ideal seria usar
amostras casuais equivalentes de entrevistadores em cada fase e manter os entrevistadores na ignornci.a do experimento. Alm disso, o
recrutamento de entrevistadores pode mostrar diferenas numa base
sazonal, por exemplo. porquanto maior nmero de universitrios
se acha disponvel durante as frias de vero, etc. Os ndices de
recusa so provavelmente mais baixos e a durao das entrevistas
mais longas no vero do que no inverno. Para questionrios autoaplicados na sala de aula, esse,erro de instrumento pode ser menos
provvel, embora as instrues sobre aplicao do teste possam talvez
ser melhor classificadas como instrumentao do que como efeitos
de X sobre O.'
.
Cas~ entre pr-testes intercorram vrios meses, mortalidade pode
constituir-se em problema no Delineamento 12. Se ambas as amostras
foram selecionadas ao mesmo tempo (ponto A), . medida que o
tempo passa de se esperar que mais membros da amostra selecionada se tomem inacessveis e mais segmentos transitrios da populao se percam, produzindo uma diferena na populao entre 'os
diversos perlodos. Diferenas entre grupos no nmero de pessoas no
con~ct.adas servem como uma advertncia de tal possibilidade.

93

___i
f
f1
~:~

'1
\
""
;-'1
'I

"

!,

i-

Talvez, para estudos que perdurem por longos perodos, as amostras do pr-teste e do ps-teste devam ser selecionadas independentemente e em pocas apropriadamente diferentes, embora isso tambm tenha uma fonte de vis sistemtico, resultante de possveis
mudanas no padro residencial do universo como um todo. Em
alguns contextos, como nas escolas, arquivos tornaro possvel a eliminao de escores do pr-teste dos que j no ~stejam disponveis ao
tempo do ps-teste, tornando assim o pr~teste e o, ps-teste mais comparveis. Para 'fornecer um contato que torne essa correo possvel no
levantamen~o da amostra e p!lra fornecer uma confirmao adicional
de efeito que mortalidade no possa contaminar, o grupo do prteste pode ser retestado, como no Delineamento 12c, em que a difeOs. Esse foi o
rena 01 - O2 aeveria confirmar a comparao 01
estudo de Duncan et aI. (1957) sobre a reduo em crenas falazes
causadas por um {:urso introdutrio em psicologia. (Nesse esquema,
o grupo do reteste' no :torna possvel o exame dos ganhos para
'pessoas de escores iniciais diversos porque a ausnda do grupo de
controle impede que se controle regresso.)
caracterstica deste esquema mover-se do laboratrio para a
situao de campo para a qul o pesquisador quer generalizar, testan-'
do os efeitos de X em seu contexto natural. Em geral, como o indicam as Tabelas 1 e 2, os Delineamentos 12, 12a, 12b e l2c so capazes
de ser superiores em validade externa ou genera1izabilidade aos "verdadeiros" experimentos dos Delineamentos 4, 5 e 6. Estes esquemas
exigem to pouco, por parte dos respondentes, que coperem ou que
estejam em certos lugares em certas ocasies, etc., que pode ser
empregada amostnigem representativa de populaes especificadas
de antemo.,

13. Delineamentos com grupo de controle e pr-teste-p6s-teste de


amostras distintas
Espera-se qe o Delineamento 12 seja usado em contextos em que
X, se for,mesmo apresentado, deve ser apresentado ao grupo como um
todo. Se houver grupos comparveis (se no equivalentes) a que se
possa deixar de aplicar .Xi ento pode ser acrescentado um grupo de
controle ao Delineamento 12, criando-se o Esquema 13:
A O (X)
A
X O
----....-------...
A O
A
O

Nos Delineamentos 12 e 13 (e, por certo, em algumas variaes


dos Delineamentos 4 e 6, em que X e O so aplicados atravs de contatos individuais, etc.) possvel a amostragem representativa.
Os + + na coluna da interao seleo X so altamente relativps e
poderiam, . a rigor, ser substitudos por pontos de interrogao, uma
vez que, geralmente, na prtica, as unidades no so selecionadas por
sua relevncia terica, mas, freqentemente, por 1,Ilotivosde esp1rito
de cooperao e acessibilidade, o que os torna provavelmente atipicos
do universo para o qual se quer generalizr.
No era para Cincinnati, Dias sim para os americanos em geral
ou para o povo em geral que Star e Hughes (1950) queriam generalizar e permanece a possibilidade de que a reao a X em Cincinnati
tenha sido atipica de tais universos; mas o grau de tal vis de acessibilidade to menor do que o encontrado em delineamentos mais exigentes, que parece justificar-se um + comparativo.
'

94

'

'

Este delineamento muito semelhante ao Delineamento 10, com


exceo do fato de que as mesmas pessoas espeCificasno so retestatadas e, assim, evitada a possvel interao de testagem e X., Assim
como ocorre com o Delineamento 10, a fraql,leza do Delmeamento 13
quanto validade interna resulta da possibilidade de se interpretar
como um efeito de X uma tendncia local especfica no grupo experimental que, na realidade, com ele n~o se relaciona. Aumentando o
. nmero de unidades sociais envolvidas (escolas, cidades, indstrias,
navios, etc.) e atribuindo-as em certo nmero e, aleatoriamente ao
tratamento experimental e ao de controle, a nic. tonte de invalidade
pode ser removida e pode ser alcanado um verdadeiro experimento,
como o Delineamento 4, salvo evitar-se o reteste d,e indivduos especficos. Esse plano pode ser designado 13a. Seu diagrama (na Tabela
3) tem sido complicado pelos dois nveis de 'equivalncia (obtida
por atribuio aleatria) que se acham envolvidos. Ao nvel dos respondentes, h, dentro de cada unidade social" a equivalncia das
amostras separadas do pr-teste e do ps-teste, indicada pelo ponto
de atribuio A. Entre as vrias unidades sociais que recebem ambos
os tratamentos, no h' tal equivalncia, falta essa indicaaa pela linha
tracejada. O A' designa a constituio do grupO experimental e do
grupo de controle pela atribuio aleatria dessas numerosas unidades sociais a um ou outro tratamento.
Como se v na linha correspondente a 13a na Tabela 3, esse
plano recebe, ~m escore perfeito tanto para a validade interna
quanto para a validade externa, esta ltima pelas razes j discutidas
em relao ao Delineamento 12, com maior fora quanto interao
seleo-X por causa da representao de numerosas unidades sociais,
em contraste com o uso de uma s. Ao que consta, este excelente
mas dispendioso delineamento no tem sido usado.
95

!r.!
i:"<

!~
~j
,. ~:~

l~.

~!
.I

,
?-

Delineamento

de sries temporais

'mltiplas

Tabela 5. FOIII.osde 1R\"3lidaclepara Delloeamenlos quase.experimenlals 15 a 16.


Fooles de invalidade

,
~

II
i,

li

Em estudos de maior mudana administrativa atravs dos dados


de srie temporal, o pesquisador deve ter o bom senso de procurar
uma institUio semelhante no exposta a X, da qual possa obter
uma semelhante srie temporal "de controle" (idealmente com X
atribudo aleatoriamente):
O O O OXO O O O
-------------00000000
Este esquema .contm dentro de si (nos 00 que pem entre
parnteses o X) o Delineamento 10 o DelineamentO com Grupo ,de
Controle No~Equivalente
mas o supera em certeza de interpretao pelas mltiplas medidas programadas, porquanto o efeito experimental de certa forma demonstrado duas vezes, uma contra o
controle e outr~ contra os valores pr-X de sua prpria. srie, como
no Delineamento 7. Alm disso, a interao seleo-matura~o controlada na medic;laem que, se o grupo experimental mostrou em g~ral
um maior ndice de ganho, isso ficaria evidenciado pelos 00 pr-X.
Nas Tabelas 2 e 3 esse ganho adicional debilmente representado,
mas surge na coluna de validade interna final, sob o ttulo "Interao de Seleo e Maturao". Uma vez que maturao controlada tanto na srie experimental como. na de controle, pelos argumentos discutidos por ocasio da primeira apresentao do Delineamento de Srie Temporal 7, a diferena. na seleo dos grupos operando em conjuno com maturao, instrumentao ou regresso
dificilmente pode ser responsvel por um efeito manifesto.. Uma
interao da diferena de seleo com histria permanece, porm,
rima possibilidade.
Como ocorreu com o Delineamento de Srie Temporal 7, foi
colocado um menos sob a coluna de validade externa relativa interao testagem-X, embora, como no Delineamento 7, o esquema seria
freqentemente usado desde que a testagem fosse no-reativa. A precauo-padro contra a possvel especificidade de um efeito demonstrado de X populao em estudo acha-se tambm registrada na
Tabela 3. Quanto aos testes de significncia, sugere-se q'ue as diferenas entre as sries experimental e de controle sejam analisadas da
mesma forma que os dados do Deli~eamento 7. Essas diferenas parecem, muito mais provavelmente, ser lineares do qu~ dados brutos de
sries temporais.
Em geral, esse um excelente delineamento qu~e-experimenta1,
talvez o melhor dos mais viveis. Apresenta claras vantagens sobre os
Delineamentos 7 e 10, como foi observado imediatamente acima e

Exlerna

(nlema

o
o
'g-

!siio

.~ e

~o~

~ e
o ;::
"'''J!5t.'..~~C
.~r:rJ,"zr-Cl!!a
:I::I;
s~,)!:I;.s..

'B-:s

lh/ineom""'OJ quo.e perimenlois (COtllinUdilo):


U. Delineamenlo com Grilpo
de Conlrole e Pr-Teste.Ps.
Te.te de Amostras Distintas
11 O (X)
Jf
X O

li

...!.

-!i ~
..""
_ ~a
:;t =.g
~ ~ ~.g

~
1~
..~

o~ o 11~y
'e-u 'e- ~.!!'".:
tet~]t.!!
:Sl:,Il8.s~

+++++++

+ +

+++++++

+
.'

+ +

----------11 O
A

Uo.
_~_~_~~~_~_
A'

11
11 O (X)
X O .

-"'---"(xf--X O
{ .ti

,f'

~-~

~-

A.
11 O

o
:

--------O.
{A

+++++++.

14. Ddlncamenlo de s~rios


temporais mltiplas
O O OXO O O
(("0'''0'''0

"'O"'(j'

U. Delineamenlo'
de
instllucional
Classe A
X
01

ciclo

..

c.iiSni1----o~-y-;--ClasseDs
11 X O~.

Ca~~-C---~

;-X-

'

iiC'nt.-P;p:G.;,;j-i/cr.ise-n~
-Conl. Pop..Geral p/Clanc C 07
02 < O,
05 < (J~}
O2 < O.'
O" < O,

00 = 1

O","= O".}
16. Descontinulcbde
~o

de

re-

-+

---11++
--+1?+1
+

+++1++1

+
+

1 +
1 +
? ?

- + +

. Conlrale da Populallo C.eral para a Cla..c B. ele.

97

96