Keller, F. S. - Aprendizagem - Teoria Do Reforço PDF

Neste livro, o Professor Fred1 .
uma introduo simples e breve l

em termos da teoria do reforo. I___________ ,___
e breve, identifica e esclarece todos os princpios
fundamentais e indica suas interrelaes e poss
veis extenses. , por isso, mais do que uma pura
exposio de uma teoria da aprendizagem; ofe
rece um ponto de vista de teoria da aprendizagem
para toda a Psicologia.
Milhares de experimentos foram realizados na
rea da teoria e prtica da Psicologia. Os termos
bsicos e os conceitos-chave, assim como o es
quema da resultantes constituem a principal
preocupao desta pequena introduo.
APRENDIZAGEM:
TEORIA DO REFORO
FICHA CATALOGRFICA
(Preparada pelo Centro de Catalogao-na-fonte,

Cmara Brasileira do Livro, SP)
Keller, Fred Simmons, 1899-

K38a Aprendizagem: teoria do reforo; traduo de Ro-
dolpho Azzi, Lea Zimmerman, Luiz Octvio de Seixas
Queiroz. So Paulo, E.P.U. 1973.
p. (Cincias do comportamento)
Bibliografia.
1. Psicologia da aprendizagem I. Ttulo. II. Srie.
73-0535 CDD-153.15
ndices para o catlogo sistemtico:

1. Aprendizagem : Psicologia 153.15
2. Psicologia da aprendizagem 153.15
FRED S. KELLER
Professor Emrito de Psicologia, Columbia University
APRENDIZAGEM:
TEORIA DO REFORCO
3
Traduo de
Rodolpho Azzi
Lea Zimmerman
Luiz Octvio de Seixas Queiroz
Traduo brasileira da 2.a edio americana:
Learning: reinforcement theory, second edition, 1969,
Copyright 1954, 1969 by Random House, Inc.
13a Reimpresso, 2003
E.P.U. - Editora Pedaggica e Universitria Ltda., So Paulo, 1974. Todos os direitos reservados.
A reproduo desta obra, no todo ou em parte, por qualquer meio, sem autorizao expressa e por
escrito da Editora, sujeitar o infrator, nos termos da lei n 6.895, de 17-12-1980, penalidade
prevista nos artigos 184 e 186 do Cdigo Penal, a saber: recluso de um a quatro anos.
E. P. U. - Telefone (0++11) 3168-6077 - Fax. (0++11) 3078-5803
E-Mail: vendas@epu.com.br Site na Internet: http://www.epu.com.br
Rua Joaquim Floriano, 72 - 6o andar - conjunto 65/68 - 04534-000 So Paulo - SP
Impresso no Brasil Printed in Brazil
NDICE
Prefcio da Segunda E d i o ..........................................

Prefcio ............................................................................
Agradecimentos ...............................................................
1. Introduo .....................................................
2. Comportamento operante e respondente . . .
3. Condicionamento respondente.....................
4 . Condicionamento operante .........................
5 . Reforos positivo e negativo.......................
6 . Extino .....................................................
7. Reforamento interm itente...........................
8. Comportamento supersticioso .....................
9. Baixa freqncia de resposta: um exemplo .
10. Extino e reforo negativo.........................
11. Generalizao.................................................
12. Discriminao................. ...............................
13. Diferenciao (Modelagem) .......................
14. Encadeam ento................................................
15. Reforo condicionado positivo ...................
16. Reforo condicionado negativo...................
17. Ps-escrito ...................................................
Apndice: Curvas acumuladas e registrador acumulado
Leituras sugeridas ........................................ ..................
Prefcio da Segunda Edio
Quando o Professor Hartley, h quinze anos atrs, pediu-me

para escrever uma introduo teoria do reforo para alunos do
college, leigos interessados e professores que sentiam a necessidade
de uma apresentao sumarizada, eu fiquei amedrontado. Despido
do acompanhamento usual de curvas e tabelas, sem pormenores ex
perimentais e indicao bibliogrfica especializada, com pouca ou ne
nhuma referncia s fontes histricas e s questes discutveis, seria
o resumo algo que valesse a pena ser lido? O que restasse seria su
ficiente para envolver o interesse dessa audincia ou de qualquer
a
outra? (
Parece agora que esses temores eram infundados. A apresenta
o abreviada aparentemente mostrou-se til em vrios nveis de en
sino e para vrios tipos de leitores. Nesta reviso, eu tentei ampliar
esse aspecto da utilidade. Novo material foi includo, especialmente
na rea de reforamento intermitente, e foi anexado um apndice sobre
registro acumulado que uma caracterstica importante do estudo do
comportamento operante desde o seu incio. As Leituras sugeridas
foram ampliadas e atualizadas.
Milhares de experimentos foram realizados desde 1954 na rea
da teoria cientfica e da prtica representadas por este pequeno livro;
entretanto, pequena ou nenhuma ateno ser dada aqui a esses es
tudos. Os termos bsicos, os conceitos chaves e o esquema amplo
do sistema no foram muito alterados, e eles constituem ainda a prin
cipal preocupao dessa introduo aprendizagem, do ponto de vista
da teoria do reforo.
F. S. K.
Kalamazoo, Michigan
1
Prefcio
muito difcil exagerar a importncia dos processos de apren

dizagem na definio do comportamento humano. Estudantes de psi
cologia nem sempre alcanaram uma compreenso adequada desse im
portante campo. Escolas tericas diferentes sugeriram pontos de
vista diversos, e integraram seus conceitos numa tentativa de unificar
a compreenso do comportamento humano. Nos ltimos anos, porm,
nota-se ujn nmero crescente de esforos sistemticos para elaborar a

teoria da aprendizagem como o ponto de partida para compreender o

homem. Uma das contribuies mais estimulantes a comumente
identificada como teoria do reforo ou da recompensa.
Neste livro, o Professor Fred S. Keller apresenta uma introdu
o simples e breve aprendizagem, em termos da teoria do reforo.
Embora simples e breve, identifica e esclarece todos os princpios
fundamentais e indica suas interrelaes e possveis extenses. , por
isso, mais do que uma pura exposio de uma teoria da aprendizagem;
oferece um ponto de vista de teoria da aprendizagem para toda a
Psicologia. Seu estilo simples no deixa de conter a preciso e a
cautela cientficas. Este , pois, um documento que ser apreciado
no s por estudantes que se iniciam mas tambm por profissionais
que consideram as exposies costumeiras muito tcnicas e enfadonhas.
O autor deste livro h muito reconhecido como um terico,
pesquisador e professor. Muito contribuiu para o desenvolvimento e
a aplicao da teoria do reforo. Nestas pginas ele ajuda a remo
3
ver o esotrico deste ponto de vista e assim torna possvel a um
maior grupo de pessoas compreender, criticar, ampliar e auxiliar a
desenvolver este importante campo de investigao.
Eugene L. Hartley
The City College, New York
4
Agradecimentos
Os nomes de muito poucas pessoas so mencionadas nas pgi

nas que seguem mas, qualquer leitor psiclogo rapidamente reconhe
cer meu dbito geral ao Professor B. F. Skinner e a seus colabo
radores pela formulao da teoria do reforo aqui apresentada. Ele
tambm encontrar exemplos de dbitos especficos a pesquisadores
cuja orientao terica, provm do Professor Clark L. Hull. Identifi
car alguns velhos amigos que, de nenhuma forma, esto ligados a
uma teoria./Minha razo para omitir referncias pessoais a mesma
em cada calso. Este e um livro para os que se iniciam. Se eles fo
rem incentivados a prosseguir nos seus estudos, podero sanar a falta
de nomes. Se no o forem, no haver dano por isso.
Eu agradeo a John V. Keller, pela leitura cuidadosa deste livro
em cada estgio da sua elaborao; seus comentrios foram muito
teis. Desejo tambm agradecer aos meus colegas Ralph F. Heffer-
line e Wendell E. Jeffrey, pelas crticas e correes ao manuscrito
completado.
Anne S. Keller atuou como sujeito no experimento descrito na
seo 4. Com um atraso de quinze anos eu lhe expresso minha gra
tido pela sua cooperao!
Fred S. Keller
5
1. Introduo
1
So muitas as situaes em que se usa o verbo aprender em

algumas de suas formas. Aprendemos, em criana, a distinguir uma
face de outra, ou uma voz amiga de outra zangada. Aprendemos,
talvez, que algumas vezes se consegue coisas com manha e, mais
tarde, que no. Aprendemos que certos objetos cortam, queimam,
picam ou machucam os dedos se no forem manejados corretamente.
Aprendemos a patinar, a danar e a esquiar. Aprendemos boas ma
neiras mesa, jeitos de falar e mesmo maneiras de demonstrar emo
o. Aprendemos a tabuada e a recitar o discurso de Gettysburg
pronunciado por Lincoln. Aprendemos a ter medo do som do motor
do dentista. Aprendemos a contar a verdade e a ficar envergonha
dos quando contamos uma mentira. Aprendemos o valor do dinhei
ro, da fora, da idade, dos ttulos, da hierarquia e das posies. E
assim por diante. A lista apenas comea, mas j se pode ver por
que se tem dito que o campo da aprendizagem to amplo quanto
o da prpria psicologia!
No fcil, porm, definir aprendizagem. Examinemos rapida
mente os casos que acabamos de citar. Sero iguais estas aprendiza
gens? O aprender a patinar ser igual ao aprender a ter vergonha?
Ou ao aprender o valor do dinheiro? Ser como o aprender a esquiar?
Aprender a temer o motor do dentista ser igual a aprender a no
tocar a chama, ou se parecer mais com o aprender a gritar para cha
mar a ateno? Haver uma nica espcie de aprendizagem? Have
r duas? Sete? Ou haver tantas espcies quantos forem os exemplos?
Afinal, o que exatamente aprendizagem?
7
So perguntas difceis e no so, de forma alguma, as nicas
que se pode fazer acerca da aprendizagem. E so perguntas que no
podem ser respondidas com uma palavra, nem com uma sentena,
nem mesmo com um livro. Ainda estamos aprendendo a respeito da
aprendizagem e ainda, por algum tempo, no se ter escrito toda a
histria.
Enquanto isso, no seria certo concluir que a situao deses-
peradora. Na verdade, o que ocorre o contrrio, e nunca estivemos
to esperanosos. Alguns princpios ou leis gerais emergiram recen
temente nos estudos modernos da natureza humana. Estes princpios e
leis no so difceis de serem entendidos e, se bem compreendidos,
constituem um poderoso instrumento na anlise de comportamentos de
todos os tipos. Com este auxlio, ser possvel focalizar com nitidez
quase todos os casos de aprendizagem que voc tender a encontrar
na vida diria. Inclusive todos os exemplos de aprendizagem men
cionados acima, por mais complexos que paream ser.
2. Comportamento operante e respondente

Antes de falar a respeito dos princpios, entretanto, preciso
distinguir entre dois tipos de comportamento. Um deles conhecido
h muito tempo, como comportamento voluntrio, e o outro geral
mente denominado reflexo. Estas duas grandes classes da atividade
humana, juntas, abrangem quase todos os exemplos de comporta
mento em que o estudante de aprendizagem est interessado.
Voluntrio e reflexo, entretanto, so palavras infelizes de um
ponto de vista cientfico. A histria do seu uso nos diz que, com
freqncia, significaram coisas diversas para diferentes pessoas. De
fato, tem havido muito desacordo sobre o significado destas duas pa
lavras e, para substitu-las muitos psiclogos adotaram recentemente
os termos operante e respondente. Ser proveitoso acompanh-los,
na esperana de evitar discusses acerca de definies. Mas o leitor
poder ter notado que, para alguns psiclogos, operante e respondente
quase chegam a significar as mesmas coisas que os correspondentes
mais antigos, voluntrio e reflexo.
8
O comportamento respondente (reflexo) inclui todas as respos
tas dos seres humanos, e de muitos organismos, que so eliciadas
(produzidas) por modificaes especiais de estmulos do ambiente.
Manifesta-se sempre que as pupilas dos olhos se contraem ou se dila
tam em resposta a modificaes na iluminao do ambiente; sempre
que a boca se enche dgua ao degustar algum petisco; sempre que
uma lufada de ar frio arrepia a pele; sempre que se derramam lgri
mas ao descascar cebolas; sempre que se perde o flego ao receber
no rosto um inesperado jato dgua; e em muitas outras maneiras,
algumas das quais sero mencionadas mais tarde.
O comportamento operante (voluntrio) abrange uma quantida
de maior da atividade humana desde o espernear e balbuciar do
beb de colo at as mais sublimes perfeies das habilidades e do
poder de raciocnio adulto. Inclui todos os movimentos de um orga
nismo dos quais se possa dizer que, em algum momento, tm um efeito
sobre ou jazem algo ao mundo em redor. O comportamento operante
opera sobre o mundo, por assim dizer, quer direta, quer indiretamente.
Quando se apanha um lpis ou quando simplesmente se pede a algum
que no-lo d; quando se faz sinal para o nibus, ou nele se sobe,
quando se fala ao telefone; quando se trauteia uma melodia, ou se
olha no relgio ou se resolve um problema de matemtica em todos
estes, e em milhares de outros atos da vida cotidiana, se est exem
plificando o comportamento operante.
Algumas vezes o efeito do comportamento operante sobre o mun
do exterior imediato e bvio, como quando se chuta uma bola, se
abre uma porta ou se escreve uma carta. As modificaes do mundo
podem ser ento observadas por quem quer que tenha o trabalho de
procur-las. Em outras ocasies, no entanto, tal no o caso. Quan
do se disca um nmero de telefone e ningum atende, quando algum
fala consigo mesmo, em voz alta ou silenciosamente, no fcil ver
exatamente como o ambiente foi alterado pelo que se fez. S quando
se observa a histria destes comportamentos que se descobre que,
neste ou naquele momento, alguma forma da resposta em questo
realmente fez com que as coisas acontecessem. OriginariamentQ al
9
gum foi instigado para a ao de discar o nmero do telefone; e, antes
que algum comece a falar sozinho, necessrio que a fala tenha tido
algum efeito sobre o comportamento dos outros, ou jamais teria sido
adquirida.
O comportamento respondente, como j foi mencionado, auto
maticamente eliciado por estmulos especiais. Uma luz forte, proje
tada no olho acostumado ao escuro, produzir inevitavelmente uma
contrao pupilar. O comportamento operante, entretanto, no
assim to automtico, to inevitvel, nem to especfico com relao,
aos estmulos. Suponhamos que se queira fazer com que uma pessoa
atravesse uma sala, levante a mo acima da cabea ou que apanhe
um lpis da mesa. Como se faria para eliciar estas respostas? Em-
pregar-se-ia uma ordem, um pedido ou uma splica? Tentar-se-ia
faz-la executar o ato, usando fora se necessrio? Usar-se-iam atra*
tivos ou incentivos especiais? E ter-se-ia a mesma certeza dos resul
tados como quando se projeta luz nos olhos de algum? E se a pes
soa no entendesse a nossa lngua, como ento evocar o comporta
mento?
A diferena entre comportamento operante e respondente poder
ficar mais clara se se pensar em suas origens nas primeiras oca
sies em que aparecem. Os respondentes, desde o comeo, so evo
cados pelos seus prprios estmulos especiais. Comida na boca pro
duz salivao, luz nos olhos faz a pupila contrair-<se, e assim por
diante. Pode-se dizer que a gente s tem que nascer para que estes
estmulos eliciem estas respostas. No caso dos operantes, entretanto,
no h, no comeo, nenhum estmulo especfico com os quais se possa
evoc-los. Somos compelidos a esperar que apaream antes que se
possa fazer qualquer coisa com eles. Simplesmente, no sabemos quais
os estmulos especficos que fazem com que a criana faa este ou
aquele determinado movimento com o brao, perna, p ou mo, ou
com que vocalize pela primeira vez de um determinado modo.
por esta razo que se fala que o comportamento operante emitido
(posto fora ) em vez de eliciado (tirado de). Sabemos natural
mente que os operantes tornam-se ligados a estmulos, como se ver
10
na Seo 12, e como estas ligaes se estabelecem, mas, mesmo en
to, ser justificado dizer que os operantes e os respondentes relacio
nam-se com os estmulos de modo diferente.
3. Condicionamento respondente
Estamos agora em condies de falar acerca dos princpios. E,

no que diz respeito ao primeiro, comecemos com alguns exemplos.
Caso I: Suponha que, numa sala aquecida, sua mo direita seja
mergulhada numa vasilha de gua gelada. Imediatamente a tempera
tura da mo abaixar-se-, devido ao encolhimento ou constrio dos
vasos sangneos. Isto um exemplo de comportamento responden
te. Ser acompanhado de uma modificao semelhante e, mais facil
mente mensurvel, na mo esquerda, onde a constrio vascular tam
bm ser induzida. Suponha agora que a sua mo direita seja mer
gulhada na gua gelada um certo nmero de vezes, digamos em in
tervalos de trs ou quatro minutos; e, alm disso, que voc oua uma
cigarra eltrica pouco antes de cada imerso. L pelo vigsimo pa-
reamento do som da cigarra com a gua fria, a mudana de tempe
ratura poder ser eliciada apenas pelo som isto , sem necessi
dade de molhar uma das mos.
Caso II: Imagine agora uma pessoa sentada diante de uma pe
quena tela de cinema em uma sala silenciosa. Na tela, durante pero
dos de um minuto, aparece projetada em intervalos irregulares uma
palavra em letra de forma. Durante o mesmo perodo de um minuto,
chumaos de algodo sero colocados debaixo da lngua da pessoa,
de modo que se embebam de certa quantidade de saliva, que ser
exatamente determinada pela diferena de peso do algodo no come
o e no fim de cada minuto. Depois, na mesma sala, mas sem chuma
os de algodo que atrapalhem, convidar-se- a pessoa para uma srie
de petiscos (sanduches, pastis e outros bocados) durante os quais a
palavra continua a ser intermitentemente projetada na tela em frente.
Finalmente, sem mais nada que comer, mas com os chumaos de al
11
godo outra vez no lugar, a palavra intermitente ser outra vez pro
jetada por outro minuto perodo de teste e a salivao ser
medida como antes. Resultado: a palavra projetada elicia agora mui
to mais saliva do que antes.
Caso III: Imagine ainda outro sujeito humano numa sala de
laboratrio. Desta vez, est usando fones no ouvido e tem eltrodos
presos mo esquerda, de modo a permitir a aplicao de um cho
que eltrico. Outros eltrodos, presos ao trax e perna esquerda,
esto ligados a um cardigrafo, para prover um registro das batidas
do corao. Quando tudo estiver pronto, um som de altura e tona
lidade moderadas chegar ao ouvido do sujeito durante o perodo de
um segundo. Seis segundos mais tarde, um choque eltrico estimu
lante ser aplicado sua mo. Esta combinao de som seguido de
choque ser repetida onze vezes, em intervalos de um ou dois minu
tos. L pelo dcimo primeiro pareamento, o batimento cardaco do
sujeito cair de quinze a vinte batidas por minuto dentro de um se
gundo mais ou menos depois de ter ouvido o som, e antes que o cho
que seja sentido.
Estes trs casos foram tomados de experimentos reais. Cada
um um exemplo de aprendizagem, do mesmo modo que o de se
chegar a suar ao simples som da broca do dentista ou a corar ao
dizer uma mentira. Todos eles ilustram o mesmo princpio bsico,
j conhecido e denominado de reflexo condicionado. Este princpio
foi formulado, nos primeiros anos deste sculo, pelo filsofo russo
Pavlov. Poder ser enunciado, de modo um pouco simples demais,
como se segue: Se um estmulo neutro for pareado um certo nmero
de vezes a um estmulo eliciador, este estmulo, previamente neutro,
ir evocar a mesma espcie de resposta. O estmulo neutro, no pri
meiro caso, foi a cigarra; no segundo, a palavra projetada; e no ltimo,
o som. Atravs da associao com gua gelada, comida e choque,
respectivamente, vieram a eliciar, por si s, a queda da temperatura,
o fluxo salivar e a mudana de batimento cardaco.
Estes condicionamentos ocorreram muito rapidamente; s uns
poucos pareamentos foram necessrios em cada caso. Isto no teria
acontecido se certos fatores temporais no tivessem sido observados
e se certas precaues no tivessem sido tomadas. Por exemplo, se
em cada um dos casos o estmulo eliciador tivesse vindo minutos de
pois, em vez de segundos, o condicionamento poderia ter sido muito
lento. Ou, se o estmulo neutro tivesse acompanhado, seguido, em
vez de precedido o estmulo eliciador, poderia no ter ocorrido con
dicionamento algum. Alm disso, a velocidade do condicionamento
teria sido tambm afetada pelo nmero de distraes presentes, pelo
tipo de instrues dadas aos sujeitos, pela intensidade dos estmulos
empregados, pelas condies fisiolgicas do sujeito no momento do
experimento, etc. V-se, portanto, que h mais coisas no condicio
namento do que pode ser dito no enunciado de uma sentena.
Nossa definio inadequada ainda sob outro aspecto. A cigar
ra, a palavra projetada e o som, nos nossos trs exemplos, s eram
neutros em um sentido relativo s por que no tinham, ao co
mear, o mesmo efeito sobre o comportamento que seus associados:
a gua gelada, o alimento e o choque eltrico. Cada um deles tinha,
provavelmente, algum efeito sobre o comportamento antes da asso
ciao, alguma influncia sutil que podemos mesmo no ser capazes
de observar. Cada um, pode-se dizer, tinha a sua prpria resposta
reflexa; cada um era, na realidade, um estmulo eliciador por conta
prpria. Examine o seguinte diagrama em que S refere-se ao est
mulo e R resposta:
Deveramos dizer, provavelmente, que no condicionamento so

pareados dois reflexos, duas conexes estmulo-resposta, em vez de
dois estmulos. O condicionamento requer a formao de um terceiro
reflexo, composto do estmulo neutro e da resposta ao estmulo
eliciador.
13
Pavlov reconhecia tudo isso. O terceiro reflexo era o seu refle
xo condicionado, e referia-se aos dois reflexos sobre os quais se ba
seava como incondicionados. Referia-se, do mesmo modo, a est
mulos condicionados e incondicionados. O alimento foi denominado
estmulo incondicionado para a salivao do cachorro e o estmulo
(um som), com o qual era associado, tornava-se o estmulo condicio
nado para a mesma resposta. (E deveramos acrescentar, naturalmen
te, que o som era um estmulo incondicionado para alguma outra
resposta por exemplo, um sobressalto antes do condicionamen
to ser iniciado.)
Um outro termo de Pavlov se tornou muito importante na psi
cologia moderna. Ao descrever o efeito do alimento no condicio-
mento de um cachorro a salivar ao som de uma campainha, referiar
-se a ele como reforador. O alimento reforava a conexo entre
o estmulo neutro e a salivao. como o efeito da gua gelada e
do choque eltrico nos nossos Casos I e III. Hoje, de certo modo,
ampliamos a significao do termo usando reforamento tambm
como mais ou menos equivalente a recompensa ou punio do
comportamento operante.
O princpio de Pavlov, como ele o formulara, aplica-se especial
mente atividade glandular, e ele trabalhava principalmente com as
glndulas salivares. Mas aplica-se igualmente bem atividade mus
cular lisa, ou da espcie envolvida quando a pupila do olho dilata;
ou os vasos sangneos se contraem; ou os plos da pele se arrepiam.
Todas estas so modificaes respondentes ou reflexas. Alm destas,
Pavlov achava que sua lei aplicava-se tambm s atividades moto
ras ou musculares estriadas movimentos da cabea, pernas,
dedos, etc. Hoje, entretanto, adotamos uma viso mais conservadora,
editamos que a lei trata, no de operantes, mas exclusivamente
-espondentes. Um terico moderno chegou a afirmar que se aplica
principalmente s reaes emocionais, dependendo, por isso, do sis
tema nervoso autnomo. Isto pode ou no englobar toda a histria,
mas pelo menos o leitor j sabe por que a palavra respondente foi
includa no ttulo desta seo.
/'
14
4. Condicionamento operante
Ao apresentar o prximo princpio, mais uma vez apropriado

comear com um exemplo. Desta vez nosso sujeito uma criana
de cerca de dezessete meses, e a situao experimental uma sala de
visitas comum ligeiramente modificada para servir como laboratrio.
Nossas observaes comeam quando a criana entra correndo na
sala de visitas, vindo do vestbulo, e tenta chamar a ateno da me
que est sentada perto da janela, lendo. Falhando nos seus esforos,
a criana volta-se para o outro lado. medida que seu olhar vagueia
pela sala, de repente ilumina-se ao cair sobre um novo aspecto; Atra
vs de uma estreita fresta da cortina que separa a sala de visitas da
de jantar, projeta-se uma pequena maaneta em forma de T. Logo
abaixo da maaneta h uma pequena vasilha, ao alcance da criana.
Aproximando-se rapidamente destes objetos, mas prudentemente, a
criana toca a maaneta com o dedo, e olha dentro da vasilha.
Quando o faz, cai na vasilha um pequeno pedao de chocolate, vindo
de um tubo escondido do outro lado da cortina da sala de visitas.
Assustada com isso, a criana recua momentaneamente, mas volta e,
apanhando o chocolate, come-o. Alguns segundos mais tarde, segura
firmemente a maaneta e puxa para baixo cerca de 2 centmetros,
fazendo com que um segundo pedao de chocolate caia na vasilha.
%
Da por diante, com eficincia rapidamente crescente, ela opera o

mecanismo, comendo cada pedao medida que cai, at que o cho
colate deixa de apetecer.
Este caso simples ilustra um poderoso princpio do comporta
mento. Edward L. Thorndike, um grande psiclogo norte-americano
deste sculo, denominava-o Lei do Efeito, e realizou muitos experi
mentos para demonstrar sua importncia no comportamento humano
r
e animal. Em essncia, esta lei enuncia que um ato pode ser alterado
na sua fora pelas suas conseqncias. O ato, no nosso exemplo, foi
o de pressionar a maaneta; o reforamento deste ato foi observado
no aumento da freqncia de seu aparecimento, e a conseqncia do
ato foi, naturalmente, o pedao de chocolate que caa na vasilha.
15
Muito conhecidos entre os prprios estudos de Thorndike so
aqueles em que gatos famintos conseguiam acesso a pedacinhos de
alimento sempre que manipulassem o fecho, alavanca, ou dispositivo
apropriado que abria a porta da gaiola-problema em que estavam
aprisionados. O progresso dos gatos nesta tarefa foi medido pela
diminuio do tempo que demoravam para escapar e chegar at o
alimento em sucessivas ocasies de confinamento. Assim, quando o
gato resolvia o problema, o nmero de segundos que precisava para
operar o mecanismo de escape ia diminuindo gradualmente, at que
seu desempenho se aproximava da perfeio.
Hoje, falamos comumente desta aprendizagem por efeito como
condicionamento instrumental ou operante e, freqentemente, me
dimos a sua fora em termos da freqncia com que ocorre no tem
po quando o organismo (animal ou humano) livre para responder
vontade. No caso da nossa criana, esperaramos uma resposta de
vez em quando, mesmo na ausncia de qualquer recompensa especial.
Mas, quando o chocolate aparecia logo depois do pressionar da ma
aneta, a probabilidade da resposta ser repetida aumentou rapidamen
te a freqncia subitamente aumentou. Como a criana continuou
a obter pedaos de chocolate, naturalmente veio a ocorrer saciao e
a freqncia do pressionar a maaneta diminuiu. No se cometeria
entretanto nenhum erro ao supor .que, quando voltasse a fome por
chocolate, o comportamento de pressionar a maaneta reapareceria
rapidamente.
Este condicionamento operante pode ser representado da seguin
te maneira:
R ___ > S
R a resposta (pressionar a m aaneta);-----> significa leva a, e
S o estmulo reforador, o chocolate. No h necessidade de falar,
neste ponto, sobre os estmulos que levariam ou no a pressionar a
maaneta. Como foi dito antes, eles seriam muito difceis de identifi
car na primeira vez que a resposta fosse feita, e estaramos em maus
lenis se tivssemos de eliciar ou pressionar. Mais tarde, entretanto,
16
ver-se- que a R do nosso diagrama se relaciona com estmulos do
meio e examinaremos as condies em que esta relao se estabelece.
5. Reforos positivo e negativo
O chocolate no , obviamente, o nico tipo de estmulo refor

ador que pode ser usado para condicionar uma resposta operante
tal como pressionar barra. Na verdade, apenas um dos membros
de uma grande famlia de reforadores - a famlia dos assim deno
minados reforos positivos. Esta famlia inclui todos aqueles est
mulos que, quando apresentads, atuam para fortalecer o comporta
mento que os precede. Sob condies apropriadas de carncia, mui
tos outros alimentos (ou bebidas), e talvez mesmo certos sons e luzes,
podem aumentar a freqncia do pressionar a barra do mesmo modo
que o chocolate.
Mas isto no tudo. Assim como h reforos positivos, h re
foros negativos que podem ser usados para condicionar o comporta
mento operante. Alguns estmulos fortalecem a resposta atravs de sua
remoo. Comumente no usamos estes estmulos em experimentos
com crianas, ou mesmo com adultos, mas h muitos exemplos do
modo como eles atuam em situaes no-experimentais, e em experi
mentos com animais inferiores. Quando um menino tira os sapatos
%
porque eles esto apertados ou cheios de pedrinhas; quando tira o ca

saco porque est muito quente, ou quando o veste porque est muito
frio; quando fecha os olhos ou tapa as orelhas para eliminar luzes ou
rudos demasiado fortes em todos estes casos o que o refora
ficar livre da estimulao. Da mesma maneira, nos estudos de labo
ratrio muitas vezes se treinam ratos brancos para que pulem, corram,
pressionem uma barra, etc., em situaes em que a nica recompensa
fugir de intensidades incmodas de choque eltrico ou de outra es
timulao intensa.
Pode-se ento dizer que um estmulo reforador negativo aque
le que fortalece a resposta que o remove. Mas tambm o estmulo
17
que enfraquece a resposta que o produz. Suponha-se, por exemplo,
que a criana que mencionamos tivesse recebido, depois de cada
presso barra, um choque eltrico em vez de um pedao de cho
colate; fcil adivinhar o que teria acontecido. A freqncia do pres
sionar a barra teria sido drasticamente afetada. Cairia bem abaixo
do nvel de sua ocorrncia incondicionada, isto , da freqncia com
que ocorreria naturalmente, na ausncia de qualquer efeito especial.
Ao menos esta a concluso a que se poderia chegar na base do senso
comum e dos estudos com animais em que as respostas operantes
foram seguidas de estimulao intensa. De um modo geral, foi de
monstrado que choques fortes, luzes intensas, sons agudos, etc., efe
tivamente suprimem todo o comportamento que os produz. A supres
so poder no durar muito, especialmente se o organismo for deixado
na mesma situao depois de ter sido interrompido o reforo nega
tivo, mas no se pe em dvida a sua existncia. (Voltar-se- a este
problema na seo 10.)
6. Extino
comum que os psiclogos sejam consultados sobre como

eliminar comportamentos j condicionados, como desaprender, como
aprender a no fazer algo. Esta uma questo que conduz a muitas
direes e, em resposta, h muito mais do que pode ser dito aqui.
Mas a frmula bsica suficientemente simples: a maneira de desar
prender uma resposta j condicionada atravs da extino atra
vs da suspenso do reforamento.
Considere, por exemplo, o reflexo condicionado de Pavlov. Ele
se estabelece fazendo com que o estmulo neutro seja sempre acom
panhado do incondicionado ou reforador. Poder ser desfeito apre
sentando-se o estmulo condicionado, mas suspendendo o incondicio
nado. Lembre-se dos exemplos de condicionamento apresentados.
Uma queda de temperatura foi condicionada ao som de uma cigarra;
a secreo salivar foi condicionada viso de uma palavra projetada;
18
uma mudana no batimento cardaco foi condicionada a um som de
um segundo de durao. Tudo isso j foi descrito. Entretanto, no
foi mencionado o fato de que, depois de cada experimento, a respos
ta condicionada foi extinguida. No primeiro caso, a cigarra foi toca
da repetidamente, mas a mo no foi mergulhada na gua; no se
gundo, a palavra foi vrias vezes projetada, mas nenhum alimento a
acompanhou; e, no ltimo caso, uma srie de sons foram apresenta
dos, mas no foram seguidos de choque. O resultado em cada um
dos casos foi o mesmo. A fora da resposta condicionada declinou,
at que o efeito da associao se perdesse e o estmulo condicionado,
outra vez, se tornasse neutro.
Estes so exemplos de extino respondente, mas a mesma regra
fundamental se mantm para a extino operante. Se o reforo for
retirado, a resposta voltar, eventualmente, sua freqncia original
incondicionada (algumas vezes denominada nvel operante). Em al
guns experimentos, como no caso da criana que ganhava chocolate
ao pressionar uma barra, a remoo do reforo causa de conside
rvel emoo. Respostas rpidas e excessivamente vigorosas, e mes
mo ataques encolerizados ao dispositivo que apresentava a recompen
sa e que j no funciona, podem alternar-se com perodos de mau
humor e depresso operante. O nmero de respostas de cada repente
vai decrescendo gradualmente e os perodos de no-resposta vo au
mentando cada vez mais. Finalmente, a fora cai a um nvel de rea
o aptica ocasional, e a extino j est quase completa.
A extino, tanto para operantes como para respondentes, al
gumas vezes extremamente lenta. Em uns poucos casos, investigado
res relataram que ela absolutamente no ocorre. Isto um tanto per
turbador. Sugere que alguns dos nossos comportamentos podem du
rar mais tempo do que desejamos que poderemos, talvez a vida
toda, continuar afligidos por ansiedades, compulses e obsesses que
no so fceis de suportar. Teremos de ter sempre medo de cachor
ros? Ou de falar em pblico? Nunca seremos capazes de deixar de
fumar? Esta melodia ou este pensamento doloroso nunca nos aban
donaro?
19
Provavelmente as coisas no so assim to ruins. Por exemplo,
o alegado fracasso em obter extino de uma contrao pupilar, de
uma secreo salivar, ou de qualquer outro respondente condiciona
do, pode ter uma explicao diferente. Sabemos que o comporta
mento operante pode, s vezes, produzir efeitos respondentes incon
dicionados. Isto freqentemente citado como o controle voluntrio
da ao involuntria. Assim, distendendo rtos msculos pode-se
prover o estmulo incondicionado para uma mudana na freqncia
do pulso, na constrio de vasos sangneos, etc. Pode bem ser que
tal controle operante do comportamento respondente, estabelecido ao
mesmo tempo que o respondente, tenha sido condicionado e se possa
manter mesmo depois que o estmulo condicionado para o responden
te tenha perdido todo o efeito. Em outras palavras, antes de termos
certeza de que o respondente no se extinguir, devemos estar certos
de que o nosso sujeito no tenha descoberto, sem o sabermos e sem
ele mesmo saber, seu prprio operante especial para produzir o mes
mo efeito em uma base incondicionada isto , produzindo em si
mesmo a estimulao que ir eliciar a mesma mudana respondente.
Tambm os operantes condicionados podem resistir extino,
s vezes em um grau fantstico, de modo que, segundo todas as apa
rncias, podem ser inextinguveis. Experimentos com animais retratam
isso mais vivamente. Por exemplo, um pombo pode ser condicionado
a bicar um pequeno disco ou chave na parede de uma cmara expe
rimental. Quando, aps um longo treino, comea a extino, o pombo
poder bicar 7.500 vezes durante a primeira hora, sem qualquer sinal
de parar. Nas duas horas seguintes poder emitir aproximadamente
o mesmo nmero de respostas, e a extino estar ainda longe de se
completar. Observando o pombo, poder-se- dizer que est incuravel-
mente viciado em bicar o disco; e poder-se- ficar admirado de como
no pra de pura exausto. Posteriormente, claro, no mais res
ponder, mesmo quando j estiver descansado e outra vez faminto do
alimento que o bicar produzia. Mas um observador impaciente facil
mente teria concludo e manteria a opinio de que o hbito era in
quebrvel.
20
7. Reforamento intermitente
Um primeiro agente na produo de uma grande resistncia

extino em casos como este o esquema de reforo que esteve pre
viamente em efeito. Quando se recompensa um pombo intermitente
mente, em vez de em todas as ocasies em que emite a resposta, uma
forma de comportamento muito semelhante ao de uma mquina ir
se desenvolver, depois de um treino longo e continuado. Se os refor-
amentos forem apresentados em intervalos de tempo regulares, diga
mos cada cinco minutos, breves perodos de no-resposta alternar-se-
-o regularmente com perodos mais longos nos quais o pombo acelera
rapidamente at uma freqncia duas ou trs vezes maior por segun
do e continua neste ritmo at a ocorrncia do prximo reforamento.
O pombo parece contar o tempo. Nunca responde diretamente de
pois de comer (nunca foi reforado por responder nessa ocasio),
mas volta a bicar intensamente quando se aproxima do momento do
outro reforamento.
Os que trabalham em laboratrio referem-se a este esquema como
um esquema de reforo de intervalo fixo, pois um certo tempo fixo
deve decorrer entre os reforamentos. Quando os reforamentos, en
tretanto, dependerem de o pombo apresentar o mesmo nmero de
respostas em cada ocasio, aparecer uma alterao na freqncia,
em parte similar. Quando o reforo apresentado, o pombo come
os gros, espera um pouco, e ento bica o nmero de vezes exigido,
digamos vinte, numa seqncia constante e rpida. Isto conhecido
como um esquema de razo fixa, neste caso uma razo de vinte-para-
um vinte respostas para um reforamento. (No ocorre aqui uma
discriminao de tempo, pois sabe-se que o pombo nada obtm
parando depois de comer.)
Um quadro diferente de freqncia de resposta emerge quando
o reforamento do pombo ocorre de forma randmica ou ao acaso,
em intervalos variveis ou depois de um nmero varivel de respos
tas isto , em um esquema de intervalo varivel ou de razo va
rivel. Verifica-se uma freqncia singular e regular de resposta,
21

interrompida somente quando o pombo pra alguns segundos para

comer. Esta freqncia pode ser alta ou baixa, dependendo do tipo
de esquema (o esquema de razo varivel produz, tipicamente, fre
qncias mais altas do que o esquema de intervalo varivel) e do
tempo mdio que decorre entre os reforamentos. Quando os refor
os so prximos, as bicadas podem ocorrer na proporo de trs
para quatro por segundo; quando mais distantes, a freqncia pode
ser de trs ou quatro por minuto. Essas freqncias podem ser man
tidas durante muitas horas em cada dia e durante muitas semanas.
Os efeitos desses esquemas de reforo diferentes podem ser no
tados, como se disse no incio desta seo, no total de respostas que
ocorrem quando o reforamento for completamente descontinuado
quando ocorre a extino. Depois de um procedimento de refora
mento contnuo, quando cada resposta reforada, pode-se esperar
que a extino reduza rapidamente a freqncia de respostas com
sinais claros de distrbios, tal como foi descrito na seo 6. O refor
amento intermitente, entretanto, empresta em todos os casos uma
maior resistncia extino, com menos envolvimento emocional. O
organismo poder responder, hora aps hora, da mesma maneira cons
tante e imperturbada que exibia durante o treino. Isto especial
mente evidente quando as recompensas eram apresentadas em inter
valos irregulares de tempo algumas vezes em rpida sucesso e,
em outras, distanciadas umas das outras. A freqncia de respostas,
sob este esquema, poder no ser distinta da freqncia mantida nas
primeiras horas de extino.
A considerao do efeito dos diferentes esquemas de reforo so
bre o responder posterior, no-reforado, leva concluso de que
um importante fator responsvel pela resistncia extino a simi
laridade das condies de treino com as condies de extino. Quan
do os reforos so dados regularmente para cada resposta durante o
treino, a mudana das condies para o no-reforamento drstica.
Mas quando o organismo j se acostumou a passar longos perodos
sem unj reforo, as condies de extino, pelo menos por algum
tempo, so exatamente as mesmas que as condies de treino. A me
22
nos que o organismo possa perceber a diferena entre as duas condi
es, a freqncia do responder continuar a mesma de antes. Se
esta concluso for admitida, deve-se pensar que o comportamento
operante est mais ligado do que foi sugerido antes nestas pginas
com os estmulos ambientais. Este um ponto importante e ao qual
voltaremos em sees mais adiante.
8. Comportamento supersticioso
Em todos os esquemas de reforo descritos na seo 7, o sujeito

experimental, o pombo, tinha de bicar uma chave antes de poder
obter seus gros; o reforamento, dizemos, foi contingente a um tipo
especfico de resposta. Isto, talvez, o que ocorre normalmente em
nossas vidas, bem como em experimentos com pombos; usualmente
temos de fazer alguma coisa para obter algo. Mas nem sempre. s
vezes parece que somos pagos por no fazer nada. Que efeito, se
que existe algum, tem o reforamento sobre ns?
Considere outro estudo com pombos. A ave est novamente
faminta na cmara experimental, na qual teve anteriormente uma
chance de comer gros em um alimentador. No existe, agora, uma
resposta particular que deve emitir, ou que foi condicionada, mas, a
intervalos regulares de quinze segundos, um alimentador cheio de
gros lhe ser apresentado automaticamente, durante um perodo de
cinco segundos. Ser este comportamento afetado de modo reconhe
cvel pelo reforamento no-contingentel
A resposta sim. Nessas condies, depois de pouco tempo o
pombo desenvolver uma forma especial de resposta. Poder andar
em crculos dentro da cmara experimental; poder apoiar-se ora
num p ora no outro; poder alongar seu pescoo repetidamente em
direo a um ngulo da cmara; poder inclinar-se e ciscar repe
tidamente, ou apresentar movimentos de bicar o assoalho da cmara.
Qualquer uma dessas aes, ou outras, podem aparecer com uma fre
qncia igual de bicar um disco, embora nunca produzam realmen
23
te os gros. A resposta parece ter sido colhida pelo reforamento
que ocorreu depois da sua primeira emisso. Antes que tivesse tempo
de se extinguir, um outro reforo foi dado; e assim uma completa
superstio foi estabelecida, no diferente do comportamento de um
jogador que fala com suas fichas ou d voltas ao redor da mesa para
mudar' a sorte.
Para que os resultados sejam como estes, o reforamento no-
-contingente deve ser freqente no princpio. Quando isto no se ve
rifica, a resposta acidentalmente reforada ser suficientemente extin
ta para ser substituda por outra que, por sua vez, pode ser substitu
da por uma outra, destruindo deste modo o efeito ritualstico. O
comportamento supersticioso desenvolver-se-, entretanto, rapidamen
te quando se comea com reforamento pouco espaado. Esse inter
valo pode ser gradualmente aumentado, sem causar uma modificao
no comportamento, quando este j estiver firmemente estabelecido.
No caso do tempo entre os reforamentos ser sempre o mesmo, de-
senvolver-se- uma discriminao de tempo, como no caso da res
posta de bicar sob um esquema de intervalo fixo. Ainda assim, a res
posta supersticiosa pode ser difcil de ser eliminada. Um pombo pulou
de um lugar para outro mais de 10.000 vezes antes de alcanar um
ponto prximo da extino.
9. Baixa freqncia de resposta: Um exemplo
Os psiclogos tentaram, algumas vezes, controlar a freqncia

da resposta de outras maneiras diferentes das acima descritas. Fre
qncias altas foram alcanadas reforando-se respostas somente quan
do uma segue logo a outra, e freqncias baixas foram alcanadas
reforando-se respostas somente quando aparecem distanciadas, quan
do o tempo entre-as-respostas no menor do que um determinado
nmero de segundos ou minutos. Um exemplo pode ser interessante.
Nosso sujeito, um menino, est sentado a uma mesa em sua
casa, com um microfone sua frente e uma pequena xcara sua
direita. Atrs dele, localiza-se o experimentador, com um punhado de
24
moedas e um cronmetro. Ele acabou de instruir o menino para
pronunciar palavras ao microfone, na velocidade que quisesse, po-
dendo repetir a mesma palavra se quisesse, evitando sentenas ou
outras seqncias significativas. A estas instrues, o experimentador
acrescentou: De vez em quando, quando voc estiver fazendo isso,
eu depositarei uma moeda na xcara. Quando o experimento termi-
minar, todas as moedas que obtiver sero suas. Tudo o que tem a
fazer pronunciar palavras.
Depois de alguma hesitao as palavras comearam a aparecer:
microfone, rvore, grama, mesa, jantar, papel de parede... nomes
de objetos na sala ou fora dela, e palavras de referncia mais pessoal.
Uma das palavras, jloresy tomada ao acaso pelo experimentador
como a ocasio para dar a moeda. Imediatamente repetida, e no
vamente reforada, at cinco moedas terem sido distribudas em rpida
sucesso. A resposta do menino condicionada; pode ento ser ten
tado o controle da freqncia. De agora em diante, jlores ser refor
ada somente quando for pronunciada dez segundos ou mais depois
da ltima vez que foi enunciada.
A palavra sofre, a princpio, alguma extino, sua fora dimi
nui e pronunciada com menos segurana, at deixar de ser enun
ciada. Ento, depois de uma srie de outras palavras terem sido
emitidas, reaparece; e como j se haviam passado os dez segundos,
novamente reforada. Depois de alguns minutos de treino, desenvol
ve-se uma discriminao de tempo e a maioria das respostas flores
reforada. (Se uma ocorre antes, naturalmente, o experimentador sim
plesmente recoloca seu cronmetro no zero e passa a exigir um atra
so de mais dez segundos para que a prxima resposta seja bem su
cedida. )
Um dos resultados desse pequeno estudo pode surpreender. Entre
cada apresentao da palavra flores, o menino no permanecia ca
lado, como poderia ter feito. Ao contrrio, preenchia o perodo de
dez segundos com outras palavras, e estas palavras ocorriam comple
tamente ao acaso. medida que a prtica continuava, desenvolvia-se
uma seqncia suficientemente regular dessas palavras um tipo de
25
encadeamento supersticioso. Imediatamente depois de receber uma
moeda, essas palavras eram previsveis mas, quando se aproximava o
momento do prximo reforamento, as mesmas palavras sempre apa
reciam na ordem: navio, mar, bonito, vermelho, flores. Parece que
temos aqui um outro caso de reforamento no-contingente, desde
que s a ltima resposta na cadeia era exigida para obter a recom
pensa.
Mas, h mais do que isso. O menino, neste experimento, apre
sentou uma excelente discriminao de tempo. Raramente respon
dia, depois do reforamento, em menos de dez segundos, e raramente
ultrapassava mais do que dois ou trs segundos. E, no entanto,
ele no tinha nenhuma idia de que o experimento envolvia tempo!
Ele pensava que tinha de aprender uma srie de respostas e, quan
do o experimento terminou, desculpou-se por no ter sido bem suce
dido, dizendo: Sinto muito, mas eu no pude dizer todas as pala
vras que voc queria que eu dissesse. Tais resultados colocam ques
tes interessantes relativas parte desempenhada pelo nosso prprio
comportamento quando estamos discriminando tempo. O encadea
mento supersticioso de respostas atrapalhou ou auxiliou na contagem
inconsciente de tempo? Mas, geralmente, quando discriminamos o
tempo sem um relgio, a que respondemos?
%
Este experimento poderia nos levar a duas direes. Podera

mos discutir estudos similares mais formais do que tcnicos, conhe
cidos como diferenciao de baixa freqncia de resposta (abrevia
damente, drl), com animais, crianas e estudantes de college como
sujeitos experimentais. Ou poderamos passar diretamente para o
tpico de encadeamento estmulo-resposta. A primeira alternativa
nos conduziria a uma especializao maior do que aquela que deve
ria ser includa em um livro como este e a segunda ser melhor com
preendida depois de termos preparado mais completamente o cami-
nhoyPortanto, vamos agora mudar de assunto simplesmente passan
do para uma questo, ou pelo menos um aspecto de uma questo,
que tem preocupado a humanidade desde os primeiros dias a
questo da punio e seus efeitos.
26
10. Extino e reforo negativo
Se lhe fosse pedido que sugerisse modos de apressar a extino

de um operante fortemente condicionado, quase certo que, mais
cedo ou mais tarde, voc viria com a proposta de que a punio daria
o efeito desejado. E punio significaria provavelmente algo como
um choque, um tapa, um golpe ou outro reforador negativo que pu
desse ser aplicado sempre que a resposta indesejada ocorresse. Se o
pressionar a barra da criana, na seo 4, tivesse sido recompensado
por muitos dias, intermitentemente, e com muitas outras coisas alm
do chocolate, e se voc tivesse agora de extinguir a resposta to r
pido quanto possvel, voc no sugeriria uma maneira de encurtar o
processo, como um leve choque ou um tapinha na mo? No seria
isso psicologicamente aconselhvel? No foi dito, na pgina 17 deste
livro, que o comportamento da criana ficaria enfraquecido se a cada
resposta barra um choque fosse aplicado? E no foram os refor-
adores negativos definidos, em parte, como os estmulos que enfra
quecem as respostas que os precedem?
A questo da eficcia do castigo ou da punio corporal ou
fsica muito antiga e no pode ser respondida com um simples
sim ou no. indubitavelmente verdade que um reforador negativo
bem forte por fim a quase todas as espcies de comportamento ope
rante que se possa citar; mas isto no abrange toda a histria. Mui
tos pais descobriram por si mesmos o valor de umas boas palma
das para pr fim ao mau comportamento crnico das crianas; en
tretanto, nem todos os pais se sentem inteiramente seguros acerca dos
possveis efeitos posteriores.
Por razes bvias, existe muito pouco ou quase nenhum es
tudo experimental sobre o efeito de punies severas sobre as reaes
humanas. Recentemente, entretanto, um bom nmero de dados vem
sendo acumulado em pesquisas com animais. O fruto destas investi
gaes pode ser resumidamente anotado aqui. Em primeiro lugar, j
est bem estabelecido, como se observou acima, que o efeito de um
choque forte ou de qualquer outro reforador negativo sobre um ope-
27
rante, como o pressionar a baira, diminuir a sua freqncia de ocor
rncia. Isto verdade se o estmulo for aplicado durante o refora-
mento positivo regular, durante o reforamento positivo intermitente,
durante a extino ou antes que tenha ocorrido qualquer condiciona
mento de operante. Alm disso, dentro de certos limites, quanto mais
forte for a punio, maior ser o efeito sobre a freqncia operante.
Em segundo lugar, se o animal punido for deixado na mesma
situao de punio por um perodo de tempo suficientemente longo
em qualquer uma daquelas condies, mas sem o choque ou outro
agente punitivo, recobrar-se- dos efeitos. A recuperao ser apa
rentemente mais rpida se a resposta punida continuar a receber re
foro positivo, quer regular quer intermitente, do que se estiver sob
extino ou em uma situao aparentemente neutra. Em um estu
do com animais, em que ratos brancos foram punidos com choque
durante os primeiros dez minutos de extino da resposta de pressio
nar a barra, o efeito da punio desapareceu quase que inteiramente
durante uma hora na qual os sujeitos estiveram confinados na situa
o, mas com a barra ausente. Quase tanto tempo e quase tantas
respostas foram em seguida requeridas antes que o pressionar a barra
se extinguisse; e os ratos comportaram-se como animais que nunca
tivessem recebido choques antes.
Em terceiro lugar, parece que as respostas emocionais associa
das com o estmulo punitivo so condicionadas de modo respondente.
Quando, por exemplo, um choque for aplicado em lugar especial,
digamos a cmara experimental, o prprio lugar torna-se um estmulo
condicionado capaz de produzir os mesmos efeitos que o choque. E,
com estas modificaes respondentes, ocorre a depresso de qualquer
comporjmento operante em curso. O lugar, pode-se dizer, provoca
medo e o medo pe fim a outras coisas por exemplo, ao pressio
nar a barra. A extino do medo, como qualquer extino respon
dente, requer que o estmulo reforador incondicionado (o choque)
seja suspenso. medida que a extino prossegue, e o lugar perde
os seus aspectos atemorizadores, a resposta operante comea a rea
parecer. O animal volta atividade, reforada ou no, que prevalecia
28
antes que o choque fosse aplicado. Se ainda estiver em vigor o refor
amento positivo intermitente, o animal volta freqncia anterior;
se as condies de extino ainda estiverem presentes, retoma mais
uma vez o responder no reforado. A punio poder ter adiado o
responder, mas no ter alterado permanentemente a freqncia ope
rante, nem acelerado o processo de extino operante.
S se deve esperar este efeito transitrio da punio se os est
mulos punitivos no forem mais aplicados e apenas se o sujeito per
manecer na situao punitiva por um perodo de tempo suficiente
mente longo isto , at que o efeito dos estmulos condicionados
emocionais tenham tido oportunidade de se extinguir. Se, entretanto,
o animal, depois de ter sido punido, tiver oportunidade de escapar
para um ambiente diferente, no qual no receba mais punio e no
qual todas as suas necessidades forem satisfeitas, ento o efeito da
punio pode parecer no ser transitrio. O resultado da punio
ser ento a esquiva, tpico sobre o qual versar a seo 16.
11. Generalizao
Alguns casos de aprendizagem no se qualificam nitida

mente como tal. Representam, ao invs, o reaparecimento de com
portamentos que j foram bem reforados sob as mesmas, ou apro
ximadamente as mesmas, condies. Veja por exemplo o caso de
um chipanz que aprendeu a usar uma longa vara de bambu para
alcanar um fruto fora de sua jaula. Suponha que lhe sejam dadas,
agora, duas varas menores que ele segura em suas mos; nenhuma
delas alcanar o fruto, mas podero ser encaixadas uma na outra
para consegui-lo. Suponha que, manipulando as duas varas, ele traga
a extremidade slida da mais fina a uma estreita relao visual com
a extremidade tubular da mais grossa. No sendo principiante em
cutucar buracos com pedaos de pau, poder rapidamente inserir uma
extremidade dentro da outra. Ento, de posse de uma nica vara
comprida, pode voltar-se e, num relmpago, alcanar o alimento. Po
29
der ter ocorrido em tudo isso uma pequena quantidade de condicio
namento operante, e o macaco poder, num teste futuro, alcanar mais
rapidamente o objetivo. Mas o aspecto marcante da soluo que deu
ao problema o restabelecimento de dois atos que tinham sido pri
meiramente condicionados na presena de estimulao semelhante.
Estes restabelecimentos de respostas previamente condicionadas
foram tratados por Thorndike, alguns anos atrs, como exemplos de
respostas por analogia, uma lei bsica do comportamento. Enun
ciava a lei simplesmente: A qualquer situao nova o homem res
ponde como o faria a uma situao semelhante, ou a um elemento
semelhante dela. Pavlov, pensando exclusivamente no comportamen
to reflexo, e mais em cachorros do que em seres humanos, chegou
independentemente a uma lei similar, que denominava generalizao.
Hoje usamos o termo Pavlov e no o de Thorndike, mas o aplicamos
tanto a respondentes como a operantes e reconhecemos, mais do que
qualquer um desses pesquisadores, sua importncia terica.
Um exemplo de generalizao do laboratrio de Pavlov pode
ajudar aqui. Um co foi condicionado a salivar ao som de 1.000
ciclos. Quando a resposta j estava bem estabelecida para este tom
(o nico usado durante o treino), um certo nmero de outros tons
foram testados no seu efeito sobre a salivao do cachorro. Sem ex
ceo, eliciaram a resposta, embora num grau menor do que o tom
original. Os estmulos generalizaram. Isto , o cachorro respondeu
a todos eles do mesmo modo, exceto na quantidade de saliva secre-
tada. Os tons que estavam mais prximos da freqncia do estmulo
condicionado produziram, em geral, maior fluxo salivar do que os
tons que estavam mais afastados na escala de freqncia.
Pode-se ento dizer que, quando um operante ou um responden
ts foi condicionado em uma dada situao-estmulo, poder ser evo-
cdo, sem condicionamento posterior, em uma outra situao-estmu
lo. A isto se acrescenta que o poder dos novos estmulos de evocar a
resposta depender das caractersticas fsicas que as situaes tiverem
em comum. Indo mais adiante, pode-se dizer que h vrios cont
nuos ou escalas, ao longo dos quais os estmulos podem se generali-
30
zar. Tons, por exemplo, generalizaro ao longo da escala de freqn
cia de vibraes sonoras (tonalidade), de uma escala de energia
(altura) e possivelmente de outras escalas. Um contnuo comparvel
existe na viso, no tato e nos outros sentidos.
Na vida diria, exemplos de generalizao so to comuns que
passam despercebidos. So talvez mais bvios nas crianas, nas quais
s vezes so divertidos. Os pais sorriem quando a criana diz au-au
vista de um cavalo, de uma vaca, ou de qualquer outro quadrpe
de; ou podem rir quando ouvirem uma criana dizer que a gasosa
tem um gosto de quando o meu p est dormindo. Podem deixar
de perceber que o mesmo princpio est envolvido quando as respos
tas so muito mais comuns e menos dramticas. Podem no ver que
a galinha de uma criana diante de uma codorna , essencialmente,
o mesmo que o passarinho de outra. O fato este: uma criana
ou um adulto, que foram condicionados a responder de uma certa
maneira a uma dada situao, respondero ainda da mesma maneira
quando cada um dos elementos da situao tiver sido alterado ao
longo de um ou mais contnuos bsicos, ou mesmo quando alguns ele
mentos da situao original no estiverem presentes.
H um outro aspecto deste quadro, que deve ser indicado bre
vemente aqui, para preparar a discusso da prxima seo. A gene
ralizao pode ocorrer tanto durante a extino quanto durante o con
dicionamento. Um exemplo de estudo de extino respondente mos
trar como isso acontece. Suponha que a resposta galvnica da pele
(mudana da resistncia eltrica da pele) foi condicionada a um est
mulo vibratrio em cada um dos quatr pontos seguintes do corpo de
uma pessoa a barriga da perna, a coxa, o lado e o ombro. Agora,
suponha que, depois, a extino seja parcialmente conseguida em um
dos quatro lugares, por exemplo, estimulando a barriga da perna s
com vibrador, at que a reao condicionada da pele tenha sido
grandemente reduzida. Se, neste estgio do experimento, voc testar
*
o efeito do vibrador nos outros trs lugares, verificar que, em cada

um deles, a resposta tambm ficou enfraquecida, com o menor efeito
na maior distncia da barriga da perna. Posteriormente, claro, ne-
31
(
nhnm dos lugares produzir efeito algum e se poder ento dizer que
a generalizao da extino j est completa.
12. Discriminao
J se deve ter tornado claro que os operantes, tanto quanto os

respondentes, ficam ligados a estmulos bem cedo n vida dos indiv
duos. Talvez o leitor possa mesmo ter perguntando se no fica ligado
a estmudos demais. Se a generalizao opera da maneira aqui des
crita, no iria uma pessoa passar a vida toda respondendo da mesma
maneira a todos os estmulos visuais, e de outra a todos os estmulos
auditivos, e assim por diante? No iriam todos os estmulos visuais
generalizar-se at certo ponto uns com os outros? E isto no seria
igualmente verdade para todos os outros sentidos?
Sabemos, claro, que isto no acontece. A pergunta tola. No
entanto, como ocorre que pessoas faam distines entre as coisas
como o fazem? Por que que somos capazes de distinguir, no s
entre ces e outros quadrpedes, mas entre vrias raas de ces? E
por que os criadores de ces so capazes de ver muito mais diferen
as do que ns podemos?
Perguntas como estas podem ser respondidas simplesmente enun
ciando o princpio da discriminao. Conexes entre estmulos e res
postas que se efetuaram por generalizao podem ser separadamente
rompidas. Ou, para dizer de outro modo, o reforamento poder
ainda ser mantido para a conexo original, enquanto que se permitir
que todas as conexes derivadas sofram extino. No fim, a resposta
ser exclusivamente, ou quase que exclusivamente, apresentada ao es
tmulo original; e, correspondentemente, os estmulos generalizados fi
caro sem efeito.
Lembre-se da criana que, ao pressionar a barra, produzia cho
colate. Quando esta resposta fosse bem condicionada, a criana teria,
indubitavelmente, continuado a responder barra a despeito de gran
des modificaes na situao-estmulo. Mudanas sensveis na ilumi
32
nao da sala, no fundo visual da barra e da vasilha, ou na aparncia
da prpria barra no perturbariam apreciavelmente o seu comporta
mento. Isto , haveria uma considervel generalizao de estmulos.
Mas, se o pressionar a barra fosse reforado somente com grande
iluminao, somente quando o fundo visual fosse de um certo padro,
ou somente quando a barra fosse de um certo tamanho, cor ou lumi
nosidade ter-se-ia ento formado uma discriminao: a resposta ter-
-se-ia extinguido em todas as situaes, exceto num conjunto muito
restrito de condies de estmulos.
O caso respondente similar. O co, no laboratrio de Pavlov,
condicionado a salivar na presena de um som de 1.000 ciclos, sali
var tambm a sons de outras freqncias, devido generalizao.
Mas se estes outros sons forem apresentados repetidamente, sem se
rem acompanhados de alimento, e se o reforo continuar acompa
nhando o som de 1.000 ciclos, chegar o momento em que no mais
eliciaro a salivao, embora o som de 1.000 ciclos continue a elici-la.
Isto um relato super-simplificado do processo de discriminao,
e objees j devem ter ocorrido ao leitor. Por exemplo, e a genera
lizao da extino mencionada na ltima seo? No caso do co de
Pavlov, por que que o no-reforo, associado a sons que no o de
1.000 ciclos, no enfraquece a resposta ao prprio som de 1.000
ciclos? A resposta que, de fato, isso acontece, mas o som de
1.000 ciclos no perde tanto o poder de eliciar quanto os outros.
Cada reforo associado com o som de 1.000 ciclos compensa de longe
a perda devida generalizao. Alm disso, o aumento em poder para
excitar a resposta dos tons generalizados (atravs do reforamento do
som de 1.000 ciclos) mais do que anulado pelo efeito direto da
extino sobre estes tons. Gradualmente, por pequenas adies e sub
traes, as duas condies de estimulao se separam uma da outra e
a discriminao se estabelece.
Este processo foi demonstrado repetidas vezes com animais, e
com menor freqncia com seres humanos, especialmente com adultos.
Uma razo importante para explicar porque isso ocorre a de que a
maioria dos seres humanos, antes de chegar ao laboratrio, j traz
33
consigo uma histria complicada da funo discriminativa. No
sempre que se pode comear do incio e romper uma generalizao.
Os estmulos discriminativos da vida diria, em geral, j se adianta
ram aos nossos procedimentos experimentais. Alguma melhoria pode
ser possvel; poder-se- talvez provocar um ligeiro aumento na per
centagem das respostas que sero reforadas. Raramente se tem a
possibilidade de limitar suficientemente a amplitude dos valores do
estmulo que produziro uma dada resposta.
Pode-se, naturalmente, testar ainda a capacidade final do sujeito
em discriminar. Pode-se determinar, por exemplo, qual a menor dife
rena que pode existir entre dois estmulos antes que a probabilidade
da resposta correta seja menor que 50 por cento. Esta , h muitos
anos, a preocupao de um ramo da psicologia denominado psicof-
sica, que tem como sua principal esfera de atividades o estudo da
sensitividade a diferenas entre estmulos no ser humano adulto. Oca
sionalmente tem preocupado tambm aqueles que estudam o compor
tamento de animais e de crianas s vezes com resultados sur
preendentes. Em um experimento hoje famoso, Pavlov treinou um
co a discriminar visualmente entre um crculo e uma elipse. Passo
a passo, ele aproximou a elipse da forma do crculo. Por fim, a dis
criminao se desfez, como seria de se esperar. Com as continuadas
exigncias feitas, o co terminou neurtico, at o ponto de ser ne
cessrio remov-lo da situao experimental e dar-lhe um longo des
canso, para proteger sua sade. Em outro experimento russo, uma
criana de seis anos foi compelida a distinguir sucessivamente entre
batidas do metrnomo de 144 batidas por minuto e batidas de 92,
108, 120 e 132 por minuto. No houve nenhuma dificuldade em dis
criminar entre 144 e 92 ou 108 batidas tyor minuto; a distino se
fez facilmente, em umas poucas tentativas. Mas as dificuldades co
mearam quando o de 144 foi comparado com o de 120 batidas por
minuto; e, quando foi tentada a discriminao entre 144 e 132 bati
das por minuto, a criana tornou-se seriamente perturbada, exibindo
rudeza, desobedincia, excitamento e comportamento agressivo, bem
como sonolncia na situao experimental.
34
H muito mais coisas que poderiam ser aqui includas a respeito
da discriminao. Livros inteiros foram escritos sobre este tpico, em
geral com o ttulo de sensao ou percepo. De um ponto de
vista cientfico, este tpico est provavelmente mais adiantado do que
qualquer outro tpico em psicologia. No momento, contudo, o nosso
principal objetivo compreender a aprendizagem, e o leitor pode
ver agora que a discriminao desempenha um papel bastante impor
tante nesta histria. Milhares, talvez centenas de milhares de discri
minaes devem ser feitas por cada um de ns para enfrentar as exi
gncias do mundo exterior. O comportamento operante, para o qual,
no incio, no se pode encontrar um estmulo eliciador, mais tarde
passa a ser quase que completamente controlado pelos estmulos. E
isto se verifica apenas porque se do reforos na presena de um es
tmulo e se retiram reforos na presena de outro.
Talvez o leitor lembre que, na seo 3, sobre Condicionamento
Respondente, e outra vez na seo 4, sobre Condicionamento Operan
te, foi apresentado um diagrama simples, com o fim de tornar esses
princpios mais claros. Vejamos agora que espcie de quadro se po
deria usar para representar a discriminao. O leitor j sabe anteci
padamente, claro, que nada de muito novo ser includo. Vimos
que a generalizao meramente uma espcie de bnus derivado do
condicionamento, e a discriminao (a quebra de uma generalizao)
, em grande parte, uma questo de extino.
Quando se toma o caso da discriminao respondente, enfrenta
mos dificuldades logo de incio. Porque qualquer condicionamento
respondente requer certo grau de discriminao. Por exemplo, o pri
meiro efeito do pareamento de um som de 1.000 ciclos com alimento,
para um co preso em arreios na cmara experimental, condicionar
a salivao ao som mais a estimulao dos prprios arreios e mais o
que possa ver, ouvir e cheirar dentro da sala. No se refora, entre
tanto, na presena de todos estes estmulos, a meno\s que o som esteja
presente. Assim, a resposta extinta na ausncia do som, mas apa
rece quando o som for parte do composto e isto discriminao.
Mais tarde, naturalmente, pode-se ir mais alm. Ser possvel refor-
35
ar um som e extinguir outros, da maneira j descrita. O diagrama
que pode indicar esta outra etapa ter a seguinte aparncia:
sA
Neste caso, SD (l-se esse-de) representa o estmulo (por exem

plo, o som de 1.000 ciclos) que foi selecionado entre os outros sons
para ser reforado. SA (l-se esse-delta) representa os sons que no
so seguidos de alimentos e que perdem, portanto, as conexes com
a resposta.
Do mesmo modo, pode-se representar uma discriminao ope-
rante da seguinte maneira:
sA
so------------------- -----r--------
sA
No diagrama, o SD indica o estmulo ao qual o operante foi
associado e os SA indicam os estmulos generalizados que perderam o
poder de evocar a resposta. Por isso, no tm nenhuma conexo com
o R do diagrama.
(Ao se falar destes dois casos, a palavra indcio freqente
mente usada como um sinnimo de SD ou estmulo discriminativo,
especialmente quando se trata de operantes. Seria econmico ter uma
outra abreviao para usar com os respondents, para indicar quando
os estmulos condicionados j foram discriminados, mas at agora ne
nhuma foi apresentada.)
Ainda um outro ponto. O procedimento de discriminao acima
mencionado (reforamento sob SD e extino sob 54) , s vezes,
considerado como um caso especial de esquema de refora, denomi
nado esquema mltiplo. Pode-se mostrar uma discriminao no so
mente pela resposta na presena de um estmulo e no-resposta na
36
presena de outro, mas tambm pelo padro diferente de freqncia
de resposta sob duas (ou mais) condies de estmulo. O estmulo
A, por exemplo, pode ser apresentado sob um esquema de reforo de
intervalo fixo; o estmulo B pode ser apresentado sob razo fixa; e o
estmulo C pode ser apresentado sob razo varivel. Depois de algum
tempo, o organismo responder, em cada condio diferente de est
mulo, com o padro de respostas apropriado ao determinado esque
ma de reforo presente naquele momento.
13. Diferenciao (Modelagem)
Ao tratar dos princpios do condicionamento operante e respon

dente, da extino e da discriminao, discutimos, em certo sentido,
diversas espcies de aprendizagem. A extino, quando considerada
em si mesma, poderia parecer mais uma questo de desaprender, mas
viu-se que vital en discriminaes, as quais ningum hesitaria em
denominar de aprendizagem, e de uma espcie muito importante. Se
voltarmos agora aos exemplos que ficaram na primeira pgina deste
trabalho, descobriremos que grande parte do territrio que nos dis
pusemos a explorar j foi coberta. Mas tambm que ainda no o ex
ploramos todo. A seo que agora iniciamos aumentar considera
velmente nossa habilidade de lidar com os exemplos que ainda faltam
e as sees que seguem a aumentaro ainda mais.
A palavra diferenciao no muito boa para nosso presente
propsito, pois freqentemente usada como se significasse discrimi
nao. Habilidade talvez fosse uma palavra melhor, se no inclusse
coisas demais, abrangendo tanto a diferenciao como a discrimina
o. Modelagem do comportamento o termo (o termo mais ade
quado para isto seria mudana) usado mais comumente, mas ele tam
bm encerra problemas, quando s vezes usado para significar uma
mudana no controle de estmulo de alguma resposta. Assim, vamos
preferir o termo diferenciao e tentar fazer com que o seu sentido
fique to claro que no seja confundido com nenhuma outra coisa.
37
Comecemos outra vez com um exemplo. Imagine-se um labora
trio no qual a principal pea de equipamento seja uma destas m
quinas de parque de diverses, cujo funcionamento consiste em puxar
e soltar a mola que impulsiona uma bolinha de ao, que vai sendo
desviada no seu trajeto sobre um plano inclinado por uma srie de
pinos, at que emboque em uma das diversas cavidades que indicam
a contagem obtida. Este aparelho, entretanto, um aparelho especial.
Um biombo oculta do operador o curso da bola e o impede de ver
o quanto puxa a mola antes de solt-la. Outro anteparo o impede
de ver dois quim;*rafos nos quais so registradas (1) a freqn
cia com que puxa a mola e (2) a distncia de cada puxo. Nem
pode ver a escala de 15 divises que fica paralela ao cabo da mola e
que permite outras tantas 15 conexes eltricas, que controlam o apa
recimento de uma luz vermelha atravs de uma janela na extremidade
do aparelho. (Cada intervalo dessa escala est separado do seguinte
por 2,8 milmetros e pode ser disposto de modo a que um puxo na
mola at um ponto entre qualquer par das divises da escala por
exemplo, entre os pontos 2 e 5 ou entre 10 e 13 ocasione o apa
recimento da luz vermelha quando a bola chegar ao fim do trajeto).
A nica coisa que o operador, um aluno de college, vai saber que
estar participando em um estudo das habilidades no-visuais e
que ele ver uma luz vermelha piscar na pequena janela sempre que
sua resposta for correta.
A primeira tarefa do sujeito, depois de receber instrues, ser
a de puxar a mola durante 5 minutos. Ser-lhe- dito que use para
puxar a mola uma fora e uma freqncia que lhe paream naturais
e confortveis. Cumprindo estas instrues responder, por exemplo,
com uma freqncia de vinte e dois puxes por minuto, isto , pouco
mais de uma vez cada trs segundos. A distncia mdia de cada
puxo (nossa medida da fora da sua resposta) ser, aproximadamen
te, de 32 milmetros, mas alguns puxes sero maiores e outros me
nores. Em outras palavras, haver um certo grau de variabilidade
na resposta, mesmo trabalhando com uma freqncia e uma fora
timas.
38
Quando este nvel tiver sido determinado, diremos ao sujeito que
a luz agora passar a funcionar e disporemos os interruptores de
modo que s puxes que levem a posies entre 2 e 5 da escala pro
duzam o aparecimento da luz vermelha. Isto lhe d uma amplitude
de 8,4 milmetros, dentro da qual as respostas sero corretas. Deixa
remos que o sujeito trabalhe at que tenha assegurado vinte reforos,
o que conseguir facilmente em trinta e um puxes. Ento, sem que
tenha conhecimento, mudamos a disposio do interruptor de 2-5 para
10-13. A amplitude exatamente a mesma que antes, mas colocada
mais acima ao longo da escala. Exigir cerca de 179 puxes, mais
de cinco vezes do que na primeira vez, para obter os vinte reforos.
Assim, parece que o domnio da primeira disposio atrapalha o do
mnio da segunda. Entretanto, com repetidas mudanas de 2-5 para
10-13, o sujeito melhora a rapidez com que se reajusta. O no-re-
foro, depois de uma srie de reforamentos, passa a ser sinal para
tentar algo diferente.
No estgio seguinte de nosso experimento, o sujeito comea a
responder com o interruptor disposto entre 2-6. Depois da obteno
de vinte reforos, mudamos a colocao, sem o seu conhecimento,
para 3-6, diminuindo a amplitude de 2,8 milmetros. Desempenha
to bem nesta nova disposio quanto antes e assim, outra vez, mu
damos a exigncia, agora para 4-6. Quando a luz tiver acendido vinte
vezes, mudamos outra vez para 5-6. O nmero de respostas exigidas
para obter vinte reforos na disposio 3-6 foi de 32, o nmero exi
gido em 4-6 foi 47, e o nmero em 5-6 foi 93. Isto , o nmero de
respostas aumenta medida que a amplitude do movimento se torna
cada vez mais restringida.
Finalmente, o sujeito coloca-se em novas sesses na disposio
2-5, sob diferentes esquemas de reforo: (1) regular, em que cada
uma das respostas ser reforada se satisfizer corretamente o requisito
da distncia; e (2) intermitente, no qual (nosso caso) no obter re
foros at que tenha emitido 10 respostas corretas. Depois de cada
sesso, suspende-se completamente o reforamento e se conta o n
mero de respostas dadas antes que o sujeito mude para um novo
39
nvel de fora. Resultado: o sujeito muda mais facilmente depois de
um perodo de reforamento regular, como seria de se esperar, do
que depois de um perodo de reforamento intermitente na reali
dade, com uma facilidade quatro vezes maior.
O que foi narrado apenas uma pequena parte de um experi
mento efetivamente conduzido com quatorze sujeitos e vrios outros
procedimentos adicionais, mas a amostra j suficiente para iniciar
mos nossa discusso. Alguns dos principais aspectos da diferencia
o j podem ser nitidamente percebidos. H, por exemplo, uma
variabilidade inicial da resposta, sem a qual no poderia ocorrer ne
nhuma diferenciao. Isto ficou patente nos cinco minutos prelimina
res de puxes naturais, mas ocorreu tambm no comeo da sesso
de teste do sujeito na disposio do interruptor 2-5. A variabilidade
apareceu principalmente na distncia em que a mola era puxada e
ocorreu tambm em relao freqncia, e poderia ter ocorrido em
relao durao de cada puxo se isto tivesse sido medido. Pode
ramos mesmo ter descoberto diferenas na forma ou topografia da
resposta na maneira com que o sujeito segurava o cabo da mola
em puxes sucessivos mas isto teria sido muito difcil de medir.
Em segundo lugar, h um reforamento seletivo da resposta.
Quando a luz vermelha acompanha apenas as respostas de amplitude
de fora entre os pontos 2-5 ou 10-13 da escala, em vez dos 1-15
original, o sujeito logo se ajusta com xito. A amplitude da fora
que emprega diminui abruptamente e, quando o experimentador mo
difica as regras do jogo, o sujeito capaz de mudar facilmente de
uma amplitude para outra. Se a amplitude se tornja pequena demais,
h uma queda na acuidade (e se continuarmos mais alm, poder de-
senvolver-se um comportamento neurtico), e a rapidez da mu
dana depender tanto do nmero de mudanas j feitas, como do
esquema de reforo mas ningum pode duvidar que o comporta
mento est sendo modelado pela presena ou ausncia da luz que
acompanha cada resposta. Puxes da mola que no produzem luz
diminuem de freqncia; os que a produzem tornam-se mais nume
rosos .
40
Em terceiro lugar, quando o experimentador reduz a amplitude
das respostas bem sucedidas de uma faixa ampla para uma estreita,
atravs de pequenos passos de 2-6 para um de 5-6, ele ilustra a im
portncia das aproximaes sucessivas no processo de modelagem. Se
tivesse passado abruptamente de uma faixa ampla para uma estreita,
da fcil para a difcil, ele teria aumentado consideravelmente os
erros e o tempo necessrios para os seus sujeitos resolverem seus
problemas. Reforando seletivamente pequenos progressos na direo
correta, reduz as chances de insucesso e alcana seu objetivo sem
atraso desnecessrio.
Atravs das aproximaes e no nvel mais simples, ratos de la
boratrio podem ser ensinados a erguer grandes pesos, andar sobre
as patas traseiras, mostrar um tempo de reao curto, e assim por
diante; crianas podem ser treinadas com maior eficincia a escrever,
falar, e a desempenhar muitas outras funes bsicas, at mesmo a
exercer autocontrole; e peritos em cada campo de arte e de habili
dade podem ser levados ao mximo da perfeio. Em cada caso, o
professor segue a mesma regra: comea com variabilidade no com
portamento do seu aluno, refora mudanas em uma direo e as
extingue em outra, assegura o mximo de xito e o mnimo de insu
cesso com aproximaes sucessivas ao comportamento que deseja.
Finalmente, a mudana no comportamento de nosso sujeito no
depende de modificaes no seu mundo exterior. No existem sinais
exteriores que lhe digam quando o reforo acessvel ou no, nem
que fora ter de usar para ganh-lo. Estas ligaes poderiam ter
sido estabelecidas, como logo se ver, mas os nicos sinais discrimi-
nativos empregados na diferenciao do tipo mais puro so os que
vm do prprio movimento, em vez de vir de uma fonte exterior. O
sujeito dir, depois de ter alguma prtica, que pode sentir quando
as respostas vo ser bem sucedidas, mas esta sensao vem das
contraes de seus prprios msculos quando comeam a agir. No
um estmulo sobre o qual o experimentador tenha algum controle
direto.
41
O exemplo experimental um dos muitos que poderiam ter sido
escolhidos. H abundantes estudos na literatura psicolgica sobre
arremessos de bola e de dardos, traado de linhas, ao lado de outros
estudos de movimento em vrias situaes prticas. Muitos desses
casos so de diferenciao pura. H tambm uma quantidade de ha
bilidades da vida diria que se baseiam no mesmo processo. O gol-
fista que impulsiona a bola com o seu taco, o cestobolista que arre
messa cesta, o arqueiro, o jogador de malha, de boliche so s
algumas de nossas atividades que podem ser aperfeioadas em situa
es inalteradas de estmulos. Menos notrias, mas na verdade mais
importantes, so as diferenciaes presentes no domnio de habilidades
universais tais como andar, falar, escrever, cantar e danas.
O processo bsico, em todos estes casos, pode ser retratado,
embora de maneira no muito correta, assim:
r*
RD--------+ s
R*
Aqui, o R D representa a variante da resposta que conduz ao re-
foramento, e R A (erre-delta) indica uma variante que no recebe
reforo. O R D e o R correspondem assim ao SD e SA do nosso dia
grama de discriminao.
O diagrama inadequado porque, como o que representa o con
dicionamento (pgina 12), sugere que os estmulos ambientais no
desempenham nenhum papel no ditar de nossas respostas. Leva a
pensar que o pressionar a barra no tem nada a ver com a presena
ou a ausncia de uma barra na situao, que o cstobolista no ne
cessita de uma cesta, ou o arqueiro de um arco. K verdade que
os processos de diferenciao e de discriminao so concomitantes
desde o incio do nosso desenvolvimento comportamental. Em certo
momento, a discriminao pode tomar a dianteira, em outro, a dife
renciao. Quando uma criana quer pegar uma bola, indica que a
bola um estmulo discriminativo, mas o progresso que revela na
acuidade do pegar, com as repeties, se deve principalmente dife
renciao. A mudana na resposta ocorre sem dvida na presena do
sinal, mas no depende de nenhuma modificao nele.
42
Quando chegamos idade adulta, cada um de ns adquiriu um
nmero enorme de respostas diferenciadas que podem ser dadas ou
no a um nmero ainda maior de sinais discriminativos. Alm disso,
cada um de ns tem a habilidade de mudar suave e rapidamente de
uma resposta para outra diante de um campo de estmulos sempre
mutvel. Observa-se isto de uma maneira bem viva quando se olha
os participantes de esportes como box, tnis ou futebol, nos quais
movimentos com a rapidez de um raio so necessrios para acompa
nhar as variaes de estmulos produzidos pelos movimentos do opo
nente. Mas se pode observar a mesma coisa, se se atentar para isso,
em praticamente todas as esferas da atividade humana, em interiores
ou ao ar livre, verbais ou no-verbais, no entretenimento ou no tra
balho. O msico que acompanha a partitura, o telegrafista que copia
o cdigo Morse, a estengrafa que toma um ditado ou datilografa
os smbolos abreviados que escreveu, o operrio na linha de monta
gem nestes exemplos, e em tantos outros, pode ser visto o pro
cesso.
Nenhuma disposio de linhas e letras pode aspirar a represen
tar o rpido intercmbio de estmulo e resposta que ocorre nos casos
citados, mas o diagrama seguinte pode ser de alguma ajuda no retra
tar a mais simples das combinaes de sinais discriminativos e ope
rantes diferenciados.
ra
SD---------------------------- R O ------- * 5
Este diagrama permite avanar pelo menos um pequeno passo

no sentido do nosso projeto de construir um quadro unificado do
que corretamente, em nossa vida diria, tem o nome vago de apren
dizagem.
14. Encadeamento
H setenta e cinco anos atrs, se algum pedisse a um profes

sor da nova cincia da psicologia que falasse sobre a natureza da
43
aprendizagem, ele no teria dito nada sobre condicionamento, ex
tino, generalizao, discriminao, diferenciao ou reforamento.
Pavlov, que nos deu todos estes termos, estava naquela poca exami
nando a atividade digestiva de ces, e ainda faltavam dez anos para
que ganhasse, por estes trabalhos, o Prmio Nobel. Thorndike s
tinha vinte anos de idade, e pelo menos ainda dois tinham de se pas
sar antes que se engajasse nos estudos com a gaiola-problema que
levariam sua famosa Lei do Efeito.
Em lugar destes tpicos e desenvolvimento ter-se-ia ouvido o
professor de psicologia discorrer muito sobre a associao de idias
e sobre as leis que governam aquelas associaes, particularmente
na forma descrita pelos eminentes filsofos ingleses dos sculos XVIII
e XIX. Poder-se-ia tambm ter ouvido o relato de algum longo e
trabalhoso experimento alemo sobre a memria e o esquecimen
to experimentos em que os sujeitos tinham de memorizar sries
de slabas sem sentido (mib, gop, ruz, ved, etc.) em condies
muito especiais. Na melhor das hipteses, ter-se-ia tratado exclusiva
mente de um relato de assuntos que agora cabem em um s captulo
do campo da aprendizagem.
O interesse pela aprendizagem serial, tanto verbal como no-
-verbal, aumentava no incio do sculo, quando os estudos do com
portamento animal comearam a exibir os labirintos para ratos bran
cos, e quando certos fisilogos influentes comearam a descrever
composies sucessivas de reflexos em animais to inferiores na es
cala evolutiva como o sapo e a minhoca. Em 1914, John B. Watson,
o fundador do behaviorismo primitivo na psicologia norte-ameri-
cana, combinava o que j se conhecia destes desenvolvimentos com
sua interpretao do princpio de Pavlov, para argumentar que a
m
aprendizagem de slabas sem sentido e do percurso de labirintos nada

mais era do que a formao de cadeias de reflexos condicionados.
Hoje, achamos que Watson estava errado em vrias de suas
afirmaes sobre esta espcie de aprendizagem. Temos certeza, por
exemplo, de que o percorrer corretamente o labirinto e as conexes
silbicas no so exemplos de condicionamento respondente. Concor
44
damos, entretanto, que Watson estava essencialmente certo ao tentar
explicar tais formaes de hbitos referindo-se a coisas mais funda
mentais. E vemos, tambm, que estas coisas fundamentais so dife
renciao, discriminao e generalizao, que dependem, por sua vez,
do condicionamento e da extino.
Formulamos a noo de encadeamento, hoje, enunciando sim
plesmente que uma resposta pode produzir o estmulo para a seguinte.
E reconhecemos, talvez mais do que antes, que excepcional o caso
em que as respostas no ocorrem em cadeias. raro que uma nica
resposta ou conexo estmulo-resposta no conduza a outra ou no
se origine de uma anterior.
O enunciado essencial do que ocorre em um encadeamento pode
ser suficientemente bem delineado dobrando o diagrama discutido na
ltima seo.
sA gA sA rA
sp-------------------- rdsD-------------------- R
$A s A. RA
Aqui se v que um estmulo discriminativo pode evocar uma

resposta diferenciada que, por sua vez, produzir o estmulo discri
minativo para outra resposta diferenciada que conduz, por sua vez,
ao reforo.
Tomemos como exemplo de encadeamento, no a aprendizagem
de um labirinto ou de uma srie de slabas sem sentido, mas o com
portamento de um rato branco chamado Plnio, da Universidade de
Minnesota! * Plnio nada fez que um coati, um macaco ou uma crian
a no pudessem fazer melhor, mas o fato de que era um rato, no
to complicado ou diversificado em suas maneiras como estes outros,
ajudar a esclarecer o que essencial no processo de encadeamento.
O que Plnio fazia resumia-se nisto. Primeiro, puxava uma cor-
dinha que pendia do teto de sua gaiola. O puxar fazia com que uma
* Uma srie de fotografias das realizaes deste animal foi publicada na

revista Life de 31 de maio de 1937.
45
bolinha de vidro, colocada numa calha acima, casse na gaiola. Quan
do a bolinha caa no cho, Plnio apanhava-a com as patas diantei
ras e a carregava pela gaiola at um pequeno tubo que se projetava
verticalmente a cerca de 2,5 cm acima do cho da gaiola. Levantava
ento a bolinha at a borda do tubo e deixava-a cair dentro dele, o
que fazia com que uma pelota de alimento fosse automaticamente des
carregada num recipiente acessvel. Plnio ento se aproximava do
recipiente, apanhava a pelota, comia-a e voltava outra vez a repetir a
seqncia de atos. Desta maneira, Plnio ganhava a vida, dia aps dia.
Aqui h, pois, uma cadeia de operantes, cada um induzido pelo
seu prprio sinal especfico. (V-se com menos freqncia respon-
dentes encadeados, razo pela qual no sero tratados aqui.) Os es
tmulos visuais ou tteis, provindos da cordinha e circunvizinhanas,
provavelmente iniciam a resposta de pux-la. Puxar o cordel coloca
em ao outros estmulos, evocados pelo aparecimento da bolinha.
Estes constituem o sinal para as respostas de apanh-la e carreg-la,
que colocam o animal na presena de outro composto de estmulos
visuais, o tubo. As respostas de levantar e deixar cair a bolinha den
tro do tubo produzem, por sua vez, o som do mecanismo do alimen
tador que conduz a aproximao do recipiente e, finalmente, do pr
prio alimento. Com o trmino do comportamento de comer, toda a
seqncia comea de novo.
Exatamente quantas respostas distintas ocorrem na cadeia aper
feioada de Plnio continua a ser uma pergunta, visto que cada res
posta fundia-se quase completamente com a seguinte. razoavel
mente certo, entretanto, que havia mais no comeo do que no fim.
Por exemplo, o animal teve dificuldades considerveis, de~ incio, em
deixar a bolinha de vidro cair depois de t-la levantado at a borda
do tubo; ergu-la era claramente uma resposta, larg-la outra e era-
-lhe difcil coordenar os dois movimentos adequadamente. Seu com
portamento assemelhava-se ao das crianas que esto aprendendo a
arremessar uma bola: ou soltam muito depressa ou seguram tempo
demais. Entretanto, mais adiante no treinamento, a coordenao de
Plnio estava to boa e os elementos to entrelaados, que j no se
46
podia distinguir onde acabava uma resposta e comeava a outra.
Como acontece em muitas aes humanas, especialmente na lingua
gem, as unidades originais, bem distintas de incio, agrupam-se em
unidades maiores, reduzindo perceptivelmente o nmero de elos na
cadeia.
Tambm difcil especificar os sinais que estiveram em ao no
controle do comportamento de Plnio na cadeia final. bastante
provvel que o nmero tenha diminudo com a prtica e que Plnio
tenha, no fim, respondido a meros fragmentos dos compostos iniciais.
Outros experimentos indicam que esta reduo pode ocorrer. Mas,
na ausncia de verificaes especiais, no temos meios de dizer que
elemento da situao estimuladora, em qualquer estgio da seqn
cia, foi o que desencadeou a resposta.
O encadeamento de Plnio, ao contrrio dos que ocorrem na
maioria dos estudos humanos, requereu um longo treino de diferen
ciao para vrios elos. As respostas empregadas em carregar, levan
tar e deixar cair a bolinha de vidro, embora modeladas em parte na
experincia anterior em manipular o alimento, tiveram que receber
ainda muita ateno. O treinador do rato tinha de vigiar cuidadosa
mente, e reforar seletivamente, todas as pequenas mudanas na res
posta que indicavam uma melhoria. Como em todas as diferenciaes
delicadas, tinha de evitar passar muito rapidamente de um estgio para
o seguinte, observando que os progressos se fizessem de maneira cons
tante e que no houvesse ocasio de ocorrer extino quando uma
nova exigncia fosse introduzida. Se as difereniaes j tivessem sido
formadas se as habilidades bsicas estivessem bem estabelecidas ,
no teria havido maior problema com o encadeamento em si, para o
animal. Cada ato discreto teria sido facmente adicionado aos outros,
da mesma maneira que os seres humanos combinam palavras velhas
e bem diferenciadas ao memorizar um poema. Antes que tais dife
renciaes sejam feitas, entretanto, pode-se comparar Plnio a uma
pessoa que, no familiarizada com a lngua chinesa, tenha de reagir a
uma sucesso de caracteres escritos nesta lngua, pronunciando cada
um corretamente no momento em que ocorre!
47
Atravs dos anos, muitas questes foram propostas sobre a apren
dizagem serial. A maioria delas foram questes acerca do domnio
de sries de slabas sem sentido. Perguntou-se, por exemplo, como a
velocidade dessa aprendizagem se relaciona com o nmero de itens
da lista que deve ser aprendida. Ou sobre o tipo de itens da lista
por exemplo, o seu grau de semelhana com palavras reais ou partes
de palavras. Ou ao lugar dos itens na lista, isto ,'se uma parte da
lista aprendida mais depressa do que outra. Ou ao domnio anterior
de outras listas, tendo o mesmo contedo ou contedo diferente. Estes
so alguns dos problemas formulados. Cada um deles foi submetido a
muita investigao, discusso e teorizao. Mas s muito recentemen
te a sugesto de John Watson foi seriamente seguida e se fez a ten
tativa de relacion-los com os princpios bsicos de condicionamento,
extino, discriminao, etc. Estas tentativas foram, no geral, bastante
fecundas e pode valer a pena examinar alguns exemplos.
Tomemos o assunto do nmero de itens da lista que deve ser
memorizada. Os experimentos com slabas sem sentido indicam que
um nmero notvel pode ser agrupado. Em uma investigao chegou-
-se ao domnio de 300, e o limite ainda est provavelmente longe de
ser alcanado! Parece, entretanto, que o tempo que tem de ser gasto
com cada slaba aumenta apreciavelmente medida que o nmero de
slabas sobe. Pode levar um minuto e meio, em mdia, para se me
morizar 12 slabas, mas requerer 195 minutos a memorizao de 300
slabas, que so apenas 25 vezes 12 slabas. ]
/
Um fator importante, responsvel pelo aumento da dificuldade,

pode ser a similaridade das slabas escolhidas. Quando se aprende a
recitar uma lista como jid, fap, tev, wof, pes, yut, zoy, e assim por
diante, cada slaba pronunciada fornece grande parte do sinal para a
pronunciao da seguinte. Mais cedo ou mais tarde, medida que o
nmero de slabas aumenta, comeam a desaparecer as diferenas
entre os sinais. Cada nova slaba assemelha-se com uma ou mais das
outras j includas na lista. Isto quer dizer, generalizam-se umas com
as outras. Isto pode acontecer mesmo quando o sujeito agrupa as
slabas em conjuntos maiores com fap-tev ou wof-pes, ou quando su
48
plementa de algum modo as slabas, fazendo com que wof-pes vire
algo como wolf-pest.
A generalizao pode tambm desempenhar um papel na explica
o das dificuldades que temos em dominar uma longa srie de nme
ros. S se dispe de 10 algarismos, de 0 a 9, para construir tais
sries e, se no fosse pelos agrupamentos comuns, como 1492, 5280,
31416, e 1776, bem como vrios outros mais pessoais (nmeros de
telefone, de chapas de automvel, etc.), teramos muito mais dificul
dades com eles do que com as slabas sem sentido. O agrupar pode
auxiliar por algum tempo, mas com o tempo esgotam-se as diferenas
entre os grupos. Finalmente, chega uma hora em que nenhurii acrs
cimo pode ser feito sem que haja uma perda correspondente. At
chegarmos quele diretor de faculdade, que era tambm ictilogo, e
se queixava de que cada vez que memorizava o nome de um aluno
esquecia o nome de um peixe!
Pesquisas com animais contam uma histria parecida sobre a
generalizao como o fator que limita o estabelecimento de encadea-
mentos. Experimentos sobre aprendizagem de labirinto, usando ratos
brancos, mostram que o domnio do trajeto correto da entrada at a
sada depente, principalmente, dos sinais encontrados nas curvas su
cessivas, onde o animal deve escolher entre dois ou mais trajetos. As
diferenas entre estes sinais podem ser reduzidas de algumas maneiras.
rgos dos sentidos de importncia crtica (por exemplo, os olhos)
podem ser cirurgicamente eliminados; ou cada unidade do aparelho
pode ser construda to idntica s demais quanto for possvel. Em
qualquer dos casos, o resultado o mesmo. A rapidez com que o
animal aprende diminui, e tambm inferior o seu nvel final de
desempenho.
Um caso especial, em que a quantidade de generalizao ex
trema, o do labirinto temporal. Neste artefato, treinam-se os ratos
a passar pelo mesmo ponto de escolha em ocasies sucessivas; se
forem, por exemplo, quatro, virando duas vezes esquerda e depois
duas vezes direita. A mudana de viradas esquerda para viradas
direita na terceira escolha a fonte das maiores dificuldades. No
49
h mudanas externas que digam quando virar direita em vez de
esquerda, e h to pouca diferena nas maneiras de responder na
primeira e na segunda volta que o animal no pode identificar facil
mente sinais vindos de seu prprio comportamento, o que poderia
acontecer se se lhe permitisse emitir quatro respostas distintas em
cada volta pelo ponto de escolha. uma discriminao to delicada
que poucos ratos conseguem desenvolver com xito a seqncia es-
querda-esquerda-direita-direita.
O que foi descrito apenas uma introduo ao problema do en
cadeamento. Um relato mais amplo teria de incluir uma exposio
dos famosos experimentos de associao, algumas vezes usados na
deteco de mentiras e na psicoterapia, e nos quais se pede ao sujeito,
que responda uma palavra com outra to depressa quanto puder.
Ter-se-ia de tratar com a questo dos encadeamentos ou elos de ca
deias que no podem ser observados, que so encobertos, e que figu
ram proeminentemente na anlise do pensamento, do significado
e da percepo. Abrangeria a discusso de dzias de conceitos e
resultados de experimentos, e incluiria muitos pontos altamente dis
cutveis. Proveria o leitor de um grande conjunto de dados e poderia
at lev-lo a descobrir novos mtodos de investigao e a planejar
novas pesquisas neste campo. Mas nem todas estas questes podem
ser abordadas aqui. Para os propsitos presentes, ser suficiente que
o leitor tenha entendido claramente os princpios bsicos e visto como
se relacionam com os que j foram discutidos antes neste livro. Ver-
-se- em um momento que se relacionam tambm com a seco se
guinte.
15. Reforo condicionado positivo
Alguns estmulos so naturalmente reforadores quer de modo

positivo, quer negativo. O alimento, para um organismo faminto,
tem uma espcie de capacidade inata de reforar o comportamento.
Da mesma forma, a bebida, sob condies de sede. Igualmente, o
50
choque eltrico e outras formas de estimulao intensa tm, desde o
incio, a propriedade de reprimir o comportamento (ou de reforar o
comportamento que as remove). De todos estes se diz que so re-
foradores primrios.
De outro lado, bastante claro que estes estmulos constituem
apenas uma pequena parte do conjunto das coisas que reforam. De
fato, s muito raramente observam-se condicionamentos, especialmente
ao nvel humano, em que bebida ou choque eltrico desempenham
algum papel. Com muito mais freqncia, aparentemente, as respos
tas so reforadas ou enfraquecidas pela aprovao ou desaprovao
de outras pessoas, por promessas ou ameaas, por Certo! ou Erra
do!. E estes so eventos que devem ter adquirido o seu poder re
forador. Ns os chamamos de reforos secundrios ou, algumas
vezes, reforos condicionados.
O modo pelo qual os reforos secundrios adquirem seu poder
foi sugerido por Pavlov nos primeiros anos deste sculo. Observou
que, quando um reflexo condicionado estiver bem estabelecido em
um co, poder ser ento usado como base de um segundo condicio
namento. Assim, se a batida de um metrnomo tornou-se um est
mulo condicionado para a resposta salivar, poder ento ser associa
do a outro estmulo neutro, por exemplo, um retngulo negro, para
formar um reflexo condicionado de segunda ordem. Isto , a ba
tida do metrnomo sozinha servia como estmulo reforador para um
novo condicionamento, e o faria por causa da sua associao prvia
com o estmulo incondicionado primrio, o alimento. Pavlov contu
do no levou muito longe o conceito de reforo condicionado. S nos
ltimos anos que comeamos a reconhecer a sua importncia tre
menda e a compreender como o comportamento operante passa a ser
por ele controlado.
Vamos examinar a maneira pela qual isto ocorre como o re
foramento condicionado est relacionado com a discriminao, como
auxilia a formar os encadeamentos, e o significado que tem para o
comportamento humano quotidiano. E, como a psicologia, da mesma
maneira que a biologia, tem uma atitude democrtica em relao s
51
diferenas entre as espcies, por que no comear com uma amostra
do comportamento dos chimpanzs?
Nosso sujeito um macho de cerca de seis anos. Seu nome
Moos, e vive em uma pequena colnia de macacos em uma estao
de pesquisas com antropides, onde j h mais de dois anos tem par
ticipado de experimentos psicolgicos. No experimento a que nos
referimos, h outros cinco animais, todos mais jovens e menos tra-
quejados. Moos e os outros j passaram por vrios estgios de trei
namento. Em primeiro lugar, Moos aprendeu a inserir fichas na
fresta de uma destas mquinas de vender coisas que h nos Estados
Unidos. As fichas eram brancas e a insero de uma ficha seguia-se
imediatamente ao aparecimento de um bago de uva no recipiente da
mquina de vender. Por causa de sua histria anterior de sujeito ex
perimental, Moos aprendeu isso facilmente bastou que o experi-
mentador demonstrasse uma vez o processo. Logo depois, Moss apa
nhou uma ficha do cho e, meio sem jeito, inseriu-a na fresta. Mais
algumas tentativas e sua habilidade aumentou consideravelmente. Isto
, sua resposta diferenciou-se na direo de um movimento rpido,
suave e sem esforo para obteno da recompensa. Em segundo lur
gar, ele e seus companheiros foram treinados a discriminar entre
fichas brancas e amarelas. No treinamento, apresentavam-se-lhe as
duas espcies de fichas em pares sobre uma bandeja que ele podia al
canar de dentro de sua jaula. Se apanhava uma ficha branca (SD)
para usar na mquina de vender, obtinha uma uva; mas se) escolhesse
uma amarela (SA) e as colocava na fresta, no aparecia uva alguma.
Moos resolveu o problema em quatro sesses de 20 escolhas cada
uma, durante as quais fez um total de 10 erros, isto , 10 respostas
em SA.
Por esta altura, uma nova pea de equipamento foi colocada na
jaula de Moos: uma mquina de trabalho. Suas caractersticas prin
cipais eram (1) uma barra e (2) um reservatrio de fichas. O mover
um dos extremos da barra para cima, descrevendo um arco de 90
graus, fazia com que as fichas viessem a ficar ao alcance do opera
dor. Com a mquina em posio e com Moos atento, o experimentador
52
coloca uma ficha branca conspicuamcnte no reservatrio e afasta-se.
O chimpanz aproxima-se da mquina e comea a sacudi-la e agit-la
repetida e vigorosamente, at que o experimentador o interrompe por
um breve perodo. Depois da pausa, Moos volta mquina, desta
vez empurrando e puxando a barra. No se passa muito tempo antes
que consiga descrever um arco de 90 graus, depois do que pega a
ficha do reservatrio e usa-a imediatamente para conseguir uma uva
na mquina de vender. Em seguida, rapidamente retoma a resposta
de puxar a barra, obtendo fichas (e uvas) sem nenhuma dificuldade.
Dois aspectos deste experimento so especialmente dignos de nota.
Primeiro, formou-se, no segundo estgio do experimento, uma ntida
discriminao em que o SD era uma ficha branca e o S uma ficha
amarela. Na presena da primeira, a resposta manipuladora de Moos
produzia uma uva; na presena da segunda, no. Em segundo lugar,
a ficha branca tornou-se um reforador secundrio que, sozinho, foi
capaz de fortalecer a resposta de puxar a barra (mesmo quando,
como se demonstrou em um estgio posterior deste experimento, as
fichas no podiam ser trocadas por uvas seno depois de um certo
tempo). Assim, parece que um estmulo discriminativo para uma
resposta pode ser o reforador condicionado de outra.
Experimentos essencialmente anlogos ao de Moos foram con
duzidos tambm com ratos, gatos, cachorros e crianas, para no citar
com pintinhos, e o resultado foi sempre o mesmo. hoje quase certo
que, se um estmulo deve tornar-se um reforador condicionado,
necessrio que, antes, se torne um estmulo discriminativo. No
bastante dizer que um estmulo que esteve meramente presente em
todas as ocasies em que a resposta foi reforada tornar-se- ele
prprio reforador; o estmulo deve tambm ter estado ausente todas
as vezes em que a resposta no foi reforada.
Talvez se possa ver agora, melhor do que antes, como se for
mam os encadeamentos. Na seo 14, observou-se que um encadea
mento no mais do que uma fileira de relaes SD ------------ R ,
mas no se fez nenhuma meno direta ao papel desempenhado pelo
reforamento. Agora deve ter ficado claro que o sinal discriminativo
53
para uma resposta que obtm reforo primrio torna-se reforador
para a resposta que produz este sinal. Em outras palavras, cada SD
na cadeia torna-se um reforador secundrio para a resposta que o
produz.
Isto significa que, em certo sentido, os encadeamentos so esta
belecidos de trs para diante que o primeiro elo o ltimo a ser
adicionado ao encadeamento. Recordemos o comportamento de Pl
nio, o rato. O primeiro elo da cadeia, puxar o cordel, no poderia
ter sido fortalecido antes que a bolinha de vidro tivesse se tornado
recompensadora; manipular a bolinha de vidro, carreg-la e levant-
-la no poderia ter sido fortalecido a menos que o tubo tivesse, de
algum modo, se tornado tambm reforador; deixar cair a bolinha
no poderia ter sido fortalecido sem o som do alimentador; e, final
mente, o comportamento de aproximar-se do recipiente de alimento
dependia da presena do reforador primrio, o alimento.
O reforamento condicionado explica tambm o porqu de as
primeiras respostas da srie tornarem-se fortes quando o reforamen
to primrio, final, fica to distante no tempo. Ou, para diz-lo de
outra maneira, explica porque o reforo primrio pode ser retarda
do. Na verdade, o perodo de atraso possvel de um reforador pri
mrio provavelmente muito curto, questo de segundos. Se parece
ser mais longo, porque o encadeamento de respostas, cada uma com
o seu reforo condicionado imediato, preenche a lacuna.
Neste ponto, se tomarmos Sr como smbolo do reformo condicio
nado, e SR como smbolo do reforo primrio, o diagrama final que
servir para representar este estado de coisas o seguinte:
s RA S* rA
S D ------------------ RD p sro---------------- . R D t SR
SA R* SA
Temos aqui, comoprimeiro elo do encadeamento, um estmulo

discriminativo que dlugar a uma resposta diferenciada. Esta acom
panhada de um reforador condicionado que , ao mesmo tempo, o
54
estmulo discriminativo para a resposta diferenciada seguinte no en
cadeamento; e esta ltima conduz, finalmente, ao reforador prim
rio. O primeiro SD seria, naturalmente, um Sr para qualquer elo adi
cional que se quisesse somar aos elos j ligados.
A influncia tremenda do reforo condicionado sobre o compor
tamento humano pode ser observada mais conspicuamente no caso
daqueles estmulos ou dos compostos de estmulos que foram comu-
mente acompanhados, sem que houvesse distncia muito grande do
reforo primrio. Os mais interessantes, talvez, so os compostos
providos pelo comportamento de outra pessoa. Por exemplo, desde
o nascimento at a morte, o comportamento atento dos outros
comumente a preliminar de reforadores primrios tais como alimen
to, bebida, e alvio do desconforto. A ateno torna-se, portanto, para
a maioria de ns, uma importante recompensa secundria, e pode ser
a reforadora de toda uma srie de atividades desde o simples
Olha, papai! da primeira infncia at o recital de achaques e de
dores que freqentemente acompanha a velhice.
A aprovao, na forma de um sorriso, de um aceno de cabea,
de um Sim ou equivalentes (diferentes pessoas revelam aprovao
de maneiras diferentes), um outro aspecto do comportamento que
, quase sempre, o antecessor de coisas mais bsicas. Embora no
seja um reforador condicionado to bvio como a ateno, ainda
assim figura proeminentemente na maioria de nossos contatos sociais.
A busca de aprovao, quando extrema, no muito bem vista em
nossa sociedade, possivelmente ainda mais que o procurar chamar a
ateno, mas h poucos de ns que no tenhamos sido recompensa
dos uma vez ou outra pela boa vontade dos outros.
O comportamento afetivo (beijos, carcias, abraos, etc.) da par
te de outros tambm um freqente reforador para a maioria de
ns, presumivelmente porque relaciona-se com vrias espcies de re
foro primrio, incluindo o sexual e o maternal. As caractersticas
de estmulo deste comportamento, como as da aprovao, revelam
muita variao entre indivduos e grupos, e pode ser difcil distinguir
o seu padro do da coqueteria, ou mesmo do da submisso (ver abai
55
xo). Os sinais de afeio, isto , o prprio comportamento afetivo
tambm no so exatamente os mesmos de pessoa a pessoa.
Muitas pessoas em nossa sociedade so reforadas pelo ceder
dos outros, por fazer as coisas a seu modo. Esta submisso ou
comportamento submisso ainda mais difcil de identificar como
um padro especial do que o padro de estmulos da afeio ou da
aprovao, mas qualquer um pode lembrar-se de muitos exemplos. De
pois do senhor!, Posso lhe ser til, senhora?, Pode ficar com o
meu pirulito, Joozinho., Por aqui, senhor, tenho uma mesa reser
vada para o senhor!, Voc pode ficar de centro-avante, No foi
nada, no doeu muito. Todas estas expresses derivam seu poder
reforador do fato de elas, ou respostas como elas, terem algumas
vezes sinalizado recompensas mais concretas, ou a remoo de obs
tculos do caminho que leva a elas. Encorajam o desenvolvimento
de um estilo de vida dominante, de auto-afirmao, masculino .por
parte das pessoas a quem se dirige.
As pessoas dominantes, por sua vez, comumente concedem fa
vores queles que lhes do prioridade. Aquele que se afasta para o
outro passar pode, pelo menos, receber um agradecimento ou ser en
corajado a acompanhar; o caixeiro ser elogiado pela sua delicadeza;
Pedrinho ter uma chance de dar uma volta no velocpede do Joo
zinho; o maitre receber uma boa gorgeta; Beltrano deixar que
Sicrano jogue na meia; e o homem cujo p foi pisado receber pal-
madinhas no ombro. Tudo isso encoraja a adoo de^um modo de
reagir diferente, subserviente ou feminino, e pode at resultar no
cortejar a dominncia dos outros. Infelizmente, a pessoa cujos refor
os consistem principalmente nas sobras pode tambm se tornar
presa da ansiedade e do medo.
Ateno, aprovao, afeio, submisso e dominao podem ser
difceis de identificar como estmulos para o nosso comportamento,
mas h uma espcie de reforadores condicionados que no oferece
tantas dificuldades. a classe das recompensas simblicas, um
exemplo das quais foi discutido pginas atrs, na forma da ficha bran*
ca de Moos. O dinheiro naturalmente o principal espcime dessas
56
recompensas. difcil superestimar o seu poder reforador em nossa
sociedade. Mas existem outros, algo menos negociveis, que so f
ceis de destacar. Abrangem desde as estrelinhas douradas, boletins,
prmios, bolsas de estudo, menes honrosas e diplomas, at as lin
das taas, medalhas, citaes, condecoraes e notcias nos jornais
sobre as nossas realizaes. No so, em geral, ocasies para o re
foro primrio imediato, mas nos levam pela estrada que a isso con
duz! No so estas as nicas espcies de reforo generalizado*
que poderiam ser mencionadas aqui; nem foram tratadas to porme
norizadamente quanto se poderia desejar. Se, contudo, ao fazer um
retrospecto desta seo, o leitor concordar que deu um passo adiante
na compreenso da conduta humana, isto ter sido bastante. Se pu
der ver que o reforo condicionado se baseia no estabelecimento de
uma discriminao, e que a ficha branca de Moos no dista muito
do valor de recompensa do dinheiro, fora, idade, ttulos, hierarquia
e posies (p. 6) nos negcios humanos, no h necessidade de
acrescentar mais nada.
16. Reforo condicionado negativo
Cerca de cinqenta anos atrs, Vladimir Bechterev, um refle-

xlogo russo, descrevia um mtodo de condicionamento que era, na
sua opinio, muito superior ao empregado pelo seu rival, Ivan Pavlov.
Podia ser mais facilmente usado com seres humanos e utilizava o
comportamento motor em vez do glandular. Requeria apenas que um
estmulo neutro (tal como um som) fosse associado a um choque
eltrico no p ou na mo, at que o primeiro produzisse o movimen
to de flexo ou retirada que era a resposta incondicionada ao cho
que. O som, em geral, precedia o choque de um par de segundos,
e o choque no era aplicado se o movimento de retirada ocorresse
dentro desse perodo.
* Generalizado o termo s vezes aplicado a um reforador condicio

nado cuja fora deriva das associaes que mantm com mais de um tipo de
reforador primrio.
57
John Watson adotou esta tcnica em 1916 e, desde ento, tem
sido muito popular nos laboratrios norte-americanos, tanto em pes
quisas com seres humanos como com animais. S recentemente, en
tretanto, foi plenamente reconhecido o que ali ocorria. Watson acre
ditava, como Bechterev e Pavlov tinham acreditado antes dele, que o
procedimento era o mesmo que o empregado no condicionamento da
resposta salivar no co. Pois no era a associao de um estmulo
neutro com um estmulo incondicionado? O estmulo neutro no pas
sava a eliciar a resposta. Segundo todas as aparncias, a resposta
Sim, mas havia algumas consideraes perturbadoras.
Uma delas eram as comunicaes que regularmente vinham de
vrios laboratrios empenhados em investigaes com animais de que
as respostas de flexo ao estmulo condicionado eram bem diferentes
das respostas ao estmulo incondicionado, o choque, exceto por um
breve perodo no incio do condicionamento. Embora as respostas
fossem reconhecidamente semelhantes, as respostas ao choque eram
geralmente descritas.como parecidas com reflexos (respondentes), en
quanto que as dadas ao som pareciam comportamentos voluntrios
(operantes). As primeiras eram um movimento rpido e convulsivo,
acarretando uma ampla ao muscular; as ltimas, suaves, delibera
das e de uma forma bastante especfica de resposta.
*
Um segundo fato perturbador era o seguinte. Se o procedimen

to empregado fosse o estritamente pavloviano, isto , se o estmulo
neutro fosse regularmente acompanhado pelo choque, excet nas ses
ses de verificao, seria difcil demonstrar nitidamente a existncia
de condicionamento. S quando a resposta ao estmulo condicionado
era bem sucedida em evitar ou esquivar o choque que deveria vir
que se desenvolvia uma resposta motora especfica diferente de um
tipo de comportamento difuso e convulsivo.
Os resultados com seres humanos em estudos de retirada da
mo, do p, de um dedo tambm eram intrigantes. Crianas subnor
mals no laboratrio de Bechterev eram mais facilmente condiciona
das que crianas normais, meninas eram mais facilmente condicio
nadas que meninos, e crianas mais jovens mais facilmente que crian
58
as mais velhas; um choque forte er mais eficiente que um choque
fraco. Os resultados referentes intensidade do choque foram con
firmados nos laboratrios norteramericanos com sujeitos adultos, mas
alguns sujeitos, mesmo com choque intenso no se condicionaram de
maneira alguma. Comumente, os resultados com animais foram con
firmados. O responder difuso foi substitudo por reaes altamente
especficas medida que o condicionamento prosseguia; a resposta
condicionada era evocada menos rapidamente do que a incondicio-
nada e o condicionamento era melhor sempre que era possvel esqui
var o choque. Alm disso, os resultados com seres humanos eram
notoriamente dependentes do tipo de instrues que recebiam e da
experincia anterior dos sujeitos em situaes semelhantes.
A chave para a maioria desses problemas se encontra no que
pode ser chamado, meio esdruxulamente, reforo condicionado ne
gativo. O leitor estar lembrado da distino, feita na seo 5, entre
reforamento positivo e negativo. Os reforadores positivos foram
definidos como sendo todos aqueles estmulos que, quando apresetu
tados, agem no sentido de fortalecer o comportamento que os prece
de. Reforadores negativos foram definidos como os estmulos cuja
remoo fortalecedora ou cuja apresentao enfraquecedora. De
pois, na seo 15 aparece a distino entre reforadores primrios e
condicionados. Mas todos os reforadores condicionados descritos fo
ram do tipo positivo. Eram estmulos que, atravs de uma associa
o especial com os reforadores positivos, tornavam-se, eles prprios,
reforadores. Nenhuma meno foi feita a estmulos que, atravs de
associao com reforadores negativos, tivessem assumido uma fun
o similar.
Esta negligncia ser agora remediada se se considerar um ou
tro experimento simples com um organismo relativamente simples, o
rato branco de laboratrio. Desta vez, o equipamento uma cmara
com uma diviso no meio e uma porta de ligao. O interior de
uma das divises est pintado de branco, e tem no cho grades atra
vs das quais possvel aplicar choques eltricos aos ps do sujeito.
A outra diviso pintada de preto, tem o cho de madeira, e quase
59
prova de luz. No teto de cada diviso h um alapo que permite
colocar ou retirar o animal da cmara. Uma das paredes da diviso
branca de vidro, o que permite ao experimentador observar o animal.
O procedimento no primeiro dia do experimento simplesmente
colocar o animal na diviso branca, ligar uma corrente eltrica na
grade do cho, deixando que receba choque at que salte atravs da
cortina preta da portinhola para a diviso preta. Como se poderia
esperar, o rato resolve rapidamente este problema, em questo de
segundos. Da por diante o experimentador, depois de ter dado ao
rato alguns minutos de descanso, experimenta outra vez. E outra vez,
at que se tenha acumulado 60 corridas da diviso branca para a
preta. A esta altura, ningum vai discutir a afirmao de que o cho
que um reforador negativo e que o correr para a diviso preta
foi reforado pela remoo do choque. Ningum duvida tambm que
o choque um estmulo eliciador para a atividade emocional. E
pode-se tambm concluir que a diviso branca, no decorrer destas
tentativas, tornou-se um estmulo condicionado para esta atividade.
A primeira verificao destas afirmaes se faz no dia seguinte.
Mais uma vez o sujeito colocado na diviso branca. As condies
so as mesmas do dia anterior, exceto pelo fato de (a) a grade do
cho j no estar eletrificada, (b) a portinhola entre as divises estar
fechada e trancada. Em quinze minutos de observao torna-se bvio
que a diviso branca atua de jato como um estmulo emocional con
dicionado. Observam-se no comportamento do rato todos os sinais
clssicos de medo: mico, defecao, tremores e respirao acelera
da. Mesmo depois de um Quarto de hora de confinamento na divi
so branca, quando j se pode ver alguma melhoria, o animal con
tinua ainda agachado e trmulo, obviamente desgraado.
A segunda verificao feita no dia seguinte. As condies so
as mesmas do dia anterior, isto , o choque foi removido da diviso
branca mas a porta de passagem para a diviso preta destravada e
permanece aberta atrs da cortina. O rato pode agora correr para a
diviso preta e nela permanecer durante mais ou menos um minuto,
depois do qual retirado e recolocado na diviso branca, onde tem
60
outra chance de fugir. Isto repetido sessenta vezes ou at que o
animal no abandone mais a diviso branca. Resultado: no fim do
dia, ele estar ainda atravessando a porta com aprecivel velocidade
embora no to rapidamente quanto a princpio. A diviso branca,
apesar de no mais apresentar choque, ainda alguma coisa da qual
deve fugir. A sua remoo recompensadora. Devido associa
o inicial entre a diviso branca e um reforo negativo, o choque,
ela tornou-se um reforador negativo, ou melhor, um reforo nega
tivo condicionado.
Outros pontos deveriam ser destacados em relao a este expe
rimento. Um ponto que se o animal fosse confinado na diviso
branca por um perodo muito longo, no segundo dia ele no tentaria
deix-la, exceto para algumas exploraes no terceiro dia. Ocorre
ria a extino da resposta emocional ao estmulo diviso branca (ver
seo 10). Esta diviso teria perdido seu poder de reforo negativo
condicionado, de modo que sua remoo deixaria de ser recompensa
dora. O rato no fugiria simplesmente porque nada havia de que
afastar-se.
Um segundo ponto que, se fizer com que o rato d mais de
sessenta corridas no terceiro dia, sua velocidade de correr ter dimi
nudo e, por fim, cado para zero. O recolocar repetidamente o ani
mal no terceiro dia na diviso branca ter o mesmo efeito que uma
prolongada exposio no segundo. No que o comportamento ope
rante de correr se tenha extinguido; ao invs disto, sua causa que
foi eliminada medida que a diviso branca vai perdendo sua fora
como reforador negativo ou estmulo emocional condicionado.
Um terceiro ponto o seguinte. Poder-se-ia ter demonstrado o
reforamento negativo condicionado quase to facilmente se no se
tivesse permitido que o rato escapasse do choque no primeiro dia de
treino. Teria sido possvel aplicar sessenta choques breves enquanto
estivesse confinado diviso branca e, no terceiro dia, teria sido pos
svel ensin-lo a correr atravs da portinhola. O reforo, como antes,
teria sido a remoo da diviso em que recebeu choques.
61
Um outro ponto ainda. Poderamos ter condicionado o rato a
remover qualquer outra coisa que no a diviso branca. Alterando
ligeiramente o aparelho, poderamos t-lo condicionado a corrcr dc
uma diviso para outra e, assim, remover um determinado fator es
pecial do estmulo na situao, digamos desligar uma luz forte ou
uma cigarra. Na verdade, poderamos ter demonstrado que qualquer
espcie de estimulao que no fosse negativa poderia passar a s-lo
at mesmo a estimulao oriunda dos prprios movimentos do
animal. Se um choquc fosse apresentado em intervalos de cinco se
gundos, a menos que o animal estivesse apoiado s sobre as patas
traseiras, poderamos ter logo um animal que passaria a maior parte
do tempo com as patas dianteiras no ar, escapando assim de suas
outras maneiras de se comportar, todas as quais teriam eventual
mente sido punidas pelo choque.
Se recapitularmos agora o caso do condicionamento de retirada
do dedo, mo ou p, ele aparece sob uma luz diferente. Parece
agora no ser muito mais do que um comportamento de esquiva,
como o exibido pelo rato que escapa de um reforador condicionado
como um compartimento branco, uma cigarra ou umja das suas pr
prias respostas. Se o cachorro levanta a pata dianteira ao escutar
um som, e assim evita um choque eltrico na pata, seu reforamento
bem pode ser derivado da eliminao de uma parte do composto de
estmulos que foi associado ao choque. No se esperaria que este le
vantar operante se assemelhasse reao respondente ao choque mais
do que esperaramos que a corrida determinada do rato para o outro
compartimento se assemelhasse com os saltos que dava feito louco,
inicialmente, quando a grade era eletrificada.
Os resultados dos experimentos sobre a retirada do dedo no
so paralelos exatos dos experimentos de esquiva. Pode ser, contudo,
que experimentos com seres humanos incluam uma situao de con
flito que est ausente no caso de organismos como o co e o rato.
O comportamento de algumas pessoas, incluindo o relato de como se
sentem, sugere uma espcie de esquiva competitiva. De um lado,
h a tendncia a evitar o choque, o que vem sendo reforado pela
62
remoo de um som, uma luz, ou outra ameaa qualquer. De outro
lado, h o que se poderia chamar uma esquiva de uma esquiva, que
foi originariamente reforada porque recebia aprovao social ou eli
minava a desaprovao. Quando um sujeito relata que se sente en
vergonhado ou meio tolo por tirar o dedo do eltrodo quando
vem o sinal do choque, isto sugere que no passado suas falhas em
enfrentar tal estimulao foi seguida por conseqncias piores ain
da; e que, efetivamente, o deixar de retirar o dedo (para esquivar)
deve-se a um contramovimento que esquiva isto! Uma explicao
como esta pelo menos no contraria a descoberta de que as crianas
anormais adquirem a retirada do dedo mais facilmente que as nor
mais; que as meninas mais rapidamente que os meninos; que as crian
as menores mais facilmente que as mais velhas; que com choque
forte mais fcil que com fraco, etc.
J se deu alguma ateno antes (seo 15) ao papel do reforo
positivo condicionado na vida diria do homem, e sua importncia
no controle do comportamento j foi salientada. Os reforadores
condicionados negativos so ainda dramticos e vitalmente importan
tes. Uma grande porcentagem de nossos atos, tanto normais como
anormais, parecem ter adquirido quase toda sua fora da remoo de
estmulos que adquiriram um carter aversivo. Os mais bvios so
as respostas que removem sinais exteriores de perigo. Muitos jogos
e a maioria das ocupaes requerem certo grau de comportamentos
de esgueirar-se, eximir-se, furtar-se e esquivar-se em resposta a sinais
do ambiente. De outro modo, como acontece com o co que deixa
de flexionar a perna ao som, pode vir o desastre.
H tambm atividades que demandam escape de sinais providos
pelos nossos prprios movimentos. So importantes nas atividades
em que o equilbrio e a postura desempenham um papel relevante.
Esquiar, patinar, andar de bicicleta, nadar, mergulhar, fazer acroba
cias, so excelentes exemplos. O ziguezaguear e o cai-no-cai de
quem comea a andar de esquis mostram vividamente a maneira pela
qual os sinais oriundos de um movimento vm a ser corrigidos por
outro. Por fim, os escapes de cair so feitos to rpida e sutilmente
63
que j no so vistos. Nos arabescos e figuraes do ciclista de circo
h muito pouco que lembre as esquivas desajeitadas (ou os tombos
e os arranhes!) do principiante. E para retomar um exemplo ante
rior, nada lembra no passo elstico do andarilho a longa srie de
quase cair e equilibrar-se que foram os principais ingredientes de
sua aprendizagem de andar.
Um aspecto mais srio deste assunto pode ser,aqui rapidamente
mencionado para encerrar esta seo. Reforadores negativos, prim
rios e condicionados, constituem a maior parte do que chamamos
punio (Seo 10). No caso do primrio, h efetivamente feri
mento corporal, como quando uma criana espancada, leva palma-'
das ou fisicamente forada submisso. No caso do condiciona
mento, pode ser na forma de um insulto, caoadas, ironias ou amea
as, entre outras coisas. Em ambos os casos," contudo, uma resposta
emocional fica condicionada de maneira pavloviana e a situao torna-
-se negativamente reforadora. A fuga da situao, ou de qualquer
resposta com ela relacionada, torna-se recompensadora.
Um mtodo bvio de remover estas situaes aversivas condicio
nadas o empregado pelo rato do exemplo anterior, que abandonava
o lugar em que eTa punido to rapidamente quanto podia. Assim
procedem ocasionalmente os seres humanos. O lugar em que sofre
ram uma perturbao emocional torna-se, para eles, um lugar a que
nunca querem voltar; desenvolvem uma fobia em relao a ele e,
atravs da generalizao, a lugares que a ele se assemelhem. Algu
mas vezes, entretanto, mecanismos de defesa menos bvios so usa
dos para evitar o reaparecimento de sinais ou ameaas de punio.
Uma pessoa pode tornar-se incapaz de ver ou ouvir aquilo que
seja negativamente reforador, pode no ser capaz de fazer um mo
vimento que, anteriormente, desempenhou um papel em produzir re
foro negativo; ou pode desenvolver um comportamento que o man
tenha ocupado com estimulaes alternativas, elas prprias negativa
mente reforadoras, mas em menor grau.
Estes e outros modos de fugir das mazelas de nosso mundo atual
so interessantes para o estudioso da aprendizagem bem como para
64
aqueles cuja principal preocupao com os desajustamentos huma
nos e com sua cura. Os problemas envolvidos no so simples. Nem
de longe to simples como este apanhado do campo possa ter suge
rido. Mas hoje se pode ver, melhor do que nunca, que necessitaro,
para uma soluo completa, de uma ampla compreenso dos princ
pios bsicos aos quais o leitor foi introduzido neste trabalho.
17. Ps-escrito
Na seo 1, pgina 6, foram mencionados alguns exemplos de

aprendizagem, e algumas questes a respeito deles foram levantadas.
No se ofereceu nenhuma definio do conceito, nem se prometeu
uma. Nem seria uma definio til agora. Deu-se a entender, entre
tanto, que a aprendizagem passou a incluir grande parte do que se
entende hoje pelo nome de psicologia e foi prometido que um co
nhecimento dos: princpios gerais tratados nestas pginas permitiria ao
leitor analisar muitos casos de aprendizagem na vida diria, inclusive
os que l foram citados. Assim sendo, seria bom que o leitor, agora,
relesse a primeira seo, perguntando-se se a promessa foi cumprida,
completamente ou em parte. Se o foi, melhor! Se no, e se o leitor
tiver sido aplicado, ento este trabalho no esteve altura de seus
objetivos. Neste caso, o nico resultado positivo que ainda pode res
tar que tenha conseguido despertar o interesse na continuao dos
estudos neste campo, ou no da prpria psicologia.
65
Apndice: curvas acumuladas e registrador acumulado
Como foi ressaltado em vrios pontos neste pequeno livro, a

partir da seo 4, o comportamento medido, primariamente, em
termos de freqncia de ocorrncia. Denominamos forte o ato que
ocorre freqentemente e fraco aquele que ocorre raramente. Uma
criana condicionada a pressionar uma avalanca para obter pequenos
pedaos de doce aumentar rapidamente a freqncia das presses
quando ocorrerem os primeiros reforamentos da resposta. Com o
tempo, o doce perde sua atrao e a freqncia diminui' gradualmen
te. A princpio, a resposta foi fortalecida e depois tornou-se fraca.
Pode-se considerar este aspecto em termos de razo de respostas
respostas por segundo, respostas por minuto, ou respostas por
hora. A razo das respostas aumenta, no condicionamento, de quase
zero respostas por minuto at vinte ou trinta. Durante a saciao,
medida que o doce continua a ser comido, a razo decresce gradual
mente desse valor at chegar a uma parada completa.
Isto est graficamente representado nas figuras 1 e 2 abaixo.
A figura 1 mostra como a freqncia da presso barra (o nmero
de presses por minuto) pode mudar durante um perodo de condi
cionamento de trs minutos. Nenhuma resposta foi apresentada nos
primeiros trinta segundos mais ou menos, conforme mostra esse gr
fico. As respostas aparecem e, assim que os reforos so apresenta
dos, a freqncia de pressionar rapidamente aumenta at um valor
de cerca de vinte por minuto. (O leitor pode verificar isto estimando
o nmero de respostas apresentadas entre as duas linhas verticais
ponteadas da figura.) Uma vez que a freqncia aumenta no decor
rer desse registro, a curva mostra uma acelerao positiva.
66
0 1 2 3 0 1 2 3
(minutos) (minutos)
Fig. 1 Fig. 2
Na figura 2 maior nmero de respostas so representadas. Este

grfico mostra que cerca de 100 respostas foram emitadas em um pe
rodo de trs minutos, numa razo gradualmente decrescente. Pode-
-se considerar esta curva como um grfico do consumo de cerca de
100 pedaos de doce por uma criana, durante um perodo de trs
minutos. Uma curva como esta, que mostra um decrscimo da fre
qncia, negativamente acelerada.
A figura 3 ilustra um tipo especial de curva, uma curva em
linha reta. Este o tipo de registro obtido quando o doce, ao invs
de ser dado aps cada resposta de presso, dado de vez em quando
isto , intermitentemente. Durante um perodo de trs minutos,
trezentas respostas foram apresentadas, numa razo de 100 respos
tas por minuto. Os pequenos riscos ou marcas ao longo da linha in
dicam quando foram apresentados os reforos depois de quantas
respostas e de quanto tempo.
0 1 2 3
(minutos)
Fig. 3
67
Seria muito til ter um aparelho que, automaticamente, produ
zisse curvas de freqncia como estas, no prprio momento em que
as respostas so emitidas. Teramos economizado o trabalho de
acumular respostas durante as sucessivas unidades de tempo (por
exemplo, cada minuto) e evitado elaborar curvas como as das figu
ras 1, 2 e 3, s vezes muito tempo depois de ter observado o com
portamento. Assim, se o sujeito do experimento (a menina, do exem
plo) construsse seu prprio registro grfico medida que se com
portasse, isto economizaria muito trabalho posterior e informaria em
cada momento, durante o experimento, exatamente o que estava ocor
rendo em termos da freqncia da resposta.
Esse aparelho existe! o registrador acumulado, um dos ins
trumentos modernos mais teis no estudo experimental do compor
tamento. Produz curvas como aquelas consideradas acima e -muitas
outras. Faz isso por simples adio (acumulao) de respostas e
tempo no registro grfico (a curva). Exaidnemos como isto ocorre.
Comea-se com alguma freqncia de resposta que se quer re
gistrar, como nos exemplos mencionados. Suponha que a resposta
seja a de pressionar uma alavanca. Cada vez que a alavanca for su
ficientemente pressionada, ativa o mecanismo que faz com que a pena
percorra verticalmente um degrau mnimo, em direo parte supe
rior da folha de papel do registro. Se nada mais ocorresse, uma srie
dessas respostas formaria uma linha reta no papel, de baixo para
cima, como a linha vertical marcada Respostas nas figuras 1, 2 ou 3.
Mas algo mais ocorre. Quando se aciona o aparelho para re
gistrar a resposta, o papel colocado sob a pena corre muito lenta e
constantemente para a esquerda, em uma velocidade de somente al
guns milmetros por segundo. Se este movimento continuasse por
algum tempo e nenhuma resposta fosse apresentada, a pena desenha
ria uma linha para a direita, tal como a linha horizontal <Jos minutos
em cada uma das trs figuras. (Pode-se ver como isto funciona pu
xando lentamente uma folha de papel para a esquerda e mantendo
um lpis numa fosio fixa mais ligeiramente pressionado sobre a
68
superfcie do papel.) As respostas, isoladamente, dariam uma linha
vertical; o tempo, isoladamente, uma horizontal.
Quando as respostas so apresentadas no decorrer do tempo, o
registrador acumulado faz curvas como as dos exemplos, ou combi
naes destas curvas. A fim de obter uma descrio pormenorizada
de como isto pode acontecer, suponhamos que j se tenha desenhado
na folha de registro uma linha para Respostas e uma linha para Mi
nutos, como na figura 4. Suponhamos tambm que se marquem pon
tos em cada linha a intervalos regulares, para mostrar o nmero de
respostas ou a quantidade de tempo que gastariam. Coloca-se agora
a pena do registrador no ponto zero, onde as duas linhas se encon
tram, e aciona-se o aparelho. Imagine que, com a passagem do tem
po, possvel, para alguns organismos, pressionarem uma alacanva,
obterem um reforo e, automaticamente, registrarem a resposta. Lem-
bre-se que cada resposta elevar a pena no papel na altura de um
pequeno degrau e que cada minuto de tempo ser registrado como
uma curta distncia horizontal da pena ao deslocar-se para a direita.
Na figura 4, parece que a primeira resposta ocorreu depois de
seis minutos, elevando a pena um degrau acima da linha de base.
Depois de outros trs minutos de a pena movimentar-se para a direi
ta, outra resposta ocorreu e a pena moveu-se um outro degrau para
cima. As duas prximas respostas ocorreram aproximadamente no
intervalo de dois minutos e, depois disso, passaram a ocorrer com
constncia e com uma freqncia de quase uma resposta por minuto,
at quatorze respostas serem apresentadas. Ento, gradualmente, au
mentou cada vez inais o tempo entre as respostas. Finalmente, as
respostas cessaram e a linha do tempo continuou paralela linha de
base, at o fim do registro. Foi construda a curva de respostas. A
pena pode voltar para a linha de base e um novo registro pode ser
iniciado.
Modificando-se o aspecto de linha quebrada do registro obtido,
enviesando o papel ou colocando-o distncia, pode-se reconhecer
que a curva feita , em alguns aspectos, semelhante quelas das
figuras 1, 2 e 3. A princpio, h uma ligeira acelerao positiva pa-
69
0 5 10 20 30 40 50
(minutos)
Fig. 4
recida com a que ocorre na figura 1. Segue-se um segmento em linha
reta, como o da figura 3, no qual as respostas aparecem numa fre
qncia constante. E finalmente, uma acelerao negativa, como a
da figura 2. /
Embora a curva da figura 4 tenha sido construda desse modo
especial, para mostrar acelerao positiva e negativa e uma freqn
cia de respostas constante, os resultados no so muito diversos dos
obtidos em um experimento real. O registro poderia representar, pri
meiro, o condicionamento de uma resposta de pressionar uma ala
vanca em uma criana, com bons pedaos de doce reforando cada
resposta; a segunda parte poderia representar um perodo constante
de respostas de comer o doce, depois de a resposta ser condicionada;
e a parte final da curva poderia ser um grfico do decrscimo de
respostas decorrente da saciao de doce.
Dois outros pontos devem ser esclarecidos antes de encerrar este
assunto de registrador acumulado e de suas operaes. Primeiro, a
aparncia de linha quebrada da curva de registro acumulado no ,
geralmente, to bvia quanto a da figura 4. Quando as unidades das
respostas so muito pequenas e o movimento de tempo muito lento,
difcil distinguir os degraus; a curva parecer quase to lisa quanto
as das trs primeiras figuras. (Pode-se, naturalmente, exagerar o efei
to de degrau fazendo que a pena se mova para mais longe em cada
resposta e acelerando o movimento na direo tempo.)
70
Segundo, mesmo nos casos de degraus pequenos e velocidades
baixas, alguns organismos, como pombos, por exemplo, respondem
com alta freqncia e, se nada impedisse a pena, ela ultrapassaria a
parte superior do papel de registro. Por essa razo, os registradores
acumulados esto equipados com um mecanismo de reajuste que faz
a pena voltar automaticamente linha de base quando alcana uma
determinada altura do papel de registro (quando um certo nmero de
respostas foi apresentado). O efeito simar ao apresentado no
fim do registro da figura 4. Curvas de respostas que se estendem no
tempo, mantendo alta freqncia, podem mostrar muitas voltas e as
censes. (Isto no significa, naturalmente, que se subtraem respostas
do nmero das j apresentadas; as curvas acumuladas, como o nome
sugere, acumulam respostas somente adicionam. Se se tivesse no
papel de registro todo o espao necessrio, o registro continuaria at
o fim, sem qualquer necessidade para recomear da base.)
71
(
LEITURAS SUGERIDAS
s pessoas que desejam ampliar esta breve introduo teoria do reforo e

ao problema da aprendizagem, sugerem-se os seguintes livros, para serem lidos
nesta ordem:
HOLLAND, JAMES G., e B. F. SKINNER The analysis of Behavior. New
York: McGraw-Hill, 1961 (Trad, bras.: A Anlise do Comportamento,
So Paulo, E.P.U., 5.a Reimp., 1974).
FERSTER, C. B. e MARY CAROL, PERROT, Behavior Principles, New York:
Appleton-Century-Crofts, 1968.
SKINNER, B. F., Science and Human Behavior. New York: Macmillan, 1953.
MILLENSON, J. R., Principles of Behavioral Analysis. New York: Macmillan,
1967.
Esses livros so de nvel de introduo, mas diferem muito no contedo e
na forma. O texto de Holland e Skinner programado, o primeiro desse tipo
publicado em psicologia. , em certo sentido, uma verso resumida e simplifi
cada do livro de Skinner, Cincia e Comportamento Humano, ao qual uma
boa introduo. O livro de Ferster e Perrot foi escrito para ser usado em um
curso programado, mas pode ser lid e com proveito, de maneira convencional.
Foi planejado com a finalidade de dar ao leitor proficincia na anlise da
complexa interao do homem com seu meio natural e estabelece uma cons
tante relao entre os resultados obtidos em laboratrio e os procedimentos da
vida diria. Cincia e Comportamento Humano, escrito para o leigo instrudo e
para o estudante universitrio, uma ampla aplicao dos princpios do refor
amento na anlise pormenorizada do comportamento individual e social da
nossa poca. O Princpios da Anlise do Comportamento de Millenson pro
cura prover uma introduo rigorosa e orientada por dados Psicologia para
o estudante universitrio, como contedo de curso de um ano com crditos em
cincias naturais.
73

Keller, F. S. - Aprendizagem - Teoria Do Reforço PDF

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Keller, F. S. - Aprendizagem - Teoria Do Reforço PDF

Enviado por

Direitos autorais:

Formatos disponíveis

Neste livro, o Professor Fred1 .

uma introduo simples e breve l

(Preparada pelo Centro de Catalogao-na-fonte,

Keller, Fred Simmons, 1899-

ndices para o catlogo sistemtico:

13a Reimpresso, 2003

Prefcio da Segunda E d i o ..........................................

Quando o Professor Hartley, h quinze anos atrs, pediu-me

muito difcil exagerar a importncia dos processos de apren

teoria da aprendizagem como o ponto de partida para compreender o

Os nomes de muito poucas pessoas so mencionadas nas pgi

So muitas as situaes em que se usa o verbo aprender em

2. Comportamento operante e respondente

Estamos agora em condies de falar acerca dos princpios. E,

Deveramos dizer, provavelmente, que no condicionamento so

Ao apresentar o prximo princpio, mais uma vez apropriado

Da por diante, com eficincia rapidamente crescente, ela opera o

5. Reforos positivo e negativo

O chocolate no , obviamente, o nico tipo de estmulo refor

porque eles esto apertados ou cheios de pedrinhas; quando tira o ca

comum que os psiclogos sejam consultados sobre como

Um primeiro agente na produo de uma grande resistncia

interrompida somente quando o pombo pra alguns segundos para

Em todos os esquemas de reforo descritos na seo 7, o sujeito

9. Baixa freqncia de resposta: Um exemplo

Os psiclogos tentaram, algumas vezes, controlar a freqncia

Este experimento poderia nos levar a duas direes. Podera

Se lhe fosse pedido que sugerisse modos de apressar a extino

Alguns casos de aprendizagem no se qualificam nitida

o efeito do vibrador nos outros trs lugares, verificar que, em cada

J se deve ter tornado claro que os operantes, tanto quanto os

Neste caso, SD (l-se esse-de) representa o estmulo (por exem

13. Diferenciao (Modelagem)

Ao tratar dos princpios do condicionamento operante e respon

Este diagrama permite avanar pelo menos um pequeno passo

H setenta e cinco anos atrs, se algum pedisse a um profes

aprendizagem de slabas sem sentido e do percurso de labirintos nada

Aqui se v que um estmulo discriminativo pode evocar uma

* Uma srie de fotografias das realizaes deste animal foi publicada na

Um fator importante, responsvel pelo aumento da dificuldade,

15. Reforo condicionado positivo

Alguns estmulos so naturalmente reforadores quer de modo

Temos aqui, comoprimeiro elo do encadeamento, um estmulo

16. Reforo condicionado negativo

Cerca de cinqenta anos atrs, Vladimir Bechterev, um refle-

* Generalizado o termo s vezes aplicado a um reforador condicio

Um segundo fato perturbador era o seguinte. Se o procedimen

Na seo 1, pgina 6, foram mencionados alguns exemplos de

Como foi ressaltado em vrios pontos neste pequeno livro, a

Na figura 2 maior nmero de respostas so representadas. Este

s pessoas que desejam ampliar esta breve introduo teoria do reforo e

Você também pode gostar