Keller, F. S. - Aprendizagem - Teoria Do Reforço

Neste livro, o Professor Fred1 .
uma introdução simples e breve l

em termos da teoria do reforço. I___________ ,___
e breve, identifica e esclarece todos os princípios
fundamentais e indica suas interrelações e possí
veis extensões. É, por isso, mais do que uma pura
exposição de uma teoria da aprendizagem; ofe
rece um ponto de vista de teoria da aprendizagem
para toda a Psicologia.
Milhares de experimentos foram realizados na
área da teoria e prática da Psicologia. Os termos
básicos e os conceitos-chave, assim como o es
quema daí resultantes constituem a principal
preocupação desta pequena introdução.
APRENDIZAGEM:
TEORIA DO REFORÇO
FICHA CATALOGRÁFICA
(Preparada pelo Centro de Catalogação-na-fonte,

Câmara Brasileira do Livro, SP)
Keller, Fred Simmons, 1899-

K38a Aprendizagem: teoria do reforço; tradução de Ro-
dolpho Azzi, Lea Zimmerman, Luiz Octávio de Seixas
Queiroz. São Paulo, E.P.U. 1973.
p. (Ciências do comportamento)
Bibliografia.
1. Psicologia da aprendizagem I. Título. II. Série.
73-0535 CDD-153.15
Índices para o catálogo sistemático:

1. Aprendizagem : Psicologia 153.15
2. Psicologia da aprendizagem 153.15
FRED S. KELLER
Professor Emérito de Psicologia, Columbia University
APRENDIZAGEM:
TEORIA DO REFORCO
3
Tradução de
Rodolpho Azzi
Lea Zimmerman
Luiz Octávio de Seixas Queiroz
Tradução brasileira da 2.a edição americana:
Learning: reinforcement theory, second edition, 1969,
Copyright © 1954, 1969 by Random House, Inc.
13a Reimpressão, 2003
© E.P.U. - Editora Pedagógica e Universitária Ltda., São Paulo, 1974. Todos os direitos reservados.
A reprodução desta obra, no todo ou em parte, por qualquer meio, sem autorização expressa e por
escrito da Editora, sujeitará o infrator, nos termos da lei n° 6.895, de 17-12-1980, à penalidade
prevista nos artigos 184 e 186 do Código Penal, a saber: reclusão de um a quatro anos.
E. P. U. - Telefone (0++11) 3168-6077 - Fax. (0++11) 3078-5803
E-Mail: vendas@epu.com.br Site na Internet: http://www.epu.com.br
Rua Joaquim Floriano, 72 - 6o andar - conjunto 65/68 - 04534-000 São Paulo - SP
Impresso no Brasil Printed in Brazil
ÍNDICE
Prefácio da Segunda E d iç ã o ..........................................

Prefácio ............................................................................
Agradecimentos ...............................................................
1. Introdução .....................................................
2. Comportamento operante e respondente . . .
3. Condicionamento respondente.....................
4 . Condicionamento operante .........................
5 . Reforços positivo e negativo.......................
6 . Extinção .....................................................
7. Reforçamento interm itente...........................
8. Comportamento supersticioso .....................
9. Baixa freqüência de resposta: um exemplo .
10. Extinção e reforço negativo.........................
11. Generalização.................................................
12. Discriminação................. ...............................
13. Diferenciação (Modelagem) .......................
14. Encadeam ento................................................
15. Reforço condicionado positivo ...................
16. Reforço condicionado negativo...................
17. Pós-escrito ...................................................
Apêndice: Curvas acumuladas e registrador acumulado
Leituras sugeridas ........................................ ..................
Prefácio da Segunda Edição
Quando o Professor Hartley, há quinze anos atrás, pediu-me

para escrever uma introdução à teoria do reforço para alunos do
college, leigos interessados e professores que sentiam a necessidade
de uma apresentação sumarizada, eu fiquei amedrontado. Despido
do acompanhamento usual de curvas e tabelas, sem pormenores ex
perimentais e indicação bibliográfica especializada, com pouca ou ne
nhuma referência às fontes históricas e às questões discutíveis, seria
o resumo algo que valesse a pena ser lido? O que restasse seria su
ficiente para envolver o interesse dessa audiência ou de qualquer
a
outra? (
Parece agora que esses temores eram infundados. A apresenta
ção abreviada aparentemente mostrou-se útil em vários níveis de en
sino e para vários tipos de leitores. Nesta revisão, eu tentei ampliar
esse aspecto da utilidade. Novo material foi incluído, especialmente
na área de reforçamento intermitente, e foi anexado um apêndice sobre
registro acumulado que é uma característica importante do estudo do
comportamento operante desde o seu início. As Leituras sugeridas
foram ampliadas e atualizadas.
Milhares de experimentos foram realizados desde 1954 na área
da teoria científica e da prática representadas por este pequeno livro;
entretanto, pequena ou nenhuma atenção será dada aqui a esses es
tudos. Os termos básicos, os conceitos chaves e o esquema amplo
do sistema não foram muito alterados, e eles constituem ainda a prin
cipal preocupação dessa introdução à aprendizagem, do ponto de vista
da teoria do reforço.
F. S. K.
Kalamazoo, Michigan
1
Prefácio
£ muito difícil exagerar a importância dos processos de apren

dizagem na definição do comportamento humano. Estudantes de psi
cologia nem sempre alcançaram uma compreensão adequada desse im
portante campo. “Escolas” teóricas diferentes sugeriram pontos de
vista diversos, e integraram seus conceitos numa tentativa de unificar
a compreensão do comportamento humano. Nos últimos anos, porém,
nota-se ujn número crescente de esforços sistemáticos para elaborar a
í
teoria da aprendizagem como o ponto de partida para compreender o

homem. Uma das contribuições mais estimulantes é a comumente
identificada como teoria do reforço ou da recompensa.
Neste livro, o Professor Fred S. Keller apresenta uma introdu
ção simples e breve à aprendizagem, em termos da teoria do reforço.
Embora simples e breve, identifica e esclarece todos os princípios
fundamentais e indica suas interrelações e possíveis extensões. É, por
isso, mais do que uma pura exposição de uma teoria da aprendizagem;
oferece um ponto de vista de teoria da aprendizagem para toda a
Psicologia. Seu estilo simples não deixa de conter a precisão e a
cautela científicas. Este é, pois, um documento que será apreciado
não só por estudantes que se iniciam mas também por profissionais
que consideram as exposições costumeiras muito técnicas e enfadonhas.
O autor deste livro há muito é reconhecido como um teórico,
pesquisador e professor. Muito contribuiu para o desenvolvimento e
a aplicação da teoria do reforço. Nestas páginas ele ajuda a remo
3
ver o esotérico deste ponto de vista — e assim torna possível a um
maior grupo de pessoas compreender, criticar, ampliar e auxiliar a
desenvolver este importante campo de investigação.
Eugene L. Hartley
The City College, New York
4
Agradecimentos
Os nomes de muito poucas pessoas são mencionadas nas pági

nas que seguem mas, qualquer leitor psicólogo rapidamente reconhe
cerá meu débito geral ao Professor B. F. Skinner e a seus colabo
radores pela formulação da teoria do reforço aqui apresentada. Ele
também encontrará exemplos de débitos específicos a pesquisadores
cuja orientação teórica, provém do Professor Clark L. Hull. Identifi
cará alguns velhos amigos que, de nenhuma forma, estão ligados a
uma teoria./Minha razão para omitir referências pessoais é a mesma
em cada calso. Este e um livro para os que se iniciam. Se eles fo
rem incentivados a prosseguir nos seus estudos, poderão sanar a falta
de nomes. Se não o forem, não haverá dano por isso.
Eu agradeço a John V. Keller, pela leitura cuidadosa deste livro
em cada estágio da sua elaboração; seus comentários foram muito
úteis. Desejo também agradecer aos meus colegas Ralph F. Heffer-
line e Wendell E. Jeffrey, pelas críticas e correções ao manuscrito
completado.
Anne S. Keller atuou como sujeito no experimento descrito na
seção 4. Com um atraso de quinze anos eu lhe expresso minha gra
tidão pela sua cooperação!
Fred S. Keller
5
1. Introdução
1
São muitas as situações em que se usa o verbo aprender em

algumas de suas formas. Aprendemos, em criança, a distinguir uma
face de outra, ou uma voz amiga de outra zangada. Aprendemos,
talvez, que algumas vezes se consegue coisas com manha — e, mais
tarde, que não. Aprendemos que certos objetos cortam, queimam,
picam ou machucam os dedos se não forem manejados corretamente.
Aprendemos a patinar, a dançar e a esquiar. Aprendemos boas ma
neiras à mesa, jeitos de falar e mesmo maneiras de demonstrar emo
ção. Aprendemos a tabuada e a recitar o discurso de Gettysburg
pronunciado por Lincoln. Aprendemos a ter medo do som do motor
do dentista. Aprendemos a contar a verdade e a ficar envergonha
dos quando contamos uma mentira. Aprendemos o valor do dinhei
ro, da força, da idade, dos títulos, da hierarquia e das posições. E
assim por diante. A lista apenas começa, mas já se pode ver por
que se tem dito que o campo da aprendizagem é tão amplo quanto
o da própria psicologia!
Não é fácil, porém, definir aprendizagem. Examinemos rapida
mente os casos que acabamos de citar. Serão iguais estas aprendiza
gens? O aprender a patinar será igual ao aprender a ter vergonha?
Ou ao aprender o valor do dinheiro? Será como o aprender a esquiar?
Aprender a temer o motor do dentista será igual a aprender a não
tocar a chama, ou se parecerá mais com o aprender a gritar para cha
mar a atenção? Haverá uma única espécie de aprendizagem? Have
rá duas? Sete? Ou haverá tantas espécies quantos forem os exemplos?
Afinal, o que é exatamente aprendizagem?
7
São perguntas difíceis e não são, de forma alguma, as únicas
que se pode fazer acerca da aprendizagem. E são perguntas que não
podem ser respondidas com uma palavra, nem com uma sentença,
nem mesmo com um livro. Ainda estamos aprendendo a respeito da
aprendizagem e ainda, por algum tempo, não se terá escrito toda a
história.
Enquanto isso, não seria certo concluir que a situação é deses-
peradora. Na verdade, o que ocorre é o contrário, e nunca estivemos
tão esperançosos. Alguns princípios ou leis gerais emergiram recen
temente nos estudos modernos da natureza humana. Estes princípios e
leis não são difíceis de serem entendidos e, se bem compreendidos,
constituem um poderoso instrumento na análise de comportamentos de
todos os tipos. Com este auxílio, será possível focalizar com nitidez
quase todos os casos de aprendizagem que você tenderá a encontrar
na vida diária. Inclusive todos os exemplos de aprendizagem men
cionados acima, por mais complexos que pareçam ser.
2. Comportamento operante e respondente

Antes de falar a respeito dos princípios, entretanto, é preciso
distinguir entre dois tipos de comportamento. Um deles é conhecido
há muito tempo, como comportamento voluntário, e o outro é geral
mente denominado reflexo. Estas duas grandes classes da atividade
humana, juntas, abrangem quase todos os exemplos de comporta
mento em que o estudante de aprendizagem está interessado.
Voluntário e reflexo, entretanto, são palavras infelizes de um
ponto de vista científico. A história do seu uso nos diz que, com
freqüência, significaram coisas diversas para diferentes pessoas. De
fato, tem havido muito desacordo sobre o significado destas duas pa
lavras e, para substituí-las muitos psicólogos adotaram recentemente
os termos operante e respondente. Será proveitoso acompanhá-los,
na esperança de evitar discussões acerca de definições. Mas o leitor
poderá ter notado que, para alguns psicólogos, operante e respondente
quase chegam a significar as mesmas coisas que os correspondentes
mais antigos, voluntário e reflexo.
8
O comportamento respondente (reflexo) inclui todas as respos
tas dos seres humanos, •e de muitos organismos, que são eliciadas
(“produzidas”) por modificações especiais de estímulos do ambiente.
Manifesta-se sempre que as pupilas dos olhos se contraem ou se dila
tam em resposta a modificações na iluminação do ambiente; sempre
que a boca se enche d’água ao degustar algum petisco; sempre que
uma lufada de ar frio arrepia a pele; sempre que se derramam lágri
mas ao descascar cebolas; sempre que se perde o fôlego ao receber
no rosto um inesperado jato d’água; e em muitas outras maneiras,
algumas das quais serão mencionadas mais tarde.
O comportamento operante (voluntário) abrange uma quantida
de maior da atividade humana — desde o espernear e balbuciar do
bebê de colo até as mais sublimes perfeições das habilidades e do
poder de raciocínio adulto. Inclui todos os movimentos de um orga
nismo dos quais se possa dizer que, em algum momento, têm um efeito
sobre ou jazem algo ao mundo em redor. O comportamento operante
opera sobre o mundo, por assim dizer, quer direta, quer indiretamente.
Quando se apanha um lápis ou quando simplesmente se pede a alguém
que no-lo dê; quando se faz sinal para o ônibus, ou nele se sobe,
quando se fala ao telefone; quando se trauteia uma melodia, ou se
olha no relógio ou se resolve um problema de matemática — em todos
estes, e em milhares de outros atos da vida cotidiana, se está exem
plificando o comportamento operante.
Algumas vezes o efeito do comportamento operante sobre o mun
do exterior é imediato e óbvio, como quando se chuta uma bola, se
abre uma porta ou se escreve uma carta. As modificações do mundo
podem ser então observadas por quem quer que tenha o trabalho de
procurá-las. Em outras ocasiões, no entanto, tal não é o caso. Quan
do se disca um número de telefone e ninguém atende, quando alguém
fala consigo mesmo, em voz alta ou silenciosamente, não é fácil ver
exatamente como o ambiente foi alterado pelo que se fez. Só quando
se observa a história destes comportamentos é que se descobre que,
neste ou naquele momento, alguma forma da resposta em questão
realmente fez com que as coisas acontecessem. OriginariamentQ al
9
guém foi instigado para a ação de discar o número do telefone; e, antes
que alguém comece a falar sozinho, é necessário que a fala tenha tido
algum efeito sobre o comportamento dos outros, ou jamais teria sido
adquirida.
O comportamento respondente, como já foi mencionado, é auto
maticamente eliciado por estímulos especiais. Uma luz forte, proje
tada no olho acostumado ao escuro, produzirá inevitavelmente uma
contração pupilar. O comportamento operante, entretanto, não é
assim tão automático, tão inevitável, nem tão específico com relação,
aos estímulos. Suponhamos que se queira fazer com que uma pessoa
atravesse uma sala, levante a mão acima da cabeça ou que apanhe
um lápis da mesa. Como se faria para eliciar estas respostas? Em-
pregar-se-ia uma ordem, um pedido ou uma súplica? Tentar-se-ia
fazê-la executar o ato, usando força se necessário? Usar-se-iam atra*
tivos ou incentivos especiais? E ter-se-ia a mesma certeza dos resul
tados como quando se projeta luz nos olhos de alguém? E se a pes
soa não entendesse a nossa língua, como então evocar o comporta
mento?
A diferença entre comportamento operante e respondente poderá
ficar mais clara se se pensar em suas origens — nas primeiras oca
siões em que aparecem. Os respondentes, desde o começo, são evo
cados pelos seus próprios estímulos especiais. Comida na boca pro
duz salivação, luz nos olhos faz a pupila contrair-<se, e assim por
diante. Pode-se dizer que a gente só tem que nascer para que estes
estímulos eliciem estas respostas. No caso dos operantes, entretanto,
não há, no começo, nenhum estímulo específico com os quais se possa
evocá-los. Somos compelidos a esperar que apareçam antes que se
possa fazer qualquer coisa com eles. Simplesmente, não sabemos quais
os estímulos específicos que fazem com que a criança faça este ou
aquele determinado movimento com o braço, perna, pé ou mão, ou
com que vocalize pela primeira vez de um determinado modo. É
por esta razão que se fala que o comportamento operante é emitido
(“posto fora” ) em vez de eliciado (“tirado de”). Sabemos natural
mente que os operantes tornam-se ligados a estímulos, como se verá
10
na Seção 12, e como estas ligações se estabelecem, mas, mesmo en
tão, será justificado dizer que os operantes e os respondentes relacio
nam-se com os estímulos de modo diferente.
3. Condicionamento respondente
Estamos agora em condições de falar acerca dos princípios. E,

no que diz respeito ao primeiro, comecemos com alguns exemplos.
Caso I: Suponha que, numa sala aquecida, sua mão direita seja
mergulhada numa vasilha de água gelada. Imediatamente a tempera
tura da mão abaixar-se-á, devido ao encolhimento ou constrição dos
vasos sangüíneos. Isto é um exemplo de comportamento responden
te. Será acompanhado de uma modificação semelhante e, mais facil
mente mensurável, na mão esquerda, onde a constrição vascular tam
bém será induzida. Suponha agora que a sua mão direita seja mer
gulhada na água gelada um certo número de vezes, digamos em in
tervalos de três ou quatro minutos; e, além disso, que você ouça uma
cigarra elétrica pouco antes de cada imersão. Lá pelo vigésimo pa-
reamento do som da cigarra com a água fria, a mudança de tempe
ratura poderá ser eliciada apenas pelo som — isto é, sem necessi
dade de molhar uma das mãos.
Caso II: Imagine agora uma pessoa sentada diante de uma pe
quena tela de cinema em uma sala silenciosa. Na tela, durante perío
dos de um minuto, aparece projetada em intervalos irregulares uma
palavra em letra de forma. Durante o mesmo período de um minuto,
chumaços de algodão serão colocados debaixo da língua da pessoa,
de modo que se embebam de certa quantidade de saliva, que será
exatamente determinada pela diferença de peso do algodão no come
ço e no fim de cada minuto. Depois, na mesma sala, mas sem chuma
ços de algodão que atrapalhem, convidar-se-á a pessoa para uma série
de petiscos (sanduíches, pastéis e outros bocados) durante os quais a
palavra continua a ser intermitentemente projetada na tela em frente.
Finalmente, sem mais nada que comer, mas com os chumaços de al
11
godão outra vez no lugar, a palavra intermitente será outra vez pro
jetada por outro minuto — período de teste — e a salivação será
medida como antes. Resultado: a palavra projetada elicia agora mui
to mais saliva do que antes.
Caso III: Imagine ainda outro sujeito humano numa sala de
laboratório. Desta vez, está usando fones no ouvido e tem elétrodos
presos à mão esquerda, de modo a permitir a aplicação de um cho
que elétrico. Outros elétrodos, presos ao tórax e à perna esquerda,
estão ligados a um cardiógrafo, para prover um registro das batidas
do coração. Quando tudo estiver pronto, um som de altura e tona
lidade moderadas chegará ao ouvido do sujeito durante o período de
um segundo. Seis segundos mais tarde, um choque elétrico estimu
lante será aplicado à sua mão. Esta combinação de som seguido de
choque será repetida onze vezes, em intervalos de um ou dois minu
tos. Lá pelo décimo primeiro pareamento, o batimento cardíaco do
sujeito cairá de quinze a vinte batidas por minuto dentro de um se
gundo mais ou menos depois de ter ouvido o som, e antes que o cho
que seja sentido.
Estes três casos foram tomados de experimentos reais. Cada
um é um exemplo de aprendizagem, do mesmo modo que o de se
chegar a suar ao simples som da broca do dentista ou a corar ao
dizer uma mentira. Todos eles ilustram o mesmo princípio básico,
já conhecido e denominado de “reflexo condicionado”. Este princípio
foi formulado, nos primeiros anos deste século, pelo filósofo russo
Pavlov. Poderá ser enunciado, de modo um pouco simples demais,
como se segue: Se um estímulo neutro for pareado um certo número
de vezes a um estímulo eliciador, este estímulo, previamente neutro,
irá evocar a mesma espécie de resposta. O estímulo neutro, no pri
meiro caso, foi a cigarra; no segundo, a palavra projetada; e no último,
o som. Através da associação com água gelada, comida e choque,
respectivamente, vieram a eliciar, por si só, a queda da temperatura,
o fluxo salivar e a mudança de batimento cardíaco.
Estes condicionamentos ocorreram muito rapidamente; só uns
poucos pareamentos foram necessários em cada caso. Isto não teria
acontecido se certos fatores temporais não tivessem sido observados
e se certas precauções não tivessem sido tomadas. Por exemplo, se
em cada um dos casos o estímulo eliciador tivesse vindo minutos de
pois, em vez de segundos, o condicionamento poderia ter sido muito
lento. Ou, se o estímulo neutro tivesse acompanhado, seguido, em
vez de precedido o estímulo eliciador, poderia não ter ocorrido con
dicionamento algum. Além disso, a velocidade do condicionamento
teria sido também afetada pelo número de distrações presentes, pelo
tipo de instruções dadas aos sujeitos, pela intensidade dos estímulos
empregados, pelas condições fisiológicas do sujeito no momento do
experimento, etc. Vê-se, portanto, que há mais coisas no condicio
namento do que pode ser dito no enunciado de uma sentença.
Nossa definição é inadequada ainda sob outro aspecto. A cigar
ra, a palavra projetada e o som, nos nossos três exemplos, só eram
“neutros” em um sentido relativo — só por que não tinham, ao co
meçar, o mesmo efeito sobre o comportamento que seus associados:
a água gelada, o alimento e o choque elétrico. Cada um deles tinha,
provavelmente, algum efeito sobre o comportamento antes da asso
ciação, alguma influência sutil que podemos mesmo não ser capazes
de observar. Cada um, pode-se dizer, tinha a sua própria resposta
reflexa; cada um era, na realidade, um estímulo eliciador por conta
própria. Examine o seguinte diagrama em que S refere-se ao estí
mulo e R à resposta:
Deveríamos dizer, provavelmente, que no condicionamento são

pareados dois reflexos, duas conexões estímulo-resposta, em vez de
dois estímulos. O condicionamento requer a formação de um terceiro
reflexo, composto do estímulo “neutro” e da resposta ao estímulo
“eliciador”.
13
Pavlov reconhecia tudo isso. O terceiro reflexo era o seu refle
xo condicionado, e referia-se aos dois reflexos sobre os quais se ba
seava como “incondicionados”. Referia-se, do mesmo modo, a estí
mulos condicionados e incondicionados. O alimento foi denominado
estímulo incondicionado para a salivação do cachorro e o estímulo
(um som), com o qual era associado, tornava-se o estímulo condicio
nado para a mesma resposta. (E deveríamos acrescentar, naturalmen
te, que o som era um estímulo incondicionado para alguma outra
resposta — por exemplo, um sobressalto — antes do condicionamen
to ser iniciado.)
Um outro termo de Pavlov se tornou muito importante na psi
cologia moderna. Ao descrever o efeito do alimento no condicio-
mento de um cachorro a salivar ao som de uma campainha, referiar
-se a ele como “reforçador”. O alimento reforçava a conexão entre
o estímulo neutro e a salivação. É como o efeito da água gelada e
do choque elétrico nos nossos Casos I e III. Hoje, de certo modo,
ampliamos a significação do termo usando “reforçamento” também
como mais ou menos equivalente a “recompensa” ou “punição” do
comportamento operante.
O princípio de Pavlov, como ele o formulara, aplica-se especial
mente à atividade glandular, e ele trabalhava principalmente com as
glândulas salivares. Mas aplica-se igualmente bem à atividade “mus
cular lisa”, ou da espécie envolvida quando a pupila do olho dilata;
ou os vasos sangüíneos se contraem; ou os pêlos da pele se arrepiam.
Todas estas são modificações respondentes ou reflexas. Além destas,
Pavlov achava que sua lei aplicava-se também às atividades “moto
ras” ou “musculares estriadas” — movimentos da cabeça, pernas,
dedos, etc. Hoje, entretanto, adotamos uma visão mais conservadora,
editamos que a lei trata, não de operantes, mas exclusivamente
-espondentes. Um teórico moderno chegou a afirmar que se aplica
principalmente às reações emocionais, dependendo, por isso, do sis
tema nervoso autônomo. Isto pode ou não englobar toda a história,
mas pelo menos o leitor já sabe por que a palavra respondente foi
incluída no título desta seção.
/'
14
4. Condicionamento operante
Ao apresentar o próximo princípio, mais uma vez é apropriado

começar com um exemplo. Desta vez nosso sujeito é uma criança
de cerca de dezessete meses, e a situação experimental é uma sala de
visitas comum ligeiramente modificada para servir como laboratório.
Nossas observações começam quando a criança entra correndo na
sala de visitas, vindo do vestíbulo, e tenta chamar a atenção da mãe
que está sentada perto da janela, lendo. Falhando nos seus esforços,
a criança volta-se para o outro lado. À medida que seu olhar vagueia
pela sala, de repente ilumina-se ao cair sobre um novo aspecto; Atra
vés de uma estreita fresta da cortina que separa a sala de visitas da
de jantar, projeta-se uma pequena maçaneta em forma de T. Logo
abaixo da maçaneta há uma pequena vasilha, ao alcance da criança.
Aproximando-se rapidamente destes objetos, mas prudentemente, a
criança toca a maçaneta com o dedo, e olha dentro da vasilha.
Quando o faz, cai na vasilha um pequeno pedaço de chocolate, vindo
de um tubo escondido do outro lado da cortina da sala de visitas.
Assustada com isso, a criança recua momentaneamente, mas volta e,
apanhando o chocolate, come-o. Alguns segundos mais tarde, segura
firmemente a maçaneta e puxa para baixo cerca de 2 centímetros,
fazendo com que um segundo pedaço de chocolate caia na vasilha.
%
Daí por diante, com eficiência rapidamente crescente, ela opera o

mecanismo, comendo cada pedaço à medida que cai, até que o cho
colate deixa de apetecer.
Este caso simples ilustra um poderoso princípio do comporta
mento. Edward L. Thorndike, um grande psicólogo norte-americano
deste século, denominava-o Lei do Efeito, e realizou muitos experi
mentos para demonstrar sua importância no comportamento humano
r
e animal. Em essência, esta lei enuncia que um ato pode ser alterado
na sua força pelas suas conseqüências. O ato, no nosso exemplo, foi
o de pressionar a maçaneta; o reforçamento deste ato foi observado
no aumento da freqüência de seu aparecimento, e a conseqüência do
ato foi, naturalmente, o pedaço de chocolate que caía na vasilha.
15
Muito conhecidos entre os próprios estudos de Thorndike são
aqueles em que gatos famintos conseguiam acesso a pedacinhos de
alimento sempre que manipulassem o fecho, alavanca, ou dispositivo
apropriado que abria a porta da “gaiola-problema” em que estavam
aprisionados. O progresso dos gatos nesta tarefa foi medido pela
diminuição do tempo que demoravam para escapar e chegar até o
alimento em sucessivas ocasiões de confinamento. Assim, quando o
gato resolvia o problema, o número de segundos que precisava para
operar o mecanismo de escape ia diminuindo gradualmente, até que
seu desempenho se aproximava da perfeição.
Hoje, falamos comumente desta “aprendizagem por efeito” como
condicionamento “instrumental” ou operante e, freqüentemente, me
dimos a sua força em termos da freqüência com que ocorre no tem
po quando o organismo (animal ou humano) é livre para responder
à vontade. No caso da nossa criança, esperaríamos uma resposta de
vez em quando, mesmo na ausência de qualquer recompensa especial.
Mas, quando o chocolate aparecia logo depois do pressionar da ma
çaneta, a probabilidade da resposta ser repetida aumentou rapidamen
te — a freqüência subitamente aumentou. Como a criança continuou
a obter pedaços de chocolate, naturalmente veio a ocorrer saciação e
a freqüência do pressionar a maçaneta diminuiu. Não se cometeria
entretanto nenhum erro ao supor .que, quando voltasse a fome por
chocolate, o comportamento de pressionar a maçaneta reapareceria
rapidamente.
Este condicionamento operante pode ser representado da seguin
te maneira:
R ___ > S
R é a resposta (pressionar a m açaneta);-----> significa “leva a”, e
S é o estímulo reforçador, o chocolate. Não há necessidade de falar,
neste ponto, sobre os estímulos que levariam ou não a pressionar a
maçaneta. Como foi dito antes, eles seriam muito difíceis de identifi
car na primeira vez que a resposta fosse feita, e estaríamos em maus
lençóis se tivéssemos de eliciar ou pressionar. Mais tarde, entretanto,
16
ver-se-á que a R do nosso diagrama se relaciona com estímulos do
meio e examinaremos as condições em que esta relação se estabelece.
5. Reforços positivo e negativo
O chocolate não é, obviamente, o único tipo de estímulo refor

çador que pode ser usado para condicionar uma resposta operante
tal como pressionar barra. Na verdade, é apenas um dos membros
de uma grande família de reforçadores —- a família dos assim deno
minados reforços “positivos”. Esta família inclui todos aqueles estí
mulos que, quando apresentadôs, atuam para fortalecer o comporta
mento que os precede. Sob condições apropriadas de carência, mui
tos outros alimentos (ou bebidas), e talvez mesmo certos sons e luzes,
podem aumentar a freqüência do pressionar a barra do mesmo modo
que o chocolate.
Mas isto não é tudo. Assim como há reforços positivos, há re
forços negativos que podem ser usados para condicionar o comporta
mento operante. Alguns estímulos fortalecem a resposta através de sua
remoção. Comumente não usamos estes estímulos em experimentos
com crianças, ou mesmo com adultos, mas há muitos exemplos do
modo como eles atuam em situações não-experimentais, e em experi
mentos com animais inferiores. Quando um menino tira os sapatos
%
porque eles estão apertados ou cheios de pedrinhas; quando tira o ca

saco porque está muito quente, ou quando o veste porque está muito
frio; quando fecha os olhos ou tapa as orelhas para eliminar luzes ou
ruídos demasiado fortes — em todos estes casos o que o reforça é
ficar livre da estimulação. Da mesma maneira, nos estudos de labo
ratório muitas vezes se treinam ratos brancos para que pulem, corram,
pressionem uma barra, etc., em situações em que a única recompensa
é fugir de intensidades incômodas de choque elétrico ou de outra es
timulação intensa.
Pode-se então dizer que um estímulo reforçador negativo é aque
le que fortalece a resposta que o remove. Mas é também o estímulo
17
que enfraquece a resposta que o produz. Suponha-se, por exemplo,
que a criança que mencionamos tivesse recebido, depois de cada
pressão à barra, um choque elétrico em vez de um pedaço de cho
colate; é fácil adivinhar o que teria acontecido. A freqüência do pres
sionar a barra teria sido drasticamente afetada. Cairia bem abaixo
do nível de sua ocorrência incondicionada, isto é, da freqüência com
que ocorreria naturalmente, na ausência de qualquer efeito especial.
Ao menos esta é a conclusão a que se poderia chegar na base do senso
comum e dos estudos com animais em que as respostas operantes
foram seguidas de estimulação intensa. De um modo geral, foi de
monstrado que choques fortes, luzes intensas, sons agudos, etc., efe
tivamente suprimem todo o comportamento que os produz. A supres
são poderá não durar muito, especialmente se o organismo for deixado
na mesma situação depois de ter sido interrompido o reforço nega
tivo, mas não se põe em dúvida a sua existência. (Voltar-se-á a este
problema na seção 10.)
6. Extinção
É comum que os psicólogos sejam consultados sobre como

eliminar comportamentos já condicionados, como desaprender, como
aprender a não fazer algo. Esta é uma questão que conduz a muitas
direções e, em resposta, há muito mais do que pode ser dito aqui.
Mas a fórmula básica é suficientemente simples: a maneira de desar
prender uma resposta já condicionada é através da extinção — atra
vés da suspensão do reforçamento.
Considere, por exemplo, o reflexo condicionado de Pavlov. Ele
se estabelece fazendo com que o estímulo “neutro” seja sempre acom
panhado do incondicionado ou reforçador. Poderá ser desfeito apre
sentando-se o estímulo condicionado, mas suspendendo o incondicio
nado. Lembre-se dos exemplos de condicionamento apresentados.
Uma queda de temperatura foi condicionada ao som de uma cigarra;
a secreção salivar foi condicionada à visão de uma palavra projetada;
18
uma mudança no batimento cardíaco foi condicionada a um som de
um segundo de duração. Tudo isso já foi descrito. Entretanto, não
foi mencionado o fato de que, depois de cada experimento, a respos
ta condicionada foi extinguida. No primeiro caso, a cigarra foi toca
da repetidamente, mas a mão não foi mergulhada na água; no se
gundo, a palavra foi várias vezes projetada, mas nenhum alimento a
acompanhou; e, no último caso, uma série de sons foram apresenta
dos, mas não foram seguidos de choque. O resultado em cada um
dos casos foi o mesmo. A força da resposta condicionada declinou,
até que o efeito da associação se perdesse e o estímulo condicionado,
outra vez, se tornasse “neutro”.
Estes são exemplos de extinção respondente, mas a mesma regra
fundamental se mantém para a extinção operante. Se o reforço for
retirado, a resposta voltará, eventualmente, à sua freqüência original
incondicionada (algumas vezes denominada nível operante). Em al
guns experimentos, como no caso da criança que ganhava chocolate
ao pressionar uma barra, a remoção do reforço é causa de conside
rável emoção. Respostas rápidas e excessivamente vigorosas, e mes
mo ataques encolerizados ao dispositivo que apresentava a recompen
sa e que já não funciona, podem alternar-se com períodos de mau
humor e depressão operante. O número de respostas de cada repente
vai decrescendo gradualmente e os períodos de não-resposta vão au
mentando cada vez mais. Finalmente, a força cai a um nível de rea
ção apática ocasional, e a extinção já está quase completa.
A extinção, tanto para operantes como para respondentes, é al
gumas vezes extremamente lenta. Em uns poucos casos, investigado
res relataram que ela absolutamente não ocorre. Isto é um tanto per
turbador. Sugere que alguns dos nossos comportamentos podem du
rar mais tempo do que desejamos — que poderemos, talvez a vida
toda, continuar afligidos por ansiedades, compulsões e obsessões que
não são fáceis de suportar. Teremos de ter sempre medo de cachor
ros? Ou de falar em público? Nunca seremos capazes de deixar de
fumar? Esta melodia ou este pensamento doloroso nunca nos aban
donarão?
19
Provavelmente as coisas não são assim tão ruins. Por exemplo,
o alegado fracasso em obter extinção de uma contração pupilar, de
uma secreção salivar, ou de qualquer outro respondente condiciona
do, pode ter uma explicação diferente. Sabemos que o comporta
mento operante pode, às vezes, produzir efeitos respondentes incon
dicionados. Isto é freqüentemente citado como o controle voluntário
da ação involuntária. Assim, distendendo ççrtos músculos pode-se
prover o estímulo incondicionado para uma mudança na freqüência
do pulso, na constrição de vasos sangüíneos, etc. Pode bem ser que
tal controle operante do comportamento respondente, estabelecido ao
mesmo tempo que o respondente, tenha sido condicionado e se possa
manter mesmo depois que o estímulo condicionado para o responden
te tenha perdido todo o efeito. Em outras palavras, antes de termos
certeza de que o respondente não se extinguirá, devemos estar certos
de que o nosso sujeito não tenha descoberto, sem o sabermos e sem
ele mesmo saber, seu próprio operante especial para produzir o mes
mo efeito em uma base incondicionada — isto é, produzindo em si
mesmo a estimulação que irá eliciar a mesma mudança respondente.
Também os operantes condicionados podem resistir à extinção,
às vezes em um grau fantástico, de modo que, segundo todas as apa
rências, podem ser inextinguíveis. Experimentos com animais retratam
isso mais vivamente. Por exemplo, um pombo pode ser condicionado
a bicar um pequeno disco ou chave na parede de uma câmara expe
rimental. Quando, após um longo treino, começa a extinção, o pombo
poderá bicar 7.500 vezes durante a primeira hora, sem qualquer sinal
de parar. Nas duas horas seguintes poderá emitir aproximadamente
o mesmo número de respostas, e a extinção estará ainda longe de se
completar. Observando o pombo, poder-se-á dizer que está incuravel-
mente viciado em bicar o disco; e poder-se-á ficar admirado de como
não pára de pura exaustão. Posteriormente, é claro, não mais res
ponderá, mesmo quando já estiver descansado e outra vez faminto do
alimento que o bicar produzia. Mas um observador impaciente facil
mente teria concluído e manteria a opinião de que o hábito era in
quebrável.
20
7. Reforçamento intermitente
Um primeiro agente na produção de uma grande resistência à

extinção em casos como este é o esquema de reforço que esteve pre
viamente em efeito. Quando se recompensa um pombo intermitente
mente, em vez de em todas as ocasiões em que emite a resposta, uma
forma de comportamento muito semelhante ao de uma máquina irá
se desenvolver, depois de um treino longo e continuado. Se os refor-
çamentos forem apresentados em intervalos de tempo regulares, diga
mos cada cinco minutos, breves períodos de não-resposta alternar-se-
-ão regularmente com períodos mais longos nos quais o pombo acelera
rapidamente até uma freqüência duas ou três vezes maior por segun
do e continua neste ritmo até a ocorrência do próximo reforçamento.
O pombo parece “contar o tempo”. Nunca responde diretamente de
pois de comer (nunca foi reforçado por responder nessa ocasião),
mas volta a bicar intensamente quando se aproxima do momento do
outro reforçamento.
Os que trabalham em laboratório referem-se a este esquema como
um esquema de reforço de intervalo fixo, pois um certo tempo fixo
deve decorrer entre os reforçamentos. Quando os reforçamentos, en
tretanto, dependerem de o pombo apresentar o mesmo número de
respostas em cada ocasião, aparecerá uma alteração na freqüência,
em parte similar. Quando o reforço é apresentado, o pombo come
os grãos, espera um pouco, e então bica o número de vezes exigido,
digamos vinte, numa seqüência constante e rápida. Isto é conhecido
como um esquema de razão fixa, neste caso uma razão de vinte-para-
um — vinte respostas para um reforçamento. (Não ocorre aqui uma
“discriminação de tempo”, pois sabe-se que o pombo nada obtém
parando depois de comer.)
Um quadro diferente de freqüência de resposta emerge quando
o reforçamento do pombo ocorre de forma randômica ou ao acaso,
em intervalos variáveis ou depois de um número variável de respos
tas — isto é, em um esquema de intervalo variável ou de razão va
riável. Verifica-se uma freqüência singular e regular de resposta,
21
ê
interrompida somente quando o pombo pára alguns segundos para

comer. Esta freqüência pode ser alta ou baixa, dependendo do tipo
de esquema (o esquema de razão variável produz, tipicamente, fre
qüências mais altas do que o esquema de intervalo variável) e do
tempo médio que decorre entre os reforçamentos. Quando os refor
ços são próximos, as bicadas podem ocorrer na proporção de três
para quatro por segundo; quando mais distantes, a freqüência pode
ser de três ou quatro por minuto. Essas freqüências podem ser man
tidas durante muitas horas em cada dia e durante muitas semanas.
Os efeitos desses esquemas de reforço diferentes podem ser no
tados, como se disse no início desta seção, no total de respostas que
ocorrem quando o reforçamento for completamente descontinuado —
quando ocorre a extinção. Depois de um procedimento de reforça
mento contínuo, quando cada resposta é reforçada, pode-se esperar
que a extinção reduza rapidamente a freqüência de respostas com
sinais claros de distúrbios, tal como foi descrito na seção 6. O refor
çamento intermitente, entretanto, empresta em todos os casos uma
maior resistência à extinção, com menos envolvimento emocional. O
organismo poderá responder, hora após hora, da mesma maneira cons
tante e imperturbada que exibia durante o treino. Isto é especial
mente evidente quando as recompensas eram apresentadas em inter
valos irregulares de tempo — algumas vezes em rápida sucessão e,
em outras, distanciadas umas das outras. A freqüência de respostas,
sob este esquema, poderá não ser distinta da freqüência mantida nas
primeiras horas de extinção.
A consideração do efeito dos diferentes esquemas de reforço so
bre o responder posterior, não-reforçado, leva à conclusão de que
um importante fator responsável pela resistência à extinção é a simi
laridade das condições de treino com as condições de extinção. Quan
do os reforços são dados regularmente para cada resposta durante o
treino, a mudança das condições para o não-reforçamento é drástica.
Mas quando o organismo já se acostumou a passar longos períodos
sem unj reforço, as condições de extinção, pelo menos por algum
tempo, são exatamente as mesmas que as condições de treino. A me
22
nos que o organismo possa perceber a diferença entre as duas condi
ções, a freqüência do responder continuará a mesma de antes. Se
esta conclusão for admitida, deve-se pensar que o comportamento
operante está mais ligado do que foi sugerido antes nestas páginas
com os estímulos ambientais. Este é um ponto importante e ao qual
voltaremos em seções mais adiante.
8. Comportamento supersticioso
Em todos os esquemas de reforço descritos na seção 7, o sujeito

experimental, o pombo, tinha de bicar uma chave antes de poder
obter seus grãos; o reforçamento, dizemos, foi contingente a um tipo
específico de resposta. Isto, talvez, é o que ocorre normalmente em
nossas vidas, bem como em experimentos com pombos; usualmente
temos de fazer alguma coisa para obter algo. Mas nem sempre. Às
vezes parece que somos pagos por não fazer nada. Que efeito, se é
que existe algum, tem o reforçamento sobre nós?
Considere outro estudo com pombos. A ave está novamente
faminta na câmara experimental, na qual teve anteriormente uma
chance de comer grãos em um alimentador. Não existe, agora, uma
resposta particular que deve emitir, ou que foi condicionada, mas, a
intervalos regulares de quinze segundos, um alimentador cheio de
grãos lhe será apresentado automaticamente, durante um período de
cinco segundos. Será este comportamento afetado de modo reconhe
cível pelo reforçamento não-contingentel
A resposta é sim. Nessas condições, depois de pouco tempo o
pombo desenvolverá uma forma especial de resposta. Poderá andar
em círculos dentro da câmara experimental; poderá apoiar-se ora
num pé ora no outro; poderá alongar seu pescoço repetidamente em
direção a um ângulo da câmara; poderá “inclinar-se” e ciscar repe
tidamente, ou apresentar movimentos de bicar o assoalho da câmara.
Qualquer uma dessas ações, ou outras, podem aparecer com uma fre
qüência igual à de bicar um disco, embora nunca produzam realmen
23
te os grãos. A resposta parece ter sido “colhida” pelo reforçamento
que ocorreu depois da sua primeira emissão. Antes que tivesse tempo
de se extinguir, um outro reforço foi dado; e assim uma completa
“superstição” foi estabelecida, não diferente do comportamento de um
jogador que fala com suas fichas ou dá voltas ao redor da mesa para
mudar' a sorte.
Para que os resultados sejam como estes, o reforçamento não-
-contingente deve ser freqüente no princípio. Quando isto não se ve
rifica, a resposta acidentalmente reforçada será suficientemente extin
ta para ser substituída por outra que, por sua vez, pode ser substituí
da por uma outra, destruindo deste modo o efeito ritualístico. O
comportamento supersticioso desenvolver-se-á, entretanto, rapidamen
te quando se começa com reforçamento pouco espaçado. Esse inter
valo pode ser gradualmente aumentado, sem causar uma modificação
no comportamento, quando este já estiver firmemente estabelecido.
No caso do tempo entre os reforçamentos ser sempre o mesmo, de-
senvolver-se-á uma discriminação de tempo, como no caso da res
posta de bicar sob um esquema de intervalo fixo. Ainda assim, a res
posta supersticiosa pode ser difícil de ser eliminada. Um pombo pulou
de um lugar para outro mais de 10.000 vezes antes de alcançar um
ponto próximo da extinção.
9. Baixa freqüência de resposta: Um exemplo
Os psicólogos tentaram, algumas vezes, controlar a freqüência

da resposta de outras maneiras diferentes das acima descritas. Fre
qüências altas foram alcançadas reforçando-se respostas somente quan
do uma segue logo a outra, e freqüências baixas foram alcançadas
reforçando-se respostas somente quando aparecem distanciadas, quan
do o “tempo entre-as-respostas” não é menor do que um determinado
número de segundos ou minutos. Um exemplo pode ser interessante.
Nosso sujeito, um menino, está sentado a uma mesa em sua
casa, com um microfone à sua frente e uma pequena xícara à sua
direita. Atrás dele, localiza-se o experimentador, com um punhado de
24
moedas e um cronômetro. Ele acabou de instruir o menino para
“pronunciar palavras” ao microfone, na velocidade que quisesse, po-
dendo repetir a mesma palavra se quisesse, evitando sentenças ou
outras seqüências significativas. A estas instruções, o experimentador
acrescentou: “De vez em quando, quando você estiver fazendo isso,
eu depositarei uma moeda na xícara. Quando o experimento termi-
minar, todas as moedas que obtiver serão suas. Tudo o que tem a
fazer é pronunciar palavras”.
Depois de alguma hesitação as palavras começaram a aparecer:
microfone, árvore, grama, mesa, jantar, papel de parede... nomes
de objetos na sala ou fora dela, e palavras de referência mais pessoal.
Uma das palavras, jloresy é tomada ao acaso pelo experimentador
como a ocasião para dar a moeda. Imediatamente é repetida, e no
vamente reforçada, até cinco moedas terem sido distribuídas em rápida
sucessão. A resposta do menino é condicionada; pode então ser ten
tado o controle da freqüência. De agora em diante, jlores será refor
çada somente quando for pronunciada dez segundos ou mais depois
da última vez que foi enunciada.
A palavra sofre, a princípio, alguma extinção, sua força dimi
nui e é pronunciada com menos segurança, até deixar de ser enun
ciada. Então, depois de uma série de outras palavras terem sido
emitidas, reaparece; e como já se haviam passado os dez segundos, é
novamente reforçada. Depois de alguns minutos de treino, desenvol
ve-se uma discriminação de tempo e a maioria das respostas flores é
reforçada. (Se uma ocorre antes, naturalmente, o experimentador sim
plesmente recoloca seu cronômetro no zero e passa a exigir um atra
so de mais dez segundos para que a próxima resposta seja bem su
cedida. )
Um dos resultados desse pequeno estudo pode surpreender. Entre
cada apresentação da palavra flores, o menino não permanecia ca
lado, como poderia ter feito. Ao contrário, preenchia o período de
dez segundos com outras palavras, e estas palavras ocorriam comple
tamente ao acaso. À medida que a prática continuava, desenvolvia-se
uma seqüência suficientemente regular dessas palavras — um tipo de
25
“encadeamento supersticioso”. Imediatamente depois de receber uma
moeda, essas palavras eram previsíveis mas, quando se aproximava o
momento do próximo reforçamento, as mesmas palavras sempre apa
reciam na ordem: navio, mar, bonito, vermelho, flores. Parece que
temos aqui um outro caso de reforçamento não-contingente, desde
que só a última resposta na cadeia era exigida para obter a recom
pensa.
Mas, há mais do que isso. O menino, neste experimento, apre
sentou uma excelente “discriminação de tempo”. Raramente respon
dia, depois do reforçamento, em menos de dez segundos, e raramente
ultrapassava mais do que dois ou três segundos. E, no entanto,
ele não tinha nenhuma idéia de que o experimento envolvia tempo!
Ele “pensava” que tinha de aprender uma série de respostas e, quan
do o experimento terminou, desculpou-se por não ter sido bem suce
dido, dizendo: “Sinto muito, mas eu não pude dizer todas as pala
vras que você queria que eu dissesse”. Tais resultados colocam ques
tões interessantes relativas à parte desempenhada pelo nosso próprio
comportamento quando estamos discriminando “tempo”. O encadea
mento supersticioso de respostas atrapalhou ou auxiliou na contagem
inconsciente de tempo? Mas, geralmente, quando discriminamos o
tempo sem um relógio, a que respondemos?
%
Este experimento poderia nos levar a duas direções. Podería

mos discutir estudos similares mais formais do que técnicos, conhe
cidos como diferenciação de baixa freqüência de resposta (abrevia
damente, drl), com animais, crianças e estudantes de college como
sujeitos experimentais. Ou poderíamos passar diretamente para o
tópico de encadeamento estímulo-resposta. A primeira alternativa
nos conduziria a uma especialização maior do que aquela que deve
ria ser incluída em um livro como este e a segunda será melhor com
preendida depois de termos preparado mais completamente o cami-
nhoyPortanto, vamos agora mudar de assunto simplesmente passan
do para uma questão, ou pelo menos um aspecto de uma questão,
que tem preocupado a humanidade desde os primeiros dias — a
questão da punição e seus efeitos.
26
10. Extinção e reforço negativo
Se lhe fosse pedido que sugerisse modos de apressar a extinção

de um operante fortemente condicionado, é quase certo que, mais
cedo ou mais tarde, você viria com a proposta de que a punição daria
o efeito desejado. E punição significaria provavelmente algo como
um choque, um tapa, um golpe ou outro reforçador negativo que pu
desse ser aplicado sempre que a resposta indesejada ocorresse. Se o
pressionar a barra da criança, na seção 4, tivesse sido recompensado
por muitos dias, intermitentemente, e com muitas outras coisas além
do chocolate, e se você tivesse agora de extinguir a resposta tão rá
pido quanto possível, você não sugeriria uma maneira de encurtar o
processo, como um leve choque ou um tapinha na mão? Não seria
isso psicologicamente aconselhável? Não foi dito, na página 17 deste
livro, que o comportamento da criança ficaria enfraquecido se a cada
resposta à barra um choque fosse aplicado? E não foram os refor-
çadores negativos definidos, em parte, como os estímulos que enfra
quecem as respostas que os precedem?
A questão da eficácia do castigo ou da punição “corporal” ou
“física” é muito antiga e não pode ser respondida com um simples
sim ou não. É indubitavelmente verdade que um reforçador negativo
bem forte porá fim a quase todas as espécies de comportamento ope
rante que se possa citar; mas isto não abrange toda a história. Mui
tos pais descobriram por si mesmos o valor de “umas boas palma
das” para pôr fim ao mau comportamento crônico das crianças; en
tretanto, nem todos os pais se sentem inteiramente seguros acerca dos
possíveis efeitos posteriores.
Por razões óbvias, existe muito pouco ou quase nenhum es
tudo experimental sobre o efeito de punições severas sobre as reações
humanas. Recentemente, entretanto, um bom número de dados vem
sendo acumulado em pesquisas com animais. O fruto destas investi
gações pode ser resumidamente anotado aqui. Em primeiro lugar, já
está bem estabelecido, como se observou acima, que o efeito de um
choque forte ou de qualquer outro reforçador negativo sobre um ope-
27
rante, como o pressionar a baira, é diminuir a sua freqüência de ocor
rência. Isto é verdade se o estímulo for aplicado durante o reforça-
mento positivo regular, durante o reforçamento positivo intermitente,
durante a extinção ou antes que tenha ocorrido qualquer condiciona
mento de operante. Além disso, dentro de certos limites, quanto mais
forte for a punição, maior será o efeito sobre a freqüência operante.
Em segundo lugar, se o animal punido for deixado na mesma
situação de punição por um período de tempo suficientemente longo
em qualquer uma daquelas condições, mas sem o choque ou outro
agente punitivo, recobrar-se-á dos efeitos. A recuperação será apa
rentemente mais rápida se a resposta punida continuar a receber re
forço positivo, quer regular quer intermitente, do que se estiver sob
extinção ou em uma situação aparentemente “neutra”. Em um estu
do com animais, em que ratos brancos foram punidos com choque
durante os primeiros dez minutos de extinção da resposta de pressio
nar a barra, o efeito da punição desapareceu quase que inteiramente
durante uma hora na qual os sujeitos estiveram confinados na situa
ção, mas com a barra ausente. Quase tanto tempo e quase tantas
respostas foram em seguida requeridas antes que o pressionar a barra
se extinguisse; e os ratos comportaram-se como animais que nunca
tivessem recebido choques antes.
Em terceiro lugar, parece que as respostas emocionais associa
das com o estímulo punitivo são condicionadas de modo respondente.
Quando, por exemplo, um choque for aplicado em lugar especial,
digamos a câmara experimental, o próprio lugar torna-se um estímulo
condicionado capaz de produzir os mesmos efeitos que o choque. E,
com estas modificações respondentes, ocorre a depressão de qualquer
comporjámento operante em curso. O lugar, pode-se dizer, provoca
medo e o medo põe fim a outras coisas— por exemplo, ao pressio
nar a barra. A extinção do medo, como qualquer extinção respon
dente, requer que o estímulo reforçador incondicionado (o choque)
seja suspenso. À medida que a extinção prossegue, e o lugar perde
os seus aspectos atemorizadores, a resposta operante começa a rea
parecer. O animal volta à atividade, reforçada ou não, que prevalecia
28
antes que o choque fosse aplicado. Se ainda estiver em vigor o refor
çamento positivo intermitente, o animal volta à freqüência anterior;
se as condições de extinção ainda estiverem presentes, retoma mais
uma vez o responder não reforçado. A punição poderá ter adiado o
responder, mas não terá alterado permanentemente a freqüência ope
rante, nem acelerado o processo de extinção operante.
Só se deve esperar este efeito transitório da punição se os estí
mulos punitivos não forem mais aplicados e apenas se o sujeito per
manecer na situação punitiva por um período de tempo suficiente
mente longo — isto é, até que o efeito dos estímulos condicionados
emocionais tenham tido oportunidade de se extinguir. Se, entretanto,
o animal, depois de ter sido punido, tiver oportunidade de escapar
para um ambiente diferente, no qual não receba mais punição e no
qual todas as suas necessidades forem satisfeitas, então o efeito da
punição pode parecer não ser transitório. O resultado da punição
será então a esquiva, tópico sobre o qual versará a seção 16.
11. Generalização
Alguns casos de “aprendizagem” não se qualificam nitida

mente como tal. Representam, ao invés, o reaparecimento de com
portamentos que já foram bem reforçados sob as mesmas, ou apro
ximadamente as mesmas, condições. Veja por exemplo o caso de
um chipanzé que aprendeu a usar uma longa vara de bambu para
alcançar um fruto fora de sua jaula. Suponha que lhe sejam dadas,
agora, duas varas menores que ele segura em suas mãos; nenhuma
delas alcançará o fruto, mas poderão ser encaixadas uma na outra
para consegui-lo. Suponha que, manipulando as duas varas, ele traga
a extremidade sólida da mais fina a uma estreita relação visual com
a extremidade tubular da mais grossa. Não sendo principiante em
cutucar buracos com pedaços de pau, poderá rapidamente inserir uma
extremidade dentro da outra. Então, de posse de uma única vara
comprida, pode voltar-se e, num relâmpago, alcançar o alimento. Po
29
derá ter ocorrido em tudo isso uma pequena quantidade de condicio
namento operante, e o macaco poderá, num teste futuro, alcançar mais
rapidamente o objetivo. Mas o aspecto marcante da solução que deu
ao problema é o restabelecimento de dois atos que tinham sido pri
meiramente condicionados na presença de estimulação semelhante.
Estes restabelecimentos de respostas previamente condicionadas
foram tratados por Thorndike, alguns anos atrás, como exemplos de
“respostas por analogia”, uma lei básica do comportamento. Enun
ciava a lei simplesmente: “A qualquer situação nova o homem res
ponde como o faria a uma situação semelhante, ou a um elemento
semelhante dela”. Pavlov, pensando exclusivamente no comportamen
to reflexo, e mais em cachorros do que em seres humanos, chegou
independentemente a uma lei similar, que denominava generalização.
Hoje usamos o termo Pavlov e não o de Thorndike, mas o aplicamos
tanto a respondentes como a operantes e reconhecemos, mais do que
qualquer um desses pesquisadores, sua importância teórica.
Um exemplo de generalização do laboratório de Pavlov pode
ajudar aqui. Um cão foi condicionado a salivar ao som de 1.000
ciclos. Quando a resposta já estava bem estabelecida para este tom
(o único usado durante o treino), um certo número de outros tons
foram testados no seu efeito sobre a salivação do cachorro. Sem ex
ceção, eliciaram a resposta, embora num grau menor do que o tom
original. Os estímulos “generalizaram’. Isto é, o cachorro respondeu
a todos eles do mesmo modo, exceto na quantidade de saliva secre-
tada. Os tons que estavam mais próximos da freqüência do estímulo
condicionado produziram, em geral, maior fluxo salivar do que os
tons que estavam mais afastados na escala de freqüência.
Pode-se então dizer que, quando um operante ou um responden
ts foi condicionado em uma dada situação-estímulo, poderá ser evo-
cádo, sem condicionamento posterior, em uma outra situação-estímu
lo. A isto se acrescenta que o poder dos novos estímulos de evocar a
resposta dependerá das características físicas que as situações tiverem
em comum. Indo mais adiante, pode-se dizer que há vários contí
nuos ou escalas, ao longo dos quais os estímulos podem se generali-
30
zar. Tons, por exemplo, generalizarão ao longo da escala de freqüên
cia de vibrações sonoras (tonalidade), de uma escala de energia
(altura) e possivelmente de outras escalas. Um contínuo comparável
existe na visão, no tato e nos outros sentidos.
Na vida diária, exemplos de generalização são tão comuns que
passam despercebidos. São talvez mais óbvios nas crianças, nas quais
às vezes são divertidos. Os pais sorriem quando a criança diz “au-au”
à vista de um cavalo, de uma vaca, ou de qualquer outro quadrúpe
de; ou podem rir quando ouvirem uma criança dizer que a gasosa
“tem um gosto de quando o meu pé está dormindo”. Podem deixar
de perceber que o mesmo princípio está envolvido quando as respos
tas são muito mais comuns e menos dramáticas. Podem não ver que
a “galinha” de uma criança diante de uma codorna é, essencialmente,
o mesmo que o “passarinho” de outra. O fato é este: uma criança
ou um adulto, que foram condicionados a responder de uma certa
maneira a uma dada situação, responderão ainda da mesma maneira
quando cada um dos elementos da situação tiver sido alterado ao
longo de um ou mais contínuos básicos, ou mesmo quando alguns ele
mentos da situação original não estiverem presentes.
Há um outro aspecto deste quadro, que deve ser indicado bre
vemente aqui, para preparar a discussão da próxima seção. A gene
ralização pode ocorrer tanto durante a extinção quanto durante o con
dicionamento. Um exemplo de estudo de extinção respondente mos
trará como isso acontece. Suponha que a resposta galvânica da pele
(mudança da resistência elétrica da pele) foi condicionada a um estí
mulo vibratório em cada um dos quatrô pontos seguintes do corpo de
uma pessoa — a barriga da perna, a coxa, o lado e o ombro. Agora,
suponha que, depois, a extinção seja parcialmente conseguida em um
dos quatro lugares, por exemplo, estimulando a barriga da perna só
com ò vibrador, até que a reação condicionada da pele tenha sido
grandemente reduzida. Se, neste estágio do experimento, você testar
*
o efeito do vibrador nos outros três lugares, verificará que, em cada

um deles, a resposta também ficou enfraquecida, com o menor efeito
na maior distância da barriga da perna. Posteriormente, é claro, ne-
31
(
nhnm dos lugares produzirá efeito algum e se poderá então dizer que
a “generalização da extinção” já está completa.
12. Discriminação
Já se deve ter tornado claro que os operantes, tanto quanto os

respondentes, ficam ligados a estímulos bem cedo ná vida dos indiví
duos. Talvez o leitor possa mesmo ter perguntando se não fica ligado
a estímudos demais. Se a generalização opera da maneira aqui des
crita, não iria uma pessoa passar a vida toda respondendo da mesma
maneira a todos os estímulos visuais, e de outra a todos os estímulos
auditivos, e assim por diante? Não iriam todos os estímulos visuais
generalizar-se até certo ponto uns com os outros? E isto não seria
igualmente verdade para todos os outros sentidos?
Sabemos, é claro, que isto não acontece. A pergunta é tola. No
entanto, como ocorre que pessoas façam distinções entre as coisas
como o fazem? Por que é que somos capazes de distinguir, não só
entre cães e outros quadrúpedes, mas entre várias raças de cães? E
por que os criadores de cães são capazes de ver muito mais diferen
ças do que nós podemos?
Perguntas como estas podem ser respondidas simplesmente enun
ciando o princípio da discriminação. Conexões entre estímulos e res
postas que se efetuaram por generalização podem ser separadamente
rompidas. Ou, para dizer de outro modo, o reforçamento poderá
ainda ser mantido para a conexão original, enquanto que se permitirá
que todas as conexões derivadas sofram extinção. No fim, a resposta
será exclusivamente, ou quase que exclusivamente, apresentada ao es
tímulo original; e, correspondentemente, os estímulos generalizados fi
carão sem efeito.
Lembre-se da criança que, ao pressionar a barra, produzia cho
colate. Quando esta resposta fosse bem condicionada, a criança teria,
indubitavelmente, continuado a responder à barra a despeito de gran
des modificações na situação-estímulo. Mudanças sensíveis na ilumi
32
nação da sala, no fundo visual da barra e da vasilha, ou na aparência
da própria barra não perturbariam apreciavelmente o seu comporta
mento. Isto é, haveria uma considerável generalização de estímulos.
Mas, se o pressionar a barra fosse reforçado somente com grande
iluminação, somente quando o fundo visual fosse de um certo padrão,
ou somente quando a barra fosse de um certo tamanho, cor ou lumi
nosidade ter-se-ia então formado uma discriminação: a resposta ter-
-se-ia extinguido em todas as situações, exceto num conjunto muito
restrito de condições de estímulos.
O caso respondente é similar. O cão, no laboratório de Pavlov,
condicionado a salivar na presença de um som de 1.000 ciclos, sali
vará também a sons de outras freqüências, devido à generalização.
Mas se estes outros sons forem apresentados repetidamente, sem se
rem acompanhados de alimento, e se o reforço continuar acompa
nhando o som de 1.000 ciclos, chegará o momento em que não mais
eliciarão a salivação, embora o som de 1.000 ciclos continue a eliciá-la.
Isto é um relato super-simplificado do processo de discriminação,
e objeções já devem ter ocorrido ao leitor. Por exemplo, e a genera
lização da extinção mencionada na última seção? No caso do cão de
Pavlov, por que é que o não-reforço, associado a sons que não o de
1.000 ciclos, não enfraquece a resposta ao próprio som de 1.000
ciclos? A resposta é que, de fato, isso acontece, mas o som de
1.000 ciclos não perde tanto o poder de eliciar quanto os outros.
Cada reforço associado com o som de 1.000 ciclos compensa de longe
a perda devida à generalização. Além disso, o aumento em poder para
excitar a resposta dos tons generalizados (através do reforçamento do
som de 1.000 ciclos) é mais do que anulado pelo efeito direto da
extinção sobre estes tons. Gradualmente, por pequenas adições e sub
trações, as duas condições de estimulação se separam uma da outra e
a discriminação se estabelece.
Este processo foi demonstrado repetidas vezes com animais, e
com menor freqüência com seres humanos, especialmente com adultos.
Uma razão importante para explicar porque isso ocorre é a de que a
maioria dos seres humanos, antes de chegar ao laboratório, já traz
33
consigo uma história complicada da função discriminativa. Não é
sempre que se pode começar do início e romper uma generalização.
Os estímulos discriminativos da vida diária, em geral, já se adianta
ram aos nossos procedimentos experimentais. Alguma melhoria pode
ser possível; poder-se-á talvez provocar um ligeiro aumento na per
centagem das respostas que serão reforçadas. Raramente se tem a
possibilidade de limitar suficientemente a amplitude dos valores do
estímulo que produzirão uma dada resposta.
Pode-se, naturalmente, testar ainda a capacidade final do sujeito
em discriminar. Pode-se determinar, por exemplo, qual a menor dife
rença que pode existir entre dois estímulos antes que a probabilidade
da resposta correta seja menor que 50 por cento. Esta é, há muitos
anos, a preocupação de um ramo da psicologia denominado psicofí-
sica, que tem como sua principal esfera de atividades o estudo da
sensitividade a diferenças entre estímulos no ser humano adulto. Oca
sionalmente tem preocupado também aqueles que estudam o compor
tamento de animais e de crianças — às vezes com resultados sur
preendentes. Em um experimento hoje famoso, Pavlov treinou um
cão a discriminar visualmente entre um círculo e uma elipse. Passo
a passo, ele aproximou a elipse da forma do círculo. Por fim, a dis
criminação se desfez, como seria de se esperar. Com as continuadas
exigências feitas, o cão terminou “neurótico”, até o ponto de ser ne
cessário removê-lo da situação experimental e dar-lhe um longo des
canso, para proteger sua saúde. Em outro experimento russo, uma
criança de seis anos foi compelida a distinguir sucessivamente entre
batidas do metrônomo de 144 batidas por minuto e batidas de 92,
108, 120 e 132 por minuto. Não houve nenhuma dificuldade em dis
criminar entre 144 e 92 ou 108 batidas tyor minuto; a distinção se
fez facilmente, em umas poucas tentativas. Mas as dificuldades co
meçaram quando o de 144 foi comparado com o de 120 batidas por
minuto; e, quando foi tentada a discriminação entre 144 e 132 bati
das por minuto, a criança tornou-se seriamente perturbada, exibindo
rudeza, desobediência, excitamento e comportamento agressivo, bem
como sonolência na situação experimental.
34
Há muito mais coisas que poderiam ser aqui incluídas a respeito
da discriminação. Livros inteiros foram escritos sobre este tópico, em
geral com o título de “sensação” ou “percepção”. De um ponto de
vista científico, este tópico está provavelmente mais adiantado do que
qualquer outro tópico em psicologia. No momento, contudo, o nosso
principal objetivo é compreender a “aprendizagem”, e o leitor pode
ver agora que a discriminação desempenha um papel bastante impor
tante nesta história. Milhares, talvez centenas de milhares de discri
minações devem ser feitas por cada um de nós para enfrentar as exi
gências do mundo exterior. O comportamento operante, para o qual,
no início, não se pode encontrar um estímulo eliciador, mais tarde
passa a ser quase que completamente controlado pelos estímulos. E
isto se verifica apenas porque se dão reforços na presença de um es
tímulo e se retiram reforços na presença de outro.
Talvez o leitor lembre que, na seção 3, sobre Condicionamento
Respondente, e outra vez na seção 4, sobre Condicionamento Operan
te, foi apresentado um diagrama simples, com o fim de tornar esses
princípios mais claros. Vejamos agora que espécie de quadro se po
deria usar para representar a discriminação. O leitor já sabe anteci
padamente, é claro, que nada de muito novo será incluído. Vimos
que a generalização é meramente uma espécie de bônus derivado do
condicionamento, e a discriminação (a quebra de uma generalização)
é, em grande parte, uma questão de extinção.
Quando se toma o caso da discriminação respondente, enfrenta
mos dificuldades logo de início. Porque qualquer condicionamento
respondente requer certo grau de discriminação. Por exemplo, o pri
meiro efeito do pareamento de um som de 1.000 ciclos com alimento,
para um cão preso em arreios na câmara experimental, é condicionar
a salivação ao som mais a estimulação dos próprios arreios e mais o
que possa ver, ouvir e cheirar dentro da sala. Não se reforça, entre
tanto, na presença de todos estes estímulos, a meno\s que o som esteja
presente. Assim, a resposta é extinta na ausência do som, mas apa
rece quando o som for parte do composto — e isto é discriminação.
Mais tarde, naturalmente, pode-se ir mais além. Será possível refor-
35
çar um som e extinguir outros, da maneira já descrita. O diagrama
que pode indicar esta outra etapa terá a seguinte aparência:
sA
Neste caso, SD (lê-se esse-de) representa o estímulo (por exem

plo, o som de 1.000 ciclos) que foi selecionado entre os outros sons
para ser reforçado. SA (lê-se esse-delta) representa os sons que não
são seguidos de alimentos e que perdem, portanto, as conexões com
a resposta.
Do mesmo modo, pode-se representar uma discriminação ope-
rante da seguinte maneira:
sA
so-------------------— -----r--------
sA
No diagrama, o SD indica o estímulo ao qual o operante foi
associado e os SA indicam os estímulos generalizados que perderam o
poder de evocar a resposta. Por isso, não têm nenhuma conexão com
o R do diagrama.
(Ao se falar destes dois casos, a palavra “indício” é freqüente
mente usada como um sinônimo de SD ou “estímulo discriminativo”,
especialmente quando se trata de operantes. Seria econômico ter uma
outra abreviação para usar com os respondents, para indicar quando
os estímulos condicionados já foram discriminados, mas até agora ne
nhuma foi apresentada.)
Ainda um outro ponto. O procedimento de discriminação acima
mencionado (reforçamento sob SD e extinção sob 54) é, às vezes,
considerado como um caso especial de esquema de reforça, denomi
nado esquema múltiplo. Pode-se mostrar uma discriminação não so
mente pela resposta na presença de um estímulo e não-resposta na
36
presença de outro, mas também pelo padrão diferente de freqüência
de resposta sob duas (ou mais) condições de estímulo. O estímulo
A, por exemplo, pode ser apresentado sob um esquema de reforço de
intervalo fixo; o estímulo B pode ser apresentado sob razão fixa; e o
estímulo C pode ser apresentado sob razão variável. Depois de algum
tempo, o organismo responderá, em cada condição diferente de estí
mulo, com o padrão de respostas apropriado ao determinado esque
ma de reforço presente naquele momento.
13. Diferenciação (Modelagem)
Ao tratar dos princípios do condicionamento operante e respon

dente, da extinção e da discriminação, discutimos, em certo sentido,
diversas espécies de aprendizagem. A extinção, quando considerada
em si mesma, poderia parecer mais uma questão de desaprender, mas
viu-se que é vital en discriminações, as quais ninguém hesitaria em
denominar de aprendizagem, e de uma espécie muito importante. Se
voltarmos agora aos exemplos que ficaram na primeira página deste
trabalho, descobriremos que grande parte do território que nos dis
pusemos a explorar já foi coberta. Mas também que ainda não o ex
ploramos todo. A seção que agora iniciamos aumentará considera
velmente nossa habilidade de lidar com os exemplos que ainda faltam
e as seções que seguem a aumentarão ainda mais.
A palavra diferenciação não é muito boa para nosso presente
propósito, pois é freqüentemente usada como se significasse discrimi
nação. Habilidade talvez fosse uma palavra melhor, se não incluísse
coisas demais, abrangendo tanto a diferenciação como a discrimina
ção. Modelagem do comportamento é o termo (o termo mais ade
quado para isto seria mudança) usado mais comumente, mas ele tam
bém encerra problemas, quando às vezes é usado para significar uma
mudança no controle de estímulo de alguma resposta. Assim, vamos
preferir o termo diferenciação e tentar fazer com que o seu sentido
fique tão claro que não seja confundido com nenhuma outra coisa.
37
Comecemos outra vez com um exemplo. Imagine-se um labora
tório no qual a principal peça de equipamento seja uma destas má
quinas de parque de diversões, cujo funcionamento consiste em puxar
e soltar a mola que impulsiona uma bolinha de aço, que vai sendo
desviada no seu trajeto sobre um plano inclinado por uma série de
pinos, até que emboque em uma das diversas cavidades que indicam
a contagem obtida. Este aparelho, entretanto, é um aparelho especial.
Um biombo oculta do operador o curso da bola e o impede de ver
o quanto puxa a mola antes de soltá-la. Outro anteparo o impede
de ver dois “quimó;*rafos” nos quais são registradas (1) a freqüên
cia com que puxa a mola e (2) a distância de cada puxão. Nem
pode ver a escala de 15 divisões que fica paralela ao cabo da mola e
que permite outras tantas 15 conexões elétricas, que controlam o apa
recimento de uma luz vermelha através de uma janela na extremidade
do aparelho. (Cada intervalo dessa escala está separado do seguinte
por 2,8 milímetros e pode ser disposto de modo a que um puxão na
mola até um ponto entre qualquer par das divisões da escala — por
exemplo, entre os pontos 2 e 5 ou entre 10 e 13 — ocasione o apa
recimento da luz vermelha quando a bola chegar ao fim do trajeto).
A única coisa que o operador, um aluno de college, vai saber é que
estará participando em um “estudo das habilidades não-visuais” e
que ele verá uma luz vermelha piscar na pequena janela sempre que
sua resposta for correta.
A primeira tarefa do sujeito, depois de receber instruções, será
a de puxar a mola durante 5 minutos. Ser-lhe-á dito que use para
puxar a mola uma força e uma freqüência que lhe pareçam naturais
e confortáveis. Cumprindo estas instruções responderá, por exemplo,
com uma freqüência de vinte e dois puxões por minuto, isto é, pouco
mais de uma vez cada três segundos. A distância média de cada
puxão (nossa medida da força da sua resposta) será, aproximadamen
te, de 32 milímetros, mas alguns puxões serão maiores e outros me
nores. Em outras palavras, haverá um certo grau de variabilidade
na resposta, mesmo trabalhando com uma freqüência e uma força
ótimas.
38
Quando este nível tiver sido determinado, diremos ao sujeito que
a luz agora passará a funcionar e disporemos os interruptores de
modo que só puxões que levem a posições entre 2 e 5 da escala pro
duzam o aparecimento da luz vermelha. Isto lhe dá uma amplitude
de 8,4 milímetros, dentro da qual as respostas serão corretas. Deixa
remos que o sujeito trabalhe até que tenha assegurado vinte reforços,
o que conseguirá facilmente em trinta e um puxões. Então, sem que
tenha conhecimento, mudamos a disposição do interruptor de 2-5 para
10-13. A amplitude é exatamente a mesma que antes, mas colocada
mais acima ao longo da escala. Exigirá cerca de 179 puxões, mais
de cinco vezes do que na primeira vez, para obter os vinte reforços.
Assim, parece que o domínio da primeira disposição atrapalha o do
mínio da segunda. Entretanto, com repetidas mudanças de 2-5 para
10-13, o sujeito melhora a rapidez com que se reajusta. O não-re-
forço, depois de uma série de reforçamentos, passa a ser sinal para
tentar algo diferente.
No estágio seguinte de nosso experimento, o sujeito começa a
responder com o interruptor disposto entre 2-6. Depois da obtenção
de vinte reforços, mudamos a colocação, sem o seu conhecimento,
para 3-6, diminuindo a amplitude de 2,8 milímetros. Desempenha
tão bem nesta nova disposição quanto antes e assim, outra vez, mu
damos a exigência, agora para 4-6. Quando a luz tiver acendido vinte
vezes, mudamos outra vez para 5-6. O número de respostas exigidas
para obter vinte reforços na disposição 3-6 foi de 32, o número exi
gido em 4-6 foi 47, e o número em 5-6 foi 93. Isto é, o número de
respostas aumenta à medida que a amplitude do movimento se torna
cada vez mais restringida.
Finalmente, o sujeito coloca-se em novas sessões na disposição
2-5, sob diferentes esquemas de reforço: (1) regular, em que cada
uma das respostas será reforçada se satisfizer corretamente o requisito
da distância; e (2) intermitente, no qual (nosso caso) não obterá re
forços até que tenha emitido 10 respostas corretas. Depois de cada
sessão, suspende-se completamente o reforçamento e se conta o nú
mero de respostas dadas antes que o sujeito mude para um novo
39
nível de força. Resultado: o sujeito muda mais facilmente depois de
um período de reforçamento regular, como seria de se esperar, do
que depois de um período de reforçamento intermitente — na reali
dade, com uma facilidade quatro vezes maior.
O que foi narrado é apenas uma pequena parte de um experi
mento efetivamente conduzido com quatorze sujeitos e vários outros
procedimentos adicionais, mas a amostra já é suficiente para iniciar
mos nossa discussão. Alguns dos principais aspectos da diferencia
ção já podem ser nitidamente percebidos. Há, por exemplo, uma
variabilidade inicial da resposta, sem a qual não poderia ocorrer ne
nhuma diferenciação. Isto ficou patente nos cinco minutos prelimina
res de puxões “naturais”, mas ocorreu também no começo da sessão
de teste do sujeito na disposição do interruptor 2-5. A variabilidade
apareceu principalmente na distância em que a mola era puxada e
ocorreu também em relação à freqüência, e poderia ter ocorrido em
relação à duração de cada puxão se isto tivesse sido medido. Pode
ríamos mesmo ter descoberto diferenças na forma ou “topografia” da
resposta — na maneira com que o sujeito segurava o cabo da mola
em puxões sucessivos — mas isto teria sido muito difícil de medir.
Em segundo lugar, há um reforçamento seletivo da resposta.
Quando a luz vermelha acompanha apenas as respostas de amplitude
de força entre os pontos 2-5 ou 10-13 da escala, em vez dos 1-15
original, o sujeito logo se ajusta com êxito. A amplitude da força
que emprega diminui abruptamente e, quando o experimentador mo
difica as “regras do jogo”, o sujeito é capaz de mudar facilmente de
uma amplitude para outra. Se a amplitude se tornja pequena demais,
há uma queda na acuidade (e se continuarmos mais além, poderá de-
senvolver-se um comportamento “neurótico”), e a rapidez da mu
dança dependerá tanto do número de mudanças já feitas, como do
esquema de reforço — mas ninguém pode duvidar que o comporta
mento está sendo modelado pela presença ou ausência da luz que
acompanha cada resposta. Puxões da mola que não produzem luz
diminuem de freqüência; os que a produzem tornam-se mais nume
rosos .
40
Em terceiro lugar, quando o experimentador reduz a amplitude
das respostas bem sucedidas de uma faixa ampla para uma estreita,
através de pequenos passos de 2-6 para um de 5-6, ele ilustra a im
portância das aproximações sucessivas no processo de modelagem. Se
tivesse passado abruptamente de uma faixa ampla para uma estreita,
da “fácil” para a “difícil”, ele teria aumentado consideravelmente os
erros e o tempo necessários para os seus sujeitos resolverem seus
problemas. Reforçando seletivamente pequenos progressos na direção
correta, reduz as chances de insucesso e alcança seu objetivo sem
atraso desnecessário.
Através das aproximações e no nível mais simples, ratos de la
boratório podem ser ensinados a erguer grandes pesos, andar sobre
as patas traseiras, mostrar um tempo de reação curto, e assim por
diante; crianças podem ser treinadas com maior eficiência a escrever,
falar, e a desempenhar muitas outras funções básicas, até mesmo a
exercer “autocontrole”; e peritos em cada campo de arte e de habili
dade podem ser levados ao máximo da perfeição. Em cada caso, o
professor segue a mesma regra: começa com variabilidade no com
portamento do seu aluno, reforça mudanças em uma direção e as
extingue em outra, assegura o máximo de êxito e o mínimo de insu
cesso com aproximações sucessivas ao comportamento que deseja.
Finalmente, a mudança no comportamento de nosso sujeito não
depende de modificações no seu mundo exterior. Não existem sinais
exteriores que lhe digam quando o reforço é acessível ou não, nem
que força terá de usar para ganhá-lo. Estas ligações poderiam ter
sido estabelecidas, como logo se verá, mas os únicos sinais discrimi-
nativos empregados na diferenciação do tipo mais puro são os que
vêm do próprio movimento, em vez de vir de uma fonte exterior. O
sujeito dirá, depois de ter alguma prática, que pode “sentir” quando
as respostas vão ser bem sucedidas, mas esta “sensação” vem das
contrações de seus próprios músculos quando começam a agir. Não
é um estímulo sobre o qual o experimentador tenha algum controle
direto.
41
O exemplo experimental é um dos muitos que poderiam ter sido
escolhidos. Há abundantes estudos na literatura psicológica sobre
arremessos de bola e de dardos, traçado de linhas, ao lado de outros
estudos de movimento em várias situações práticas. Muitos desses
casos são de diferenciação pura. Há também uma quantidade de ha
bilidades da vida diária que se baseiam no mesmo processo. O gol-
fista que impulsiona a bola com o seu taco, o cestobolista que arre
messa à cesta, o arqueiro, o jogador de malha, de boliche — são só
algumas de nossas atividades que podem ser aperfeiçoadas em situa
ções inalteradas de estímulos. Menos notórias, mas na verdade mais
importantes, são as diferenciações presentes no domínio de habilidades
universais tais como andar, falar, escrever, cantar e danças.
O processo básico, em todos estes casos, pode ser retratado,
embora de maneira não muito correta, assim:
r*
RD--------+ s
R*
Aqui, o R D representa a variante da resposta que conduz ao re-
forçamento, e R A (erre-delta) indica uma variante que não recebe
reforço. O R D e o R á correspondem assim ao SD e SA do nosso dia
grama de discriminação.
O diagrama é inadequado porque, como o que representa o con
dicionamento (página 12), sugere que os estímulos ambientais não
desempenham nenhum papel no ditar de nossas respostas. Leva a
pensar que o pressionar a barra não tem nada a ver com a presença
ou a ausência de uma barra na situação, que o cèstobolista não ne
cessita de uma cesta, ou o arqueiro de um arco. K verdade é que
os processos de diferenciação e de discriminação são concomitantes
desde o início do nosso desenvolvimento comportamental. Em certo
momento, a discriminação pode tomar a dianteira, em outro, a dife
renciação. Quando uma criança quer pegar uma bola, indica que a
bola é um estímulo discriminativo, mas o progresso que revela na
acuidade do pegar, com as repetições, se deve principalmente à dife
renciação. A mudança na resposta ocorre sem dúvida na presença do
sinal, mas não depende de nenhuma modificação nele.
42
Quando chegamos à idade adulta, cada um de nós adquiriu um
número enorme de respostas diferenciadas que podem ser dadas ou
não a um número ainda maior de sinais discriminativos. Além disso,
cada um de nós tem a habilidade de mudar suave e rapidamente de
uma resposta para outra diante de um campo de estímulos sempre
mutável. Observa-se isto de uma maneira bem viva quando se olha
os participantes de esportes como box, tênis ou futebol, nos quais
movimentos com a rapidez de um raio são necessários para acompa
nhar as variações de estímulos produzidos pelos movimentos do opo
nente. Mas se pode observar a mesma coisa, se se atentar para isso,
em praticamente todas as esferas da atividade humana, em interiores
ou ao ar livre, verbais ou não-verbais, no entretenimento ou no tra
balho. O músico que acompanha a partitura, o telegrafista que copia
o código Morse, a estenógrafa que toma um ditado ou datilografa
os símbolos abreviados que escreveu, o operário na linha de monta
gem — nestes exemplos, e em tantos outros, pode ser visto o pro
cesso.
Nenhuma disposição de linhas e letras pode aspirar a represen
tar o rápido intercâmbio de estímulo e resposta que ocorre nos casos
citados, mas o diagrama seguinte pode ser de alguma ajuda no retra
tar a mais simples das combinações de sinais discriminativos e ope
rantes diferenciados.
ra
SD---------------------------- R O ------- * 5
Este diagrama permite avançar pelo menos um pequeno passo

no sentido do nosso projeto de construir um quadro unificado do
que corretamente, em nossa vida diária, tem o nome vago de “apren
dizagem”.
14. Encadeamento
Há setenta e cinco anos atrás, se alguém pedisse a um profes

sor da nova ciência da psicologia que falasse sobre a natureza da
43
“aprendizagem”, ele não teria dito nada sobre condicionamento, ex
tinção, generalização, discriminação, diferenciação ou reforçamento.
Pavlov, que nos deu todos estes termos, estava naquela época exami
nando a atividade digestiva de cães, e ainda faltavam dez anos para
que ganhasse, por estes trabalhos, o Prêmio Nobel. Thorndike só
tinha vinte anos de idade, e pelo menos ainda dois tinham de se pas
sar antes que se engajasse nos estudos com a gaiola-problema que
levariam à sua famosa Lei do Efeito.
Em lugar destes tópicos e desenvolvimento ter-se-ia ouvido o
professor de psicologia discorrer muito sobre a “associação de idéias”
e sobre as “leis” que governam aquelas associações, particularmente
na forma descrita pelos eminentes filósofos ingleses dos séculos XVIII
e XIX. Poder-se-ia também ter ouvido o relato de algum longo e
trabalhoso experimento alemão sobre a “memória” e o “esquecimen
to” — experimentos em que os sujeitos tinham de memorizar séries
de “sílabas sem sentido” (mib, gop, ruz, ved, etc.) em condições
muito especiais. Na melhor das hipóteses, ter-se-ia tratado exclusiva
mente de um relato de assuntos que agora cabem em um só capítulo
do campo da aprendizagem.
O interesse pela “aprendizagem serial”, tanto verbal como não-
-verbal, aumentava no início do século, quando os estudos do com
portamento animal começaram a exibir os labirintos para ratos bran
cos, e quando certos fisiólogos influentes começaram a descrever
“composições sucessivas” de reflexos em animais tão inferiores na es
cala evolutiva como o sapo e a minhoca. Em 1914, John B. Watson,
o fundador do “behaviorismo” primitivo na psicologia norte-ameri-
cana, combinava o que já se conhecia destes desenvolvimentos com
sua interpretação do princípio de Pavlov, para argumentar que a
m
aprendizagem de sílabas sem sentido e do percurso de labirintos nada

mais era do que a formação de “cadeias” de reflexos condicionados.
Hoje, achamos que Watson estava errado em várias de suas
afirmações sobre esta espécie de aprendizagem. Temos certeza, por
exemplo, de que o percorrer corretamente o labirinto e as conexões
silábicas não são exemplos de condicionamento respondente. Concor
44
damos, entretanto, que Watson estava essencialmente certo ao tentar
explicar tais formações de hábitos referindo-se a coisas mais funda
mentais. E vemos, também, que estas coisas fundamentais são dife
renciação, discriminação e generalização, que dependem, por sua vez,
do condicionamento e da extinção.
Formulamos a noção de encadeamento, hoje, enunciando sim
plesmente que uma resposta pode produzir o estímulo para a seguinte.
E reconhecemos, talvez mais do que antes, que é excepcional o caso
em que as respostas não ocorrem em cadeias. Ê raro que uma única
resposta ou conexão estímulo-resposta não conduza a outra ou não
se origine de uma anterior.
O enunciado essencial do que ocorre em um encadeamento pode
ser suficientemente bem delineado dobrando o diagrama discutido na
última seção.
sA gA sA rA
sp-------------------- rd—►sD-------------------- R° —
$A s A. RA
Aqui se vê que um estímulo discriminativo pode evocar uma

resposta diferenciada que, por sua vez, produzirá o estímulo discri
minativo para outra resposta diferenciada que conduz, por sua vez,
ao reforço.
Tomemos como exemplo de encadeamento, não a aprendizagem
de um labirinto ou de uma série de sílabas sem sentido, mas o com
portamento de um rato branco chamado Plínio, da Universidade de
Minnesota! * Plínio nada fez que um coati, um macaco ou uma crian
ça não pudessem fazer melhor, mas o fato de que era um rato, não
tão complicado ou diversificado em suas maneiras como estes outros,
ajudará a esclarecer o que é essencial no processo de encadeamento.
O que Plínio fazia resumia-se nisto. Primeiro, puxava uma cor-
dinha que pendia do teto de sua gaiola. O puxar fazia com que uma
* Uma série de fotografias das realizações deste animal foi publicada na

revista Life de 31 de maio de 1937.
45
bolinha de vidro, colocada numa calha acima, caísse na gaiola. Quan
do a bolinha caía no chão, Plínio apanhava-a com as patas diantei
ras e a carregava pela gaiola até um pequeno tubo que se projetava
verticalmente a cerca de 2,5 cm acima do chão da gaiola. Levantava
então a bolinha até a borda do tubo e deixava-a cair dentro dele, o
que fazia com que uma pelota de alimento fosse automaticamente des
carregada num recipiente acessível. Plínio então se aproximava do
recipiente, apanhava a pelota, comia-a e voltava outra vez a repetir a
seqüência de atos. Desta maneira, Plínio ganhava a vida, dia após dia.
Aqui há, pois, uma cadeia de operantes, cada um induzido pelo
seu próprio sinal específico. (Vê-se com menos freqüência respon-
dentes encadeados, razão pela qual não serão tratados aqui.) Os es
tímulos visuais ou táteis, provindos da cordinha e circunvizinhanças,
provavelmente iniciam a resposta de puxá-la. Puxar o cordel coloca
em ação outros estímulos, evocados pelo aparecimento da bolinha.
Estes constituem o sinal para as respostas de apanhá-la e carregá-la,
que colocam o animal na presença de outro composto de estímulos
visuais, o tubo. As respostas de levantar e deixar cair a bolinha den
tro do tubo produzem, por sua vez, o som do mecanismo do alimen
tador que conduz a aproximação do recipiente e, finalmente, do pró
prio alimento. Com o término do comportamento de comer, toda a
seqüência começa de novo.
Exatamente quantas respostas distintas ocorrem na cadeia aper
feiçoada de Plínio continua a ser uma pergunta, visto que cada res
posta fundia-se quase completamente com a seguinte. É razoavel
mente certo, entretanto, que havia mais no começo do que no fim.
Por exemplo, o animal teve dificuldades consideráveis, de~ início, em
deixar a bolinha de vidro cair depois de tê-la levantado até a borda
do tubo; erguê-la era claramente uma resposta, largá-la outra e era-
-lhe difícil coordenar os dois movimentos adequadamente. Seu com
portamento assemelhava-se ao das crianças que estão aprendendo a
arremessar uma bola: ou soltam muito depressa ou seguram tempo
demais. Entretanto, mais adiante no treinamento, a coordenação de
Plínio estava tão boa e os elementos tão entrelaçados, que já não se
46
podia distinguir onde acabava uma resposta e começava a outra.
Como acontece em muitas ações humanas, especialmente na lingua
gem, as unidades originais, bem distintas de início, agrupam-se em
unidades maiores, reduzindo perceptivelmente o número de elos na
cadeia.
Também é difícil especificar os sinais que estiveram em ação no
controle do comportamento de Plínio na cadeia final. É bastante
provável que o número tenha diminuído com a prática — e que Plínio
tenha, no fim, respondido a meros fragmentos dos compostos iniciais.
Outros experimentos indicam que esta redução pode ocorrer. Mas,
na ausência de verificações especiais, não temos meios de dizer que
elemento da situação estimuladora, em qualquer estágio da seqüên
cia, foi o que desencadeou a resposta.
O encadeamento de Plínio, ao contrário dos que ocorrem na
maioria dos estudos humanos, requereu um longo treino de diferen
ciação para vários elos. As respostas empregadas em carregar, levan
tar e deixar cair a bolinha de vidro, embora modeladas em parte na
experiência anterior em manipular o alimento, tiveram que receber
ainda muita atenção. O treinador do rato tinha de vigiar cuidadosa
mente, e reforçar seletivamente, todas as pequenas mudanças na res
posta que indicavam uma melhoria. Como em todas as diferenciações
delicadas, tinha de evitar passar muito rapidamente de um estágio para
o seguinte, observando que os progressos se fizessem de maneira cons
tante e que não houvesse ocasião de ocorrer extinção quando uma
nova exigência fosse introduzida. Se as diferençiações já tivessem sido
formadas — se as habilidades básicas estivessem bem estabelecidas —,
não teria havido maior problema com o encadeamento em si, para o
animal. Cada ato discreto teria sido facümente adicionado aos outros,
da mesma maneira que os seres humanos combinam palavras velhas
e bem diferenciadas ao memorizar um poema. Antes que tais dife
renciações sejam feitas, entretanto, pode-se comparar Plínio a uma
pessoa que, não familiarizada com a língua chinesa, tenha de reagir a
uma sucessão de caracteres escritos nesta língua, pronunciando cada
um corretamente no momento em que ocorre!
47
Através dos anos, muitas questões foram propostas sobre a apren
dizagem serial. A maioria delas foram questões acerca do domínio
de séries de sílabas sem sentido. Perguntou-se, por exemplo, como a
velocidade dessa aprendizagem se relaciona com o número de itens
da lista que deve ser aprendida. Ou sobre o tipo de itens da lista —
por exemplo, o seu grau de semelhança com palavras reais ou partes
de palavras. Ou ao lugar dos itens na lista, isto é,'se uma parte da
lista é aprendida mais depressa do que outra. Ou ao domínio anterior
de outras listas, tendo o mesmo conteúdo ou conteúdo diferente. Estes
são alguns dos problemas formulados. Cada um deles foi submetido a
muita investigação, discussão e teorização. Mas só muito recentemen
te a sugestão de John Watson foi seriamente seguida e se fez a ten
tativa de relacioná-los com os princípios básicos de condicionamento,
extinção, discriminação, etc. Estas tentativas foram, no geral, bastante
fecundas e pode valer a pena examinar alguns exemplos.
Tomemos o assunto do número de itens da lista que deve ser
memorizada. Os experimentos com sílabas sem sentido indicam que
um número notável pode ser agrupado. Em uma investigação chegou-
-se ao domínio de 300, e o limite ainda está provavelmente longe de
ser alcançado! Parece, entretanto, que o tempo que tem de ser gasto
com cada sílaba aumenta apreciavelmente à medida que o número de
sílabas sobe. Pode levar um minuto e meio, em média, para se me
morizar 12 sílabas, mas requerer 195 minutos a memorização de 300
sílabas, que são apenas 25 vezes 12 sílabas. ]
/
Um fator importante, responsável pelo aumento da dificuldade,

pode ser a similaridade das sílabas escolhidas. Quando se aprende a
recitar uma lista como jid, fap, tev, wof, pes, yut, zoy, e assim por
diante, cada sílaba pronunciada fornece grande parte do sinal para a
pronunciação da seguinte. Mais cedo ou mais tarde, à medida que o
número de sílabas aumenta, começam a desaparecer as diferenças
entre os sinais. Cada nova sílaba assemelha-se com uma ou mais das
outras já incluídas na lista. Isto quer dizer, generalizam-se umas com
as outras. Isto pode acontecer mesmo quando o sujeito agrupa as
sílabas em conjuntos maiores com fap-tev ou wof-pes, ou quando su
48
plementa de algum modo as sílabas, fazendo com que wof-pes vire
algo como wolf-pest.
A generalização pode também desempenhar um papel na explica
ção das dificuldades que temos em dominar uma longa série de núme
ros. Só se dispõe de 10 algarismos, de 0 a 9, para construir tais
séries e, se não fosse pelos agrupamentos comuns, como 1492, 5280,
31416, e 1776, bem como vários outros mais pessoais (números de
telefone, de chapas de automóvel, etc.), teríamos muito mais dificul
dades com eles do que com as sílabas sem sentido. O agrupar pode
auxiliar por algum tempo, mas com o tempo esgotam-se as diferenças
entre os grupos. Finalmente, chega uma hora em que nenhurii acrés
cimo pode ser feito sem que haja uma perda correspondente. Até
chegarmos àquele diretor de faculdade, que era também ictiólogo, e
se queixava de que cada vez que memorizava o nome de um aluno
esquecia o nome de um peixe!
Pesquisas com animais contam uma história parecida sobre a
generalização como o fator que limita o estabelecimento de encadea-
mentos. Experimentos sobre aprendizagem de labirinto, usando ratos
brancos, mostram que o domínio do trajeto correto da entrada até a
saída depente, principalmente, dos sinais encontrados nas curvas su
cessivas, onde o animal deve escolher entre dois ou mais trajetos. As
diferenças entre estes sinais podem ser reduzidas de algumas maneiras.
Órgãos dos sentidos de importância crítica (por exemplo, os olhos)
podem ser cirurgicamente eliminados; ou cada unidade do aparelho
pode ser construída tão idêntica às demais quanto for possível. Em
qualquer dos casos, o resultado é o mesmo. A rapidez com que o
animal aprende diminui, e também é inferior o seu nível final de
desempenho.
Um caso especial, em que a quantidade de generalização é ex
trema, é o do labirinto “temporal”. Neste artefato, treinam-se os ratos
a passar pelo mesmo ponto de escolha em ocasiões sucessivas; se
forem, por exemplo, quatro, virando duas vezes à esquerda e depois
duas vezes à direita. A mudança de viradas à esquerda para viradas
à direita na terceira escolha é a fonte das maiores dificuldades. Não
49
há mudanças externas que digam quando virar à direita em vez de à
esquerda, e há tão pouca diferença nas maneiras de responder na
primeira e na segunda volta que o animal não pode identificar facil
mente sinais vindos de seu próprio comportamento, o que poderia
acontecer se se lhe permitisse emitir quatro respostas distintas em
cada volta pelo ponto de escolha. É uma discriminação tão delicada
que poucos ratos conseguem desenvolver com êxito a seqüência es-
querda-esquerda-direita-direita.
O que foi descrito é apenas uma introdução ao problema do en
cadeamento. Um relato mais amplo teria de incluir uma exposição
dos famosos “experimentos de associação”, algumas vezes usados na
detecção de mentiras e na psicoterapia, e nos quais se pede ao sujeito,
que responda uma palavra com outra tão depressa quanto puder.
Ter-se-ia de tratar com a questão dos encadeamentos ou elos de ca
deias que não podem ser observados, que são encobertos, e que figu
ram proeminentemente na análise do “pensamento”, do “significado”
e da “percepção”. Abrangeria a discussão de dúzias de conceitos e
resultados de experimentos, e incluiria muitos pontos altamente dis
cutíveis. Proveria o leitor de um grande conjunto de dados e poderia
até levá-lo a descobrir novos métodos de investigação e a planejar
novas pesquisas neste campo. Mas nem todas estas questões podem
ser abordadas aqui. Para os propósitos presentes, será suficiente que
o leitor tenha entendido claramente os princípios básicos e visto como
se relacionam com os que já foram discutidos antes neste livro. Ver-
-se-á em um momento que se relacionam também com a secção se
guinte.
15. Reforço condicionado positivo
Alguns estímulos são naturalmente reforçadores quer de modo

positivo, quer negativo. O alimento, para um organismo faminto,
tem uma espécie de “capacidade inata” de reforçar o comportamento.
Da mesma forma, a bebida, sob condições de sede. Igualmente, o
50
choque elétrico e outras formas de estimulação intensa têm, desde o
início, a propriedade de reprimir o comportamento (ou de reforçar o
comportamento que as remove). De todos estes se diz que são re-
forçadores primários.
De outro lado, é bastante claro que estes estímulos constituem
apenas uma pequena parte do conjunto das coisas que reforçam. De
fato, só muito raramente observam-se condicionamentos, especialmente
ao nível humano, em que bebida ou choque elétrico desempenham
algum papel. Com muito mais freqüência, aparentemente, as respos
tas são reforçadas ou enfraquecidas pela aprovação ou desaprovação
de outras pessoas, por promessas ou ameaças, por “Certo!” ou “Erra
do!”. E estes são eventos que devem ter adquirido o seu poder re
forçador. Nós os chamamos de reforços secundários ou, algumas
vezes, reforços condicionados.
O modo pelo qual os reforços secundários adquirem seu poder
foi sugerido por Pavlov nos primeiros anos deste século. Observou
que, quando um reflexo condicionado estiver bem estabelecido em
um cão, poderá ser então usado como base de um segundo condicio
namento. Assim, se a batida de um metrônomo tornou-se um estí
mulo condicionado para a resposta salivar, poderá então ser associa
do a outro estímulo “neutro”, por exemplo, um retângulo negro, para
formar um reflexo condicionado de “segunda ordem”. Isto é, a ba
tida do metrônomo sozinha servia como estímulo reforçador para um
novo condicionamento, e o faria por causa da sua associação prévia
com o estímulo incondicionado primário, o alimento. Pavlov contu
do não levou muito longe o conceito de reforço condicionado. Só nos
últimos anos é que começamos a reconhecer a sua importância tre
menda e a compreender como o comportamento operante passa a ser
por ele controlado.
Vamos examinar a maneira pela qual isto ocorre — como o re
forçamento condicionado está relacionado com a discriminação, como
auxilia a formar os encadeamentos, e o significado que tem para o
comportamento humano quotidiano. E, como a psicologia, da mesma
maneira que a biologia, tem uma atitude democrática em relação às
51
diferenças entre as espécies, por que não começar com uma amostra
do comportamento dos chimpanzés?
Nosso sujeito é um macho de cerca de seis anos. Seu nome é
Moos, e vive em uma pequena colônia de macacos em uma estação
de pesquisas com antropóides, onde já há mais de dois anos tem par
ticipado de experimentos psicológicos. No experimento a que nos
referimos, há outros cinco animais, todos mais jovens e menos tra-
quejados. Moos e os outros já passaram por vários estágios de trei
namento. Em primeiro lugar, Moos aprendeu a inserir fichas na
fresta de uma destas máquinas de vender coisas que há nos Estados
Unidos. As fichas eram brancas e a inserção de uma ficha seguia-se
imediatamente ao aparecimento de um bago de uva no recipiente da
máquina de vender. Por causa de sua história anterior de sujeito ex
perimental, Moos aprendeu isso facilmente — bastou que o experi-
mentador demonstrasse uma vez o processo. Logo depois, Moss apa
nhou uma ficha do chão e, meio sem jeito, inseriu-a na fresta. Mais
algumas tentativas e sua habilidade aumentou consideravelmente. Isto
é, sua resposta diferenciou-se na direção de um movimento rápido,
suave e sem esforço para obtenção da recompensa. Em segundo lur
gar, ele e seus companheiros foram treinados a discriminar entre
fichas brancas e amarelas. No treinamento, apresentavam-se-lhe as
duas espécies de fichas em pares sobre uma bandeja que ele podia al
cançar de dentro de sua jaula. Se apanhava uma ficha branca (SD)
para usar na máquina de vender, obtinha uma uva; mas se) escolhesse
uma amarela (SA) e as colocava na fresta, não aparecia uva alguma.
Moos resolveu o problema em quatro sessões de 20 escolhas cada
uma, durante as quais fez um total de 10 erros, isto é, 10 respostas
em SA.
Por esta altura, uma nova peça de equipamento foi colocada na
jaula de Moos: uma máquina de trabalho. Suas características prin
cipais eram (1) uma barra e (2) um reservatório de fichas. O mover
um dos extremos da barra para cima, descrevendo um arco de 90
graus, fazia com que as fichas viessem a ficar ao alcance do opera
dor. Com a máquina em posição e com Moos atento, o experimentador
52
coloca uma ficha branca conspicuamcnte no reservatório e afasta-se.
O chimpanzé aproxima-se da máquina e começa a sacudi-la e agitá-la
repetida e vigorosamente, até que o experimentador o interrompe por
um breve período. Depois da pausa, Moos volta à máquina, desta
vez empurrando e puxando a barra. Não se passa muito tempo antes
que consiga descrever um arco de 90 graus, depois do que pega a
ficha do reservatório e usa-a imediatamente para conseguir uma uva
na máquina de vender. Em seguida, rapidamente retoma a resposta
de puxar a barra, obtendo fichas (e uvas) sem nenhuma dificuldade.
Dois aspectos deste experimento são especialmente dignos de nota.
Primeiro, formou-se, no segundo estágio do experimento, uma nítida
discriminação em que o SD era uma ficha branca e o Sá uma ficha
amarela. Na presença da primeira, a resposta manipuladora de Moos
produzia uma uva; na presença da segunda, não. Em segundo lugar,
a ficha branca tornou-se um reforçador secundário que, sozinho, foi
capaz de fortalecer a resposta de puxar a barra (mesmo quando,
como se demonstrou em um estágio posterior deste experimento, as
fichas não podiam ser trocadas por uvas senão depois de um certo
tempo). Assim, parece que um estímulo discriminativo para uma
resposta pode ser o reforçador condicionado de outra.
Experimentos essencialmente análogos ao de Moos foram con
duzidos também com ratos, gatos, cachorros e crianças, para não citar
com pintinhos, e o resultado foi sempre o mesmo. Ê hoje quase certo
que, se um estímulo deve tornar-se um reforçador condicionado, é
necessário que, antes, se torne um estímulo discriminativo. Não é
bastante dizer que um estímulo que esteve meramente presente em
todas as ocasiões em que a resposta foi reforçada tornar-se-á ele
próprio reforçador; o estímulo deve também ter estado ausente todas
as vezes em que a resposta não foi reforçada.
Talvez se possa ver agora, melhor do que antes, como se for
mam os encadeamentos. Na seção 14, observou-se que um encadea
mento não é mais do que uma fileira de relações SD ------------ R á,
mas não se fez nenhuma menção direta ao papel desempenhado pelo
reforçamento. Agora deve ter ficado claro que o sinal discriminativo
53
para uma resposta que obtém reforço primário torna-se reforçador
para a resposta que produz este sinal. Em outras palavras, cada SD
na cadeia torna-se um reforçador secundário para a resposta que o
produz.
Isto significa que, em certo sentido, os encadeamentos são esta
belecidos de trás para diante — que o primeiro elo é o último a ser
adicionado ao encadeamento. Recordemos o comportamento de Plí
nio, o rato. O primeiro elo da cadeia, puxar o cordel, não poderia
ter sido fortalecido antes que a bolinha de vidro tivesse se tornado
recompensadora; manipular a bolinha de vidro, carregá-la e levantá-
-la não poderia ter sido fortalecido a menos que o tubo tivesse, de
algum modo, se tornado também reforçador; deixar cair a bolinha
não poderia ter sido fortalecido sem o som do alimentador; e, final
mente, o comportamento de aproximar-se do recipiente de alimento
dependia da presença do reforçador primário, o alimento.
O reforçamento condicionado explica também o porquê de as
primeiras respostas da série tornarem-se fortes quando o reforçamen
to primário, final, fica tão distante no tempo. Ou, para dizê-lo de
outra maneira, explica porque o reforço primário pode ser “retarda
do”. Na verdade, o período de atraso possível de um reforçador pri
mário é provavelmente muito curto, questão de segundos. Se parece
ser mais longo, é porque o encadeamento de respostas, cada uma com
o seu reforço condicionado imediato, preenche a lacuna.
Neste ponto, se tomarmos Sr como símbolo do reformo condicio
nado, e SR como símbolo do reforço primário, o diagrama final que
servirá para representar este estado de coisas é o seguinte:
sá RA S* rA
S D ------------------ RD — p sro---------------- . R D — t SR
SA R* SA
Temos aqui, comoprimeiro elo do encadeamento, um estímulo

discriminativo que dálugar a uma resposta diferenciada. Esta é acom
panhada de um reforçador condicionado que é, ao mesmo tempo, o
54
estímulo discriminativo para a resposta diferenciada seguinte no en
cadeamento; e esta última conduz, finalmente, ao reforçador primá
rio. O primeiro SD seria, naturalmente, um Sr para qualquer elo adi
cional que se quisesse somar aos elos já ligados.
A influência tremenda do reforço condicionado sobre o compor
tamento humano pode ser observada mais conspicuamente no caso
daqueles estímulos ou dos compostos de estímulos que foram comu-
mente acompanhados, sem que houvesse distância muito grande do
reforço primário. Os mais interessantes, talvez, são os compostos
providos pelo comportamento de outra pessoa. Por exemplo, desde
o nascimento até a morte, o comportamento “atento” dos outros é
comumente a preliminar de reforçadores primários tais como alimen
to, bebida, e alívio do desconforto. A atenção torna-se, portanto, para
a maioria de nós, uma importante recompensa secundária, e pode ser
a reforçadora de toda uma série de atividades — desde o simples
“Olha, papai!” da primeira infância até o recital de achaques e de
dores que freqüentemente acompanha a velhice.
A aprovação, na forma de um sorriso, de um aceno de cabeça,
de um “Sim” ou equivalentes (diferentes pessoas revelam aprovação
de maneiras diferentes), é um outro aspecto do comportamento que
é, quase sempre, o antecessor de coisas mais básicas. Embora não
seja um reforçador condicionado tão óbvio como a atenção, ainda
assim figura proeminentemente na maioria de nossos contatos sociais.
A “busca de aprovação”, quando extrema, não é muito bem vista em
nossa sociedade, possivelmente ainda mais que o procurar “chamar a
atenção”, mas há poucos de nós que não tenhamos sido recompensa
dos uma vez ou outra pela “boa vontade” dos outros.
O comportamento afetivo (beijos, carícias, abraços, etc.) da par
te de outros é também um freqüente reforçador para a maioria de
nós, presumivelmente porque relaciona-se com várias espécies de re
forço primário, incluindo o sexual e o “maternal”. As características
de estímulo deste comportamento, como as da aprovação, revelam
muita variação entre indivíduos e grupos, e pode ser difícil distinguir
o seu padrão do da coqueteria, ou mesmo do da submissão (ver abai
55
xo). Os “sinais de afeição”, isto é, o próprio comportamento afetivo
também não são exatamente os mesmos de pessoa a pessoa.
Muitas pessoas em nossa sociedade são reforçadas pelo “ceder”
dos outros, por fazer as coisas “a seu modo”. Esta submissão ou
comportamento submisso é ainda mais difícil de identificar como
um padrão especial do que o padrão de estímulos da afeição ou da
aprovação, mas qualquer um pode lembrar-se de muitos exemplos. “De
pois do senhor!”, “Posso lhe ser útil, senhora?”, “Pode ficar com o
meu pirulito, Joãozinho.”, “Por aqui, senhor, tenho uma mesa reser
vada para o senhor!”, “Você pode ficar de centro-avante”, “Não foi
nada, não doeu muito”. Todas estas expressões derivam seu poder
reforçador do fato de elas, ou respostas como elas, terem algumas
vezes sinalizado recompensas mais concretas, ou a remoção de obs
táculos do caminho que leva a elas. Encorajam o desenvolvimento
de um estilo de vida dominante, de auto-afirmação, “masculino” .por
parte das pessoas a quem se dirige.
As pessoas dominantes, por sua vez, comumente concedem fa
vores àqueles que lhes dão prioridade. Aquele que se afasta para o
outro passar pode, pelo menos, receber um agradecimento ou ser en
corajado a acompanhar; o caixeiro será elogiado pela sua delicadeza;
Pedrinho terá uma chance de dar uma volta no velocípede do João
zinho; o “maitre” receberá uma boa gorgeta; Beltrano deixará que
Sicrano jogue na meia; e o homem cujo pé foi pisado receberá pal-
madinhas no ombro. Tudo isso encoraja a adoção de^um modo de
reagir diferente, subserviente ou “feminino”, e pode atíé resultar no
cortejar a dominância dos outros. Infelizmente, a pessoa cujos refor
ços consistem principalmente nas “sobras” pode também se tornar
presa da ansiedade e do medo.
Atenção, aprovação, afeição, submissão e dominação podem ser
difíceis de identificar como estímulos para o nosso comportamento,
mas há uma espécie de reforçadores condicionados que não oferece
tantas dificuldades. É a classe das “recompensas simbólicas”, um
exemplo das quais foi discutido páginas atrás, na forma da ficha bran*
ca de Moos. O dinheiro é naturalmente o principal espécime dessas
56
recompensas. Ê difícil superestimar o seu poder reforçador em nossa
sociedade. Mas existem outros, algo menos negociáveis, que são fá
ceis de destacar. Abrangem desde as estrelinhas douradas, boletins,
prêmios, bolsas de estudo, menções honrosas e diplomas, até as lin
das taças, medalhas, citações, condecorações e notícias nos jornais
sobre as nossas realizações. Não são, em geral, ocasiões para o re
forço primário imediato, mas nos levam pela estrada que a isso con
duz! Não são estas as únicas espécies de reforço “generalizado”*
que poderiam ser mencionadas aqui; nem foram tratadas tão porme
norizadamente quanto se poderia desejar. Se, contudo, ao fazer um
retrospecto desta seção, o leitor concordar que deu um passo adiante
na compreensão da conduta humana, isto terá sido bastante. Se pu
der ver que o reforço condicionado se baseia no estabelecimento de
uma discriminação, e que a ficha branca de Moos não dista muito
do valor de recompensa do “dinheiro, força, idade, títulos, hierarquia
e posições” (p. 6) nos negócios humanos, não há necessidade de
acrescentar mais nada.
16. Reforço condicionado negativo
Cerca de cinqüenta anos atrás, Vladimir Bechterev, um “refle-

xólogo” russo, descrevia um método de condicionamento que era, na
sua opinião, muito superior ao empregado pelo seu rival, Ivan Pavlov.
Podia ser mais facilmente usado com seres humanos e utilizava o
comportamento motor em vez do glandular. Requeria apenas que um
estímulo neutro (tal como um som) fosse associado a um choque
elétrico no pé ou na mão, até que o primeiro produzisse o movimen
to de flexão ou retirada que era a resposta incondicionada ao cho
que. O som, em geral, precedia o choque de um par de segundos,
e o choque não era aplicado se o movimento de retirada ocorresse
dentro desse período.
* “Generalizado” é o termo às vezes aplicado a um reforçador condicio

nado cuja força deriva das associações que mantém com mais de um tipo de
reforçador primário.
57
John Watson adotou esta técnica em 1916 e, desde então, tem
sido muito popular nos laboratórios norte-americanos, tanto em pes
quisas com seres humanos como com animais. Só recentemente, en
tretanto, foi plenamente reconhecido o que ali ocorria. Watson acre
ditava, como Bechterev e Pavlov tinham acreditado antes dele, que o
procedimento era o mesmo que o empregado no condicionamento da
resposta salivar no cão. Pois não era a associação de um estímulo
neutro com um estímulo incondicionado? O estímulo neutro não pas
sava a eliciar a resposta. Segundo todas as aparências, a resposta é
Sim, mas havia algumas considerações perturbadoras.
Uma delas eram as comunicações que regularmente vinham de
vários laboratórios empenhados em investigações com animais de que
as respostas de flexão ao estímulo condicionado eram bem diferentes
das respostas ao estímulo incondicionado, o choque, exceto por um
breve período no início do condicionamento. Embora as respostas
fossem reconhecidamente semelhantes, as respostas ao choque eram
geralmente descritas.como parecidas com reflexos (respondentes), en
quanto que as dadas ao som pareciam comportamentos voluntários
(operantes). As primeiras eram um movimento rápido e convulsivo,
acarretando uma ampla ação muscular; as últimas, suaves, delibera
das e de uma forma bastante específica de resposta.
*
Um segundo fato perturbador era o seguinte. Se o procedimen

to empregado fosse o estritamente pavloviano, isto é, se o estímulo
neutro fosse regularmente acompanhado pelo choque, excetò nas ses
sões de verificação, seria difícil demonstrar nitidamente a existência
de condicionamento. Só quando a resposta ao estímulo condicionado
era bem sucedida em evitar ou esquivar o choque que deveria vir é
que se desenvolvia uma resposta motora específica diferente de um
tipo de comportamento difuso e convulsivo.
Os resultados com seres humanos em estudos de retirada da
mão, do pé, de um dedo também eram intrigantes. Crianças subnor
mals no laboratório de Bechterev eram mais facilmente condiciona
das que crianças normais, meninas eram mais facilmente condicio
nadas que meninos, e crianças mais jovens mais facilmente que crian
58
ças mais velhas; um choque forte erà mais eficiente que um choque
fraco. Os resultados referentes à intensidade do choque foram con
firmados nos laboratórios norteramericanos com sujeitos adultos, mas
alguns sujeitos, mesmo com choque intenso não se condicionaram de
maneira alguma. Comumente, os resultados com animais foram con
firmados. O responder difuso foi substituído por reações altamente
específicas à medida que o condicionamento prosseguia; a resposta
condicionada era evocada menos rapidamente do que a incondicio-
nada e o condicionamento era melhor sempre que era possível esqui
var o choque. Além disso, os resultados com seres humanos eram
notoriamente dependentes do tipo de instruções que recebiam e da
experiência anterior dos sujeitos em situações semelhantes.
A chave para a maioria desses problemas se encontra no que
pode ser chamado, meio esdruxulamente, “reforço condicionado ne
gativo”. O leitor estará lembrado da distinção, feita na seção 5, entre
reforçamento positivo e negativo. Os reforçadores positivos foram
definidos como sendo “todos aqueles estímulos que, quando apresetu
tados, agem no sentido de fortalecer o comportamento que os prece
de”. Reforçadores negativos foram definidos como os estímulos cuja
remoção é fortalecedora ou cuja apresentação é enfraquecedora. De
pois, na seção 15 aparece a distinção entre reforçadores primários e
condicionados. Mas todos os reforçadores condicionados descritos fo
ram do tipo positivo. Eram estímulos que, através de uma associa
ção especial com os reforçadores positivos, tornavam-se, eles próprios,
reforçadores. Nenhuma menção foi feita a estímulos que, através de
associação com reforçadores negativos, tivessem assumido uma fun
ção similar.
Esta negligência será agora remediada se se considerar um ou
tro experimento simples com um organismo relativamente simples, o
rato branco de laboratório. Desta vez, o equipamento é uma câmara
com uma divisão no meio e uma porta de ligação. O interior de
uma das divisões está pintado de branco, e tem no chão grades atra
vés das quais é possível aplicar choques elétricos aos pés do sujeito.
A outra divisão é pintada de preto, tem o chão de madeira, e é quase
59
à prova de luz. No teto de cada divisão há um alçapão que permite
colocar ou retirar o animal da câmara. Uma das paredes da divisão
branca é de vidro, o que permite ao experimentador observar o animal.
O procedimento no primeiro dia do experimento é simplesmente
colocar o animal na divisão branca, ligar uma corrente elétrica na
grade do chão, deixando que receba choque até que salte através da
cortina preta da portinhola para a divisão preta. Como se poderia
esperar, o rato resolve rapidamente este problema, em questão de
segundos. Daí por diante o experimentador, depois de ter dado ao
rato alguns minutos de descanso, experimenta outra vez. E outra vez,
até que se tenha acumulado 60 corridas da divisão branca para a
preta. A esta altura, ninguém vai discutir a afirmação de que o cho
que é um reforçador negativo — e que o correr para a divisão preta
foi reforçado pela remoção do choque. Ninguém duvida também que
o choque é um estímulo eliciador para a atividade “emocional”. E
pode-se também concluir que a divisão branca, no decorrer destas
tentativas, tornou-se um estímulo condicionado para esta atividade.
A primeira verificação destas afirmações se faz no dia seguinte.
Mais uma vez o sujeito é colocado na divisão branca. As condições
são as mesmas do dia anterior, exceto pelo fato de (a) a grade do
chão já não estar eletrificada, (b) a portinhola entre as divisões estar
fechada e trancada. Em quinze minutos de observação torna-se óbvio
que a divisão branca atua de jato como um estímulo emocional con
dicionado. Observam-se no comportamento do rato todos os sinais
clássicos de medo: micção, defecação, tremores e respiração acelera
da. Mesmo depois de um Quarto de hora de confinamento na divi
são branca, quando já se pode ver alguma melhoria, o animal con
tinua ainda agachado e trêmulo, obviamente desgraçado.
A segunda verificação é feita no dia seguinte. As condições são
as mesmas do dia anterior, isto é, o choque foi removido da divisão
branca mas a porta de passagem para a divisão preta é destravada e
permanece aberta atrás da cortina. O rato pode agora correr para a
divisão preta e nela permanecer durante mais ou menos um minuto,
depois do qual é retirado e recolocado na divisão branca, onde tem
60
outra chance de fugir. Isto é repetido sessenta vezes ou até que o
animal não abandone mais a divisão branca. Resultado: no fim do
dia, ele estará ainda atravessando a porta com apreciável velocidade
embora não tão rapidamente quanto a princípio. A divisão branca,
apesar de não mais apresentar choque, é ainda alguma coisa da qual
deve fugir. A sua “remoção” é recompensadora. Devido à associa
ção inicial entre a divisão branca e um reforço negativo, o choque,
ela tornou-se um reforçador negativo, ou melhor, um reforço nega
tivo condicionado.
Outros pontos deveriam ser destacados em relação a este expe
rimento. Um ponto é que se o animal fosse confinado na divisão
branca por um período muito longo, no segundo dia ele não tentaria
deixá-la, exceto para algumas explorações no terceiro dia. Ocorre
ria a extinção da resposta emocional ao estímulo divisão branca (ver
seção 10). Esta divisão teria perdido seu poder de reforço negativo
condicionado, de modo que sua remoção deixaria de ser recompensa
dora. O rato não fugiria simplesmente porque nada havia de que
afastar-se.
Um segundo ponto é que, se fizer com que o rato dê mais de
sessenta corridas no terceiro dia, sua velocidade de correr terá dimi
nuído e, por fim, caído para zero. O recolocar repetidamente o ani
mal no terceiro dia na divisão branca terá o mesmo efeito que uma
prolongada exposição no segundo. Não que o comportamento ope
rante de correr se tenha extinguido; ao invés disto, sua causa é que
foi eliminada à medida que a divisão branca vai perdendo sua força
como reforçador negativo ou estímulo emocional condicionado.
Um terceiro ponto é o seguinte. Poder-se-ia ter demonstrado o
reforçamento “negativo” condicionado quase tão facilmente se não se
tivesse permitido que o rato escapasse do choque no primeiro dia de
treino. Teria sido possível aplicar sessenta choques breves enquanto
estivesse confinado à divisão branca e, no terceiro dia, teria sido pos
sível ensiná-lo a correr através da portinhola. O reforço, como antes,
teria sido a remoção da divisão em que recebeu choques.
61
Um outro ponto ainda. Poderíamos ter condicionado o rato a
remover qualquer outra coisa que não a divisão branca. Alterando
ligeiramente o aparelho, poderíamos tê-lo condicionado a corrcr dc
uma divisão para outra e, assim, remover um determinado fator es
pecial do estímulo na situação, digamos desligar uma luz forte ou
uma cigarra. Na verdade, poderíamos ter demonstrado que qualquer
espécie de estimulação que não fosse negativa poderia passar a sê-lo
— até mesmo a estimulação oriunda dos próprios movimentos do
animal. Se um choquc fosse apresentado em intervalos de cinco se
gundos, a menos que o animal estivesse apoiado só sobre as patas
traseiras, poderíamos ter logo um animal que passaria a maior parte
do tempo com as patas dianteiras no ar, escapando assim de suas
outras maneiras de se comportar, todas as quais teriam eventual
mente sido punidas pelo choque.
Se recapitularmos agora o caso do condicionamento de retirada
do dedo, mão ou pé, ele aparece sob uma luz diferente. Parece
agora não ser muito mais do que um comportamento de esquiva,
como o exibido pelo rato que escapa de um reforçador condicionado
como um compartimento branco, uma cigarra ou umja das suas pró
prias respostas. Se o cachorro levanta a pata dianteira ao escutar
um som, e assim evita um choque elétrico na pata, seu reforçamento
bem pode ser derivado da eliminação de uma parte do composto de
estímulos que foi associado ao choque. Não se esperaria que este le
vantar operante se assemelhasse à reação respondente ao choque mais
do que esperaríamos que a corrida determinada do rato para o outro
compartimento se assemelhasse com os saltos que dava feito louco,
inicialmente, quando a grade era eletrificada.
Os resultados dos experimentos sobre a retirada do dedo não
são paralelos exatos dos experimentos de esquiva. Pode ser, contudo,
que experimentos com seres humanos incluam uma situação de con
flito que está ausente no caso de organismos como o cão e o rato.
O comportamento de algumas pessoas, incluindo o relato de como se
“sentem”, sugere uma espécie de esquiva competitiva. De um lado,
há a tendência a evitar o choque, o que vem sendo reforçado pela
62
remoção de um som, uma luz, ou outra ameaça qualquer. De outro
lado, há o que se poderia chamar uma esquiva de uma esquiva, que
foi originariamente reforçada porque recebia aprovação social ou eli
minava a desaprovação. Quando um sujeito relata que se sente “en
vergonhado” ou “meio tolo” por tirar o dedo do elétrodo quando
vem o sinal do choque, isto sugere que no passado suas falhas em
“enfrentar” tal estimulação foi seguida por conseqüências piores ain
da; e que, efetivamente, o deixar de retirar o dedo (para esquivar)
deve-se a um contramovimento que esquiva isto! Uma explicação
como esta pelo menos não contraria a descoberta de que as crianças
anormais adquirem a retirada do dedo mais facilmente que as nor
mais; que as meninas mais rapidamente que os meninos; que as crian
ças menores mais facilmente que as mais velhas; que com choque
forte é mais fácil que com fraco, etc.
Já se deu alguma atenção antes (seção 15) ao papel do reforço
positivo condicionado na vida diária do homem, e sua importância
no controle do comportamento já foi salientada. Os reforçadores
condicionados negativos são ainda dramáticos e vitalmente importan
tes. Uma grande porcentagem de nossos atos, tanto normais como
anormais, parecem ter adquirido quase toda sua força da remoção de
estímulos que adquiriram um caráter aversivo. Os mais óbvios são
as respostas que removem sinais exteriores de perigo. Muitos jogos
e a maioria das ocupações requerem certo grau de comportamentos
de esgueirar-se, eximir-se, furtar-se e esquivar-se em resposta a sinais
do ambiente. De outro modo, como acontece com o cão que deixa
de flexionar a perna ao som, pode vir o desastre.
Há também atividades que demandam escape de sinais providos
pelos nossos próprios movimentos. São importantes nas atividades
em que o equilíbrio e a postura desempenham um papel relevante.
Esquiar, patinar, andar de bicicleta, nadar, mergulhar, fazer acroba
cias, são excelentes exemplos. O ziguezaguear e o cai-não-cai de
quem começa a andar de esquis mostram vividamente a maneira pela
qual os sinais oriundos de um movimento vêm a ser “corrigidos” por
outro. Por fim, os escapes de cair são feitos tão rápida e sutilmente
63
que já não são vistos. Nos arabescos e figurações do ciclista de circo
há muito pouco que lembre as esquivas desajeitadas (ou os tombos
e os arranhões!) do principiante. E para retomar um exemplo ante
rior, nada lembra no passo elástico do andarilho a longa série de
“quase cair” e equilibrar-se que foram os principais ingredientes de
sua “aprendizagem de andar”.
Um aspecto mais sério deste assunto pode ser,aqui rapidamente
mencionado para encerrar esta seção. Reforçadores negativos, primá
rios e condicionados, constituem a maior parte do que chamamos
“punição” (Seção 10). No caso do primário, há efetivamente “feri
mento” corporal, como quando uma criança é espancada, leva palma-'
das ou é fisicamente forçada à submissão. No caso do condiciona
mento, pode ser na forma de um insulto, caçoadas, ironias ou amea
ças, entre outras coisas. Em ambos os casos," contudo, uma resposta
emocional fica condicionada de maneira pavloviana e a situação torna-
-se negativamente reforçadora. A fuga da situação, ou de qualquer
resposta com ela relacionada, torna-se recompensadora.
Um método óbvio de remover estas situações aversivas condicio
nadas é o empregado pelo rato do exemplo anterior, que abandonava
o lugar em que eTa punido tão rapidamente quanto podia. Assim
procedem ocasionalmente os seres humanos. O lugar em que sofre
ram uma perturbação emocional torna-se, para eles, um lugar a que
nunca querem voltar; desenvolvem uma “fobia” em relação a ele e,
através da generalização, a lugares que a ele se assemelhem. Algu
mas vezes, entretanto, mecanismos de defesa menos óbvios são usa
dos para evitar o reaparecimento de sinais ou ameaças de punição.
Uma pessoa pode tornar-se incapaz de “ver” ou “ouvir” aquilo que
seja negativamente reforçador, pode não ser capaz de fazer um mo
vimento que, anteriormente, desempenhou um papel em produzir re
forço negativo; ou pode desenvolver um comportamento que o man
tenha ocupado com estimulações alternativas, elas próprias negativa
mente reforçadoras, mas em menor grau.
Estes e outros modos de fugir das mazelas de nosso mundo atual
são interessantes para o estudioso da aprendizagem bem como para
64
aqueles cuja principal preocupação é com os desajustamentos huma
nos e com sua cura. Os problemas envolvidos não são simples. Nem
de longe tão simples como este apanhado do campo possa ter suge
rido. Mas hoje se pode ver, melhor do que nunca, que necessitarão,
para uma solução completa, de uma ampla compreensão dos princí
pios básicos aos quais o leitor foi introduzido neste trabalho.
17. Pós-escrito
Na seção 1, página 6, foram mencionados alguns exemplos de

aprendizagem, e algumas questões a respeito deles foram levantadas.
Não se ofereceu nenhuma definição do conceito, nem se prometeu
uma. Nem seria uma definição útil agora. Deu-se a entender, entre
tanto, que a “aprendizagem” passou a incluir grande parte do que se
entende hoje pelo nome de “psicologia” e foi prometido que um co
nhecimento dos: princípios gerais tratados nestas páginas permitiria ao
leitor analisar muitos casos de aprendizagem na vida diária, inclusive
os que lá foram citados. Assim sendo, seria bom que o leitor, agora,
relesse a primeira seção, perguntando-se se a promessa foi cumprida,
completamente ou em parte. Se o foi, melhor! Se não, e se o leitor
tiver sido “aplicado”, então este trabalho não esteve à altura de seus
objetivos. Neste caso, o único resultado positivo que ainda pode res
tar é que tenha conseguido despertar o interesse na continuação dos
estudos neste campo, ou no da própria psicologia.
65
Apêndice: curvas acumuladas e registrador acumulado
Como foi ressaltado em vários pontos neste pequeno livro, a

partir da seção 4, o comportamento é medido, primariamente, em
termos de freqüência de ocorrência. Denominamos forte o ato que
ocorre freqüentemente e fraco aquele que ocorre raramente. Uma
criança condicionada a pressionar uma avalanca para obter pequenos
pedaços de doce aumentará rapidamente a freqüência das pressões
quando ocorrerem os primeiros reforçamentos da resposta. Com o
tempo, o doce perde sua atração e a freqüência diminui' gradualmen
te. A princípio, a resposta foi fortalecida e depois tornou-se fraca.
Pode-se considerar este aspecto em termos de razão de respostas
— respostas por segundo, respostas por minuto, ou respostas por
hora. A razão das respostas aumenta, no condicionamento, de quase
zero respostas por minuto até vinte ou trinta. Durante a saciação, à
medida que o doce continua a ser comido, a razão decresce gradual
mente desse valor até chegar a uma parada completa.
Isto está graficamente representado nas figuras 1 e 2 abaixo.
A figura 1 mostra como a freqüência da pressão à barra (o número
de pressões por minuto) pode mudar durante um período de condi
cionamento de três minutos. Nenhuma resposta foi apresentada nos
primeiros trinta segundos mais ou menos, conforme mostra esse grá
fico. As respostas aparecem e, assim que os reforços são apresenta
dos, a freqüência de pressionar rapidamente aumenta até um valor
de cerca de vinte por minuto. (O leitor pode verificar isto estimando
o número de respostas apresentadas entre as duas linhas verticais
ponteadas da figura.) Uma vez que a freqüência aumenta no decor
rer desse registro, a curva mostra uma aceleração positiva.
66
0 1 2 3 0 1 2 3
(minutos) (minutos)
Fig. 1 Fig. 2
Na figura 2 maior número de respostas são representadas. Este

gráfico mostra que cerca de 100 respostas foram emitadas em um pe
ríodo de três minutos, numa razão gradualmente decrescente. Pode-
-se considerar esta curva como um gráfico do consumo de cerca de
100 pedaços de doce por uma criança, durante um período de três
minutos. Uma curva como esta, que mostra um decréscimo da fre
qüência, é negativamente acelerada.
A figura 3 ilustra um tipo especial de curva, uma curva em
linha reta. Este é o tipo de registro obtido quando o doce, ao invés
de ser dado após cada resposta de pressão, é dado de vez em quando
— isto é, intermitentemente. Durante um período de três minutos,
trezentas respostas foram apresentadas, numa razão de 100 respos
tas por minuto. Os pequenos riscos ou marcas ao longo da linha in
dicam quando foram apresentados os reforços — depois de quantas
respostas e de quanto tempo.
0 1 2 3
(minutos)
Fig. 3
67
Seria muito útil ter um aparelho que, automaticamente, produ
zisse curvas de freqüência como estas, no próprio momento em que
as respostas são emitidas. Teríamos economizado o trabalho de
acumular respostas durante as sucessivas unidades de tempo (por
exemplo, cada minuto) e evitado elaborar curvas como as das figu
ras 1, 2 e 3, às vezes muito tempo depois de ter observado o com
portamento. Assim, se o sujeito do experimento (a menina, do exem
plo) construísse seu próprio registro gráfico à medida que se com
portasse, isto economizaria muito trabalho posterior e informaria em
cada momento, durante o experimento, exatamente o que estava ocor
rendo em termos da freqüência da resposta.
Esse aparelho existe! É o registrador acumulado, um dos ins
trumentos modernos mais úteis no estudo experimental do compor
tamento. Produz curvas como aquelas consideradas acima e -muitas
outras. Faz isso por simples adição (acumulação) de respostas e
tempo no registro gráfico (a curva). Exaiídnemos como isto ocorre.
Começa-se com alguma freqüência de resposta que se quer re
gistrar, como nos exemplos mencionados. Suponha que a resposta
seja a de pressionar uma alavanca. Cada vez que a alavanca for su
ficientemente pressionada, ativa o mecanismo que faz com que a pena
percorra verticalmente um degrau mínimo, em direção à parte supe
rior da folha de papel do registro. Se nada mais ocorresse, uma série
dessas respostas formaria uma linha reta no papel, de baixo para
cima, como a linha vertical marcada Respostas nas figuras 1, 2 ou 3.
Mas algo mais ocorre. Quando se aciona o aparelho para re
gistrar a resposta, o papel colocado sob a pena corre muito lenta e
constantemente para a esquerda, em uma velocidade de somente al
guns milímetros por segundo. Se este movimento continuasse por
algum tempo e nenhuma resposta fosse apresentada, a pena desenha
ria uma linha para a direita, tal como a linha horizontal <Jos minutos
em cada uma das três figuras. (Pode-se ver como isto funciona pu
xando lentamente uma folha de papel para a esquerda e mantendo
um lápis numa fosição fixa mais ligeiramente pressionado sobre a
68
superfície do papel.) As respostas, isoladamente, dariam uma linha
vertical; o tempo, isoladamente, uma horizontal.
Quando as respostas são apresentadas no decorrer do tempo, o
registrador acumulado faz curvas como as dos exemplos, ou combi
nações destas curvas. A fim de obter uma descrição pormenorizada
de como isto pode acontecer, suponhamos que já se tenha desenhado
na folha de registro uma linha para Respostas e uma linha para Mi
nutos, como na figura 4. Suponhamos também que se marquem pon
tos em cada linha a intervalos regulares, para mostrar o número de
respostas ou a quantidade de tempo que gastariam. Coloca-se agora
a pena do registrador no ponto zero, onde as duas linhas se encon
tram, e aciona-se o aparelho. Imagine que, com a passagem do tem
po, é possível, para alguns organismos, pressionarem uma alacanva,
obterem um reforço e, automaticamente, registrarem a resposta. Lem-
bre-se que cada resposta elevará a pena no papel na altura de um
pequeno degrau e que cada minuto de tempo será registrado como
uma curta distância horizontal da pena ao deslocar-se para a direita.
Na figura 4, parece que a primeira resposta ocorreu depois de
seis minutos, elevando a pena um degrau acima da linha de base.
Depois de outros três minutos de a pena movimentar-se para a direi
ta, outra resposta ocorreu e a pena moveu-se um outro degrau para
cima. As duas próximas respostas ocorreram aproximadamente no
intervalo de dois minutos e, depois disso, passaram a ocorrer com
constância e com uma freqüência de quase uma resposta por minuto,
até quatorze respostas serem apresentadas. Então, gradualmente, au
mentou cada vez inais o tempo entre as respostas. Finalmente, as
respostas cessaram e a linha do tempo continuou paralela à linha de
base, até o fim do registro. Foi construída a curva de respostas. A
pena pode voltar para a linha de base e um novo registro pode ser
iniciado.
Modificando-se o aspecto de linha quebrada do registro obtido,
enviesando o papel ou colocando-o à distância, pode-se reconhecer
que a “curva” feita é, em alguns aspectos, semelhante àquelas das
figuras 1, 2 e 3. A princípio, há uma ligeira aceleração positiva pa-
69
0 5 10 20 30 40 50
(minutos)
Fig. 4
recida com a que ocorre na figura 1. Segue-se um segmento em linha
reta, como o da figura 3, no qual as respostas aparecem numa fre
qüência constante. E finalmente, uma aceleração negativa, como a
da figura 2. /
Embora a curva da figura 4 tenha sido construída desse modo
especial, para mostrar aceleração positiva e negativa e uma freqüên
cia de respostas constante, os resultados não são muito diversos dos
obtidos em um experimento real. O registro poderia representar, pri
meiro, o condicionamento de uma resposta de pressionar uma ala
vanca em uma criança, com bons pedaços de doce reforçando cada
resposta; a segunda parte poderia representar um período constante
de respostas de comer o doce, depois de a resposta ser condicionada;
e a parte final da curva poderia ser um gráfico do decréscimo de
respostas decorrente da saciação de doce.
Dois outros pontos devem ser esclarecidos antes de encerrar este
assunto de registrador acumulado e de suas operações. Primeiro, a
aparência de linha quebrada da curva de registro acumulado não é,
geralmente, tão óbvia quanto a da figura 4. Quando as unidades das
respostas são muito pequenas e o movimento de tempo muito lento,
é difícil distinguir os degraus; a curva parecerá quase tão lisa quanto
as das três primeiras figuras. (Pode-se, naturalmente, exagerar o efei
to de degrau fazendo que a pena se mova para mais longe em cada
resposta e acelerando o movimento na direção tempo.)
70
Segundo, mesmo nos casos de degraus pequenos e velocidades
baixas, alguns organismos, como pombos, por exemplo, respondem
com alta freqüência e, se nada impedisse a pena, ela ultrapassaria a
parte superior do papel de registro. Por essa razão, os registradores
acumulados estão equipados com um mecanismo de reajuste que faz
a pena voltar automaticamente à linha de base quando alcança uma
determinada altura do papel de registro (quando um certo número de
respostas foi apresentado). O efeito é simüar ao apresentado no
fim do registro da figura 4. Curvas de respostas que se estendem no
tempo, mantendo alta freqüência, podem mostrar muitas voltas e as
censões. (Isto não significa, naturalmente, que se subtraem respostas
do número das já apresentadas; as curvas acumuladas, como o nome
sugere, acumulam respostas — somente adicionam. Se se tivesse no
papel de registro todo o espaço necessário, o registro continuaria até
o fim, sem qualquer necessidade para recomeçar da base.)
71
(
LEITURAS SUGERIDAS
Às pessoas que desejam ampliar esta breve introdução à teoria do reforço e

ao problema da aprendizagem, sugerem-se os seguintes livros, para serem lidos
nesta ordem:
HOLLAND, JAMES G., e B. F. SKINNER The analysis of Behavior. New
York: McGraw-Hill, 1961 (Trad, bras.: A Análise do Comportamento,
São Paulo, E.P.U., 5.a Reimp., 1974).
FERSTER, C. B. e MARY CAROL, PERROT, Behavior Principles, New York:
Appleton-Century-Crofts, 1968.
SKINNER, B. F., Science and Human Behavior. New York: Macmillan, 1953.
MILLENSON, J. R., Principles of Behavioral Analysis. New York: Macmillan,
1967.
Esses livros são de nível de introdução, mas diferem muito no conteúdo e
na forma. O texto de Holland e Skinner é programado, o primeiro desse tipo
publicado em psicologia. É, em certo sentido, uma versão resumida e simplifi
cada do livro de Skinner, Ciência e Comportamento Humano, ao qual é uma
boa introdução. O livro de Ferster e Perrot foi escrito para ser usado em um
curso programado, mas pode ser lidó e com proveito, de maneira convencional.
Foi planejado com a finalidade de “dar ao leitor proficiência na análise da
complexa interação do homem com seu meio natural” e estabelece uma cons
tante relação entre os resultados obtidos em laboratório e os procedimentos da
vida diária. Ciência e Comportamento Humano, escrito para o leigo instruído e
para o estudante universitário, é uma ampla aplicação dos princípios do refor
çamento na análise pormenorizada do comportamento individual e social da
nossa época. O Princípios da Análise do Comportamento de Millenson pro
cura prover “uma introdução rigorosa e orientada por dados à Psicologia” para
o estudante universitário, como conteúdo de curso de um ano com créditos em
ciências naturais.
73

Keller, F. S. - Aprendizagem - Teoria Do Reforço

Enviado por

Dados do documento

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Keller, F. S. - Aprendizagem - Teoria Do Reforço

Enviado por

Direitos autorais:

Formatos disponíveis

Neste livro, o Professor Fred1 .

uma introdução simples e breve l

(Preparada pelo Centro de Catalogação-na-fonte,

Keller, Fred Simmons, 1899-

Índices para o catálogo sistemático:

13a Reimpressão, 2003

Prefácio da Segunda E d iç ã o ..........................................

Quando o Professor Hartley, há quinze anos atrás, pediu-me

£ muito difícil exagerar a importância dos processos de apren­

teoria da aprendizagem como o ponto de partida para compreender o

Os nomes de muito poucas pessoas são mencionadas nas pági­

São muitas as situações em que se usa o verbo aprender em

2. Comportamento operante e respondente

Estamos agora em condições de falar acerca dos princípios. E,

Deveríamos dizer, provavelmente, que no condicionamento são

Ao apresentar o próximo princípio, mais uma vez é apropriado

Daí por diante, com eficiência rapidamente crescente, ela opera o

5. Reforços positivo e negativo

O chocolate não é, obviamente, o único tipo de estímulo refor­

porque eles estão apertados ou cheios de pedrinhas; quando tira o ca­

É comum que os psicólogos sejam consultados sobre como

Um primeiro agente na produção de uma grande resistência à

interrompida somente quando o pombo pára alguns segundos para

Em todos os esquemas de reforço descritos na seção 7, o sujeito

9. Baixa freqüência de resposta: Um exemplo

Os psicólogos tentaram, algumas vezes, controlar a freqüência

Este experimento poderia nos levar a duas direções. Podería­

Se lhe fosse pedido que sugerisse modos de apressar a extinção

Alguns casos de “aprendizagem” não se qualificam nitida­

o efeito do vibrador nos outros três lugares, verificará que, em cada

Já se deve ter tornado claro que os operantes, tanto quanto os

Neste caso, SD (lê-se esse-de) representa o estímulo (por exem­

13. Diferenciação (Modelagem)

Ao tratar dos princípios do condicionamento operante e respon­

Este diagrama permite avançar pelo menos um pequeno passo

Há setenta e cinco anos atrás, se alguém pedisse a um profes­

aprendizagem de sílabas sem sentido e do percurso de labirintos nada

Aqui se vê que um estímulo discriminativo pode evocar uma

* Uma série de fotografias das realizações deste animal foi publicada na

Um fator importante, responsável pelo aumento da dificuldade,

15. Reforço condicionado positivo

Alguns estímulos são naturalmente reforçadores quer de modo

Temos aqui, comoprimeiro elo do encadeamento, um estímulo

16. Reforço condicionado negativo

Cerca de cinqüenta anos atrás, Vladimir Bechterev, um “refle-

* “Generalizado” é o termo às vezes aplicado a um reforçador condicio­

Um segundo fato perturbador era o seguinte. Se o procedimen­

Na seção 1, página 6, foram mencionados alguns exemplos de

Como foi ressaltado em vários pontos neste pequeno livro, a

Na figura 2 maior número de respostas são representadas. Este

Às pessoas que desejam ampliar esta breve introdução à teoria do reforço e

Você também pode gostar

£ muito difícil exagerar a importância dos processos de apren

Os nomes de muito poucas pessoas são mencionadas nas pági

O chocolate não é, obviamente, o único tipo de estímulo refor

porque eles estão apertados ou cheios de pedrinhas; quando tira o ca

Este experimento poderia nos levar a duas direções. Podería

Alguns casos de “aprendizagem” não se qualificam nitida

Neste caso, SD (lê-se esse-de) representa o estímulo (por exem

Ao tratar dos princípios do condicionamento operante e respon

Há setenta e cinco anos atrás, se alguém pedisse a um profes

* “Generalizado” é o termo às vezes aplicado a um reforçador condicio

Um segundo fato perturbador era o seguinte. Se o procedimen