Escolar Documentos
Profissional Documentos
Cultura Documentos
Keller, F. S. - Aprendizagem - Teoria Do Reforço
Keller, F. S. - Aprendizagem - Teoria Do Reforço
TEORIA DO REFORÇO
FICHA CATALOGRÁFICA
APRENDIZAGEM:
TEORIA DO REFORCO
3
Tradução de
Rodolpho Azzi
Lea Zimmerman
Luiz Octávio de Seixas Queiroz
Tradução brasileira da 2.a edição americana:
Learning: reinforcement theory, second edition, 1969,
Copyright © 1954, 1969 by Random House, Inc.
© E.P.U. - Editora Pedagógica e Universitária Ltda., São Paulo, 1974. Todos os direitos reservados.
A reprodução desta obra, no todo ou em parte, por qualquer meio, sem autorização expressa e por
escrito da Editora, sujeitará o infrator, nos termos da lei n° 6.895, de 17-12-1980, à penalidade
prevista nos artigos 184 e 186 do Código Penal, a saber: reclusão de um a quatro anos.
E. P. U. - Telefone (0++11) 3168-6077 - Fax. (0++11) 3078-5803
E-Mail: vendas@epu.com.br Site na Internet: http://www.epu.com.br
Rua Joaquim Floriano, 72 - 6o andar - conjunto 65/68 - 04534-000 São Paulo - SP
Impresso no Brasil Printed in Brazil
ÍNDICE
outra? (
Parece agora que esses temores eram infundados. A apresenta
ção abreviada aparentemente mostrou-se útil em vários níveis de en
sino e para vários tipos de leitores. Nesta revisão, eu tentei ampliar
esse aspecto da utilidade. Novo material foi incluído, especialmente
na área de reforçamento intermitente, e foi anexado um apêndice sobre
registro acumulado que é uma característica importante do estudo do
comportamento operante desde o seu início. As Leituras sugeridas
foram ampliadas e atualizadas.
Milhares de experimentos foram realizados desde 1954 na área
da teoria científica e da prática representadas por este pequeno livro;
entretanto, pequena ou nenhuma atenção será dada aqui a esses es
tudos. Os termos básicos, os conceitos chaves e o esquema amplo
do sistema não foram muito alterados, e eles constituem ainda a prin
cipal preocupação dessa introdução à aprendizagem, do ponto de vista
da teoria do reforço.
F. S. K.
Kalamazoo, Michigan
1
Prefácio
3
ver o esotérico deste ponto de vista — e assim torna possível a um
maior grupo de pessoas compreender, criticar, ampliar e auxiliar a
desenvolver este importante campo de investigação.
Eugene L. Hartley
The City College, New York
4
Agradecimentos
Fred S. Keller
5
1. Introdução
1
7
São perguntas difíceis e não são, de forma alguma, as únicas
que se pode fazer acerca da aprendizagem. E são perguntas que não
podem ser respondidas com uma palavra, nem com uma sentença,
nem mesmo com um livro. Ainda estamos aprendendo a respeito da
aprendizagem e ainda, por algum tempo, não se terá escrito toda a
história.
Enquanto isso, não seria certo concluir que a situação é deses-
peradora. Na verdade, o que ocorre é o contrário, e nunca estivemos
tão esperançosos. Alguns princípios ou leis gerais emergiram recen
temente nos estudos modernos da natureza humana. Estes princípios e
leis não são difíceis de serem entendidos e, se bem compreendidos,
constituem um poderoso instrumento na análise de comportamentos de
todos os tipos. Com este auxílio, será possível focalizar com nitidez
quase todos os casos de aprendizagem que você tenderá a encontrar
na vida diária. Inclusive todos os exemplos de aprendizagem men
cionados acima, por mais complexos que pareçam ser.
8
O comportamento respondente (reflexo) inclui todas as respos
tas dos seres humanos, •e de muitos organismos, que são eliciadas
(“produzidas”) por modificações especiais de estímulos do ambiente.
Manifesta-se sempre que as pupilas dos olhos se contraem ou se dila
tam em resposta a modificações na iluminação do ambiente; sempre
que a boca se enche d’água ao degustar algum petisco; sempre que
uma lufada de ar frio arrepia a pele; sempre que se derramam lágri
mas ao descascar cebolas; sempre que se perde o fôlego ao receber
no rosto um inesperado jato d’água; e em muitas outras maneiras,
algumas das quais serão mencionadas mais tarde.
O comportamento operante (voluntário) abrange uma quantida
de maior da atividade humana — desde o espernear e balbuciar do
bebê de colo até as mais sublimes perfeições das habilidades e do
poder de raciocínio adulto. Inclui todos os movimentos de um orga
nismo dos quais se possa dizer que, em algum momento, têm um efeito
sobre ou jazem algo ao mundo em redor. O comportamento operante
opera sobre o mundo, por assim dizer, quer direta, quer indiretamente.
Quando se apanha um lápis ou quando simplesmente se pede a alguém
que no-lo dê; quando se faz sinal para o ônibus, ou nele se sobe,
quando se fala ao telefone; quando se trauteia uma melodia, ou se
olha no relógio ou se resolve um problema de matemática — em todos
estes, e em milhares de outros atos da vida cotidiana, se está exem
plificando o comportamento operante.
Algumas vezes o efeito do comportamento operante sobre o mun
do exterior é imediato e óbvio, como quando se chuta uma bola, se
abre uma porta ou se escreve uma carta. As modificações do mundo
podem ser então observadas por quem quer que tenha o trabalho de
procurá-las. Em outras ocasiões, no entanto, tal não é o caso. Quan
do se disca um número de telefone e ninguém atende, quando alguém
fala consigo mesmo, em voz alta ou silenciosamente, não é fácil ver
exatamente como o ambiente foi alterado pelo que se fez. Só quando
se observa a história destes comportamentos é que se descobre que,
neste ou naquele momento, alguma forma da resposta em questão
realmente fez com que as coisas acontecessem. OriginariamentQ al
9
guém foi instigado para a ação de discar o número do telefone; e, antes
que alguém comece a falar sozinho, é necessário que a fala tenha tido
algum efeito sobre o comportamento dos outros, ou jamais teria sido
adquirida.
O comportamento respondente, como já foi mencionado, é auto
maticamente eliciado por estímulos especiais. Uma luz forte, proje
tada no olho acostumado ao escuro, produzirá inevitavelmente uma
contração pupilar. O comportamento operante, entretanto, não é
assim tão automático, tão inevitável, nem tão específico com relação,
aos estímulos. Suponhamos que se queira fazer com que uma pessoa
atravesse uma sala, levante a mão acima da cabeça ou que apanhe
um lápis da mesa. Como se faria para eliciar estas respostas? Em-
pregar-se-ia uma ordem, um pedido ou uma súplica? Tentar-se-ia
fazê-la executar o ato, usando força se necessário? Usar-se-iam atra*
tivos ou incentivos especiais? E ter-se-ia a mesma certeza dos resul
tados como quando se projeta luz nos olhos de alguém? E se a pes
soa não entendesse a nossa língua, como então evocar o comporta
mento?
A diferença entre comportamento operante e respondente poderá
ficar mais clara se se pensar em suas origens — nas primeiras oca
siões em que aparecem. Os respondentes, desde o começo, são evo
cados pelos seus próprios estímulos especiais. Comida na boca pro
duz salivação, luz nos olhos faz a pupila contrair-<se, e assim por
diante. Pode-se dizer que a gente só tem que nascer para que estes
estímulos eliciem estas respostas. No caso dos operantes, entretanto,
não há, no começo, nenhum estímulo específico com os quais se possa
evocá-los. Somos compelidos a esperar que apareçam antes que se
possa fazer qualquer coisa com eles. Simplesmente, não sabemos quais
os estímulos específicos que fazem com que a criança faça este ou
aquele determinado movimento com o braço, perna, pé ou mão, ou
com que vocalize pela primeira vez de um determinado modo. É
por esta razão que se fala que o comportamento operante é emitido
(“posto fora” ) em vez de eliciado (“tirado de”). Sabemos natural
mente que os operantes tornam-se ligados a estímulos, como se verá
10
na Seção 12, e como estas ligações se estabelecem, mas, mesmo en
tão, será justificado dizer que os operantes e os respondentes relacio
nam-se com os estímulos de modo diferente.
3. Condicionamento respondente
11
godão outra vez no lugar, a palavra intermitente será outra vez pro
jetada por outro minuto — período de teste — e a salivação será
medida como antes. Resultado: a palavra projetada elicia agora mui
to mais saliva do que antes.
Caso III: Imagine ainda outro sujeito humano numa sala de
laboratório. Desta vez, está usando fones no ouvido e tem elétrodos
presos à mão esquerda, de modo a permitir a aplicação de um cho
que elétrico. Outros elétrodos, presos ao tórax e à perna esquerda,
estão ligados a um cardiógrafo, para prover um registro das batidas
do coração. Quando tudo estiver pronto, um som de altura e tona
lidade moderadas chegará ao ouvido do sujeito durante o período de
um segundo. Seis segundos mais tarde, um choque elétrico estimu
lante será aplicado à sua mão. Esta combinação de som seguido de
choque será repetida onze vezes, em intervalos de um ou dois minu
tos. Lá pelo décimo primeiro pareamento, o batimento cardíaco do
sujeito cairá de quinze a vinte batidas por minuto dentro de um se
gundo mais ou menos depois de ter ouvido o som, e antes que o cho
que seja sentido.
Estes três casos foram tomados de experimentos reais. Cada
um é um exemplo de aprendizagem, do mesmo modo que o de se
chegar a suar ao simples som da broca do dentista ou a corar ao
dizer uma mentira. Todos eles ilustram o mesmo princípio básico,
já conhecido e denominado de “reflexo condicionado”. Este princípio
foi formulado, nos primeiros anos deste século, pelo filósofo russo
Pavlov. Poderá ser enunciado, de modo um pouco simples demais,
como se segue: Se um estímulo neutro for pareado um certo número
de vezes a um estímulo eliciador, este estímulo, previamente neutro,
irá evocar a mesma espécie de resposta. O estímulo neutro, no pri
meiro caso, foi a cigarra; no segundo, a palavra projetada; e no último,
o som. Através da associação com água gelada, comida e choque,
respectivamente, vieram a eliciar, por si só, a queda da temperatura,
o fluxo salivar e a mudança de batimento cardíaco.
Estes condicionamentos ocorreram muito rapidamente; só uns
poucos pareamentos foram necessários em cada caso. Isto não teria
acontecido se certos fatores temporais não tivessem sido observados
e se certas precauções não tivessem sido tomadas. Por exemplo, se
em cada um dos casos o estímulo eliciador tivesse vindo minutos de
pois, em vez de segundos, o condicionamento poderia ter sido muito
lento. Ou, se o estímulo neutro tivesse acompanhado, seguido, em
vez de precedido o estímulo eliciador, poderia não ter ocorrido con
dicionamento algum. Além disso, a velocidade do condicionamento
teria sido também afetada pelo número de distrações presentes, pelo
tipo de instruções dadas aos sujeitos, pela intensidade dos estímulos
empregados, pelas condições fisiológicas do sujeito no momento do
experimento, etc. Vê-se, portanto, que há mais coisas no condicio
namento do que pode ser dito no enunciado de uma sentença.
Nossa definição é inadequada ainda sob outro aspecto. A cigar
ra, a palavra projetada e o som, nos nossos três exemplos, só eram
“neutros” em um sentido relativo — só por que não tinham, ao co
meçar, o mesmo efeito sobre o comportamento que seus associados:
a água gelada, o alimento e o choque elétrico. Cada um deles tinha,
provavelmente, algum efeito sobre o comportamento antes da asso
ciação, alguma influência sutil que podemos mesmo não ser capazes
de observar. Cada um, pode-se dizer, tinha a sua própria resposta
reflexa; cada um era, na realidade, um estímulo eliciador por conta
própria. Examine o seguinte diagrama em que S refere-se ao estí
mulo e R à resposta:
13
Pavlov reconhecia tudo isso. O terceiro reflexo era o seu refle
xo condicionado, e referia-se aos dois reflexos sobre os quais se ba
seava como “incondicionados”. Referia-se, do mesmo modo, a estí
mulos condicionados e incondicionados. O alimento foi denominado
estímulo incondicionado para a salivação do cachorro e o estímulo
(um som), com o qual era associado, tornava-se o estímulo condicio
nado para a mesma resposta. (E deveríamos acrescentar, naturalmen
te, que o som era um estímulo incondicionado para alguma outra
resposta — por exemplo, um sobressalto — antes do condicionamen
to ser iniciado.)
Um outro termo de Pavlov se tornou muito importante na psi
cologia moderna. Ao descrever o efeito do alimento no condicio-
mento de um cachorro a salivar ao som de uma campainha, referiar
-se a ele como “reforçador”. O alimento reforçava a conexão entre
o estímulo neutro e a salivação. É como o efeito da água gelada e
do choque elétrico nos nossos Casos I e III. Hoje, de certo modo,
ampliamos a significação do termo usando “reforçamento” também
como mais ou menos equivalente a “recompensa” ou “punição” do
comportamento operante.
O princípio de Pavlov, como ele o formulara, aplica-se especial
mente à atividade glandular, e ele trabalhava principalmente com as
glândulas salivares. Mas aplica-se igualmente bem à atividade “mus
cular lisa”, ou da espécie envolvida quando a pupila do olho dilata;
ou os vasos sangüíneos se contraem; ou os pêlos da pele se arrepiam.
Todas estas são modificações respondentes ou reflexas. Além destas,
Pavlov achava que sua lei aplicava-se também às atividades “moto
ras” ou “musculares estriadas” — movimentos da cabeça, pernas,
dedos, etc. Hoje, entretanto, adotamos uma visão mais conservadora,
editamos que a lei trata, não de operantes, mas exclusivamente
-espondentes. Um teórico moderno chegou a afirmar que se aplica
principalmente às reações emocionais, dependendo, por isso, do sis
tema nervoso autônomo. Isto pode ou não englobar toda a história,
mas pelo menos o leitor já sabe por que a palavra respondente foi
incluída no título desta seção.
/'
14
4. Condicionamento operante
e animal. Em essência, esta lei enuncia que um ato pode ser alterado
na sua força pelas suas conseqüências. O ato, no nosso exemplo, foi
o de pressionar a maçaneta; o reforçamento deste ato foi observado
no aumento da freqüência de seu aparecimento, e a conseqüência do
ato foi, naturalmente, o pedaço de chocolate que caía na vasilha.
15
Muito conhecidos entre os próprios estudos de Thorndike são
aqueles em que gatos famintos conseguiam acesso a pedacinhos de
alimento sempre que manipulassem o fecho, alavanca, ou dispositivo
apropriado que abria a porta da “gaiola-problema” em que estavam
aprisionados. O progresso dos gatos nesta tarefa foi medido pela
diminuição do tempo que demoravam para escapar e chegar até o
alimento em sucessivas ocasiões de confinamento. Assim, quando o
gato resolvia o problema, o número de segundos que precisava para
operar o mecanismo de escape ia diminuindo gradualmente, até que
seu desempenho se aproximava da perfeição.
Hoje, falamos comumente desta “aprendizagem por efeito” como
condicionamento “instrumental” ou operante e, freqüentemente, me
dimos a sua força em termos da freqüência com que ocorre no tem
po quando o organismo (animal ou humano) é livre para responder
à vontade. No caso da nossa criança, esperaríamos uma resposta de
vez em quando, mesmo na ausência de qualquer recompensa especial.
Mas, quando o chocolate aparecia logo depois do pressionar da ma
çaneta, a probabilidade da resposta ser repetida aumentou rapidamen
te — a freqüência subitamente aumentou. Como a criança continuou
a obter pedaços de chocolate, naturalmente veio a ocorrer saciação e
a freqüência do pressionar a maçaneta diminuiu. Não se cometeria
entretanto nenhum erro ao supor .que, quando voltasse a fome por
chocolate, o comportamento de pressionar a maçaneta reapareceria
rapidamente.
Este condicionamento operante pode ser representado da seguin
te maneira:
R ___ > S
R é a resposta (pressionar a m açaneta);-----> significa “leva a”, e
S é o estímulo reforçador, o chocolate. Não há necessidade de falar,
neste ponto, sobre os estímulos que levariam ou não a pressionar a
maçaneta. Como foi dito antes, eles seriam muito difíceis de identifi
car na primeira vez que a resposta fosse feita, e estaríamos em maus
lençóis se tivéssemos de eliciar ou pressionar. Mais tarde, entretanto,
16
ver-se-á que a R do nosso diagrama se relaciona com estímulos do
meio e examinaremos as condições em que esta relação se estabelece.
17
que enfraquece a resposta que o produz. Suponha-se, por exemplo,
que a criança que mencionamos tivesse recebido, depois de cada
pressão à barra, um choque elétrico em vez de um pedaço de cho
colate; é fácil adivinhar o que teria acontecido. A freqüência do pres
sionar a barra teria sido drasticamente afetada. Cairia bem abaixo
do nível de sua ocorrência incondicionada, isto é, da freqüência com
que ocorreria naturalmente, na ausência de qualquer efeito especial.
Ao menos esta é a conclusão a que se poderia chegar na base do senso
comum e dos estudos com animais em que as respostas operantes
foram seguidas de estimulação intensa. De um modo geral, foi de
monstrado que choques fortes, luzes intensas, sons agudos, etc., efe
tivamente suprimem todo o comportamento que os produz. A supres
são poderá não durar muito, especialmente se o organismo for deixado
na mesma situação depois de ter sido interrompido o reforço nega
tivo, mas não se põe em dúvida a sua existência. (Voltar-se-á a este
problema na seção 10.)
6. Extinção
18
uma mudança no batimento cardíaco foi condicionada a um som de
um segundo de duração. Tudo isso já foi descrito. Entretanto, não
foi mencionado o fato de que, depois de cada experimento, a respos
ta condicionada foi extinguida. No primeiro caso, a cigarra foi toca
da repetidamente, mas a mão não foi mergulhada na água; no se
gundo, a palavra foi várias vezes projetada, mas nenhum alimento a
acompanhou; e, no último caso, uma série de sons foram apresenta
dos, mas não foram seguidos de choque. O resultado em cada um
dos casos foi o mesmo. A força da resposta condicionada declinou,
até que o efeito da associação se perdesse e o estímulo condicionado,
outra vez, se tornasse “neutro”.
Estes são exemplos de extinção respondente, mas a mesma regra
fundamental se mantém para a extinção operante. Se o reforço for
retirado, a resposta voltará, eventualmente, à sua freqüência original
incondicionada (algumas vezes denominada nível operante). Em al
guns experimentos, como no caso da criança que ganhava chocolate
ao pressionar uma barra, a remoção do reforço é causa de conside
rável emoção. Respostas rápidas e excessivamente vigorosas, e mes
mo ataques encolerizados ao dispositivo que apresentava a recompen
sa e que já não funciona, podem alternar-se com períodos de mau
humor e depressão operante. O número de respostas de cada repente
vai decrescendo gradualmente e os períodos de não-resposta vão au
mentando cada vez mais. Finalmente, a força cai a um nível de rea
ção apática ocasional, e a extinção já está quase completa.
A extinção, tanto para operantes como para respondentes, é al
gumas vezes extremamente lenta. Em uns poucos casos, investigado
res relataram que ela absolutamente não ocorre. Isto é um tanto per
turbador. Sugere que alguns dos nossos comportamentos podem du
rar mais tempo do que desejamos — que poderemos, talvez a vida
toda, continuar afligidos por ansiedades, compulsões e obsessões que
não são fáceis de suportar. Teremos de ter sempre medo de cachor
ros? Ou de falar em público? Nunca seremos capazes de deixar de
fumar? Esta melodia ou este pensamento doloroso nunca nos aban
donarão?
19
Provavelmente as coisas não são assim tão ruins. Por exemplo,
o alegado fracasso em obter extinção de uma contração pupilar, de
uma secreção salivar, ou de qualquer outro respondente condiciona
do, pode ter uma explicação diferente. Sabemos que o comporta
mento operante pode, às vezes, produzir efeitos respondentes incon
dicionados. Isto é freqüentemente citado como o controle voluntário
da ação involuntária. Assim, distendendo ççrtos músculos pode-se
prover o estímulo incondicionado para uma mudança na freqüência
do pulso, na constrição de vasos sangüíneos, etc. Pode bem ser que
tal controle operante do comportamento respondente, estabelecido ao
mesmo tempo que o respondente, tenha sido condicionado e se possa
manter mesmo depois que o estímulo condicionado para o responden
te tenha perdido todo o efeito. Em outras palavras, antes de termos
certeza de que o respondente não se extinguirá, devemos estar certos
de que o nosso sujeito não tenha descoberto, sem o sabermos e sem
ele mesmo saber, seu próprio operante especial para produzir o mes
mo efeito em uma base incondicionada — isto é, produzindo em si
mesmo a estimulação que irá eliciar a mesma mudança respondente.
Também os operantes condicionados podem resistir à extinção,
às vezes em um grau fantástico, de modo que, segundo todas as apa
rências, podem ser inextinguíveis. Experimentos com animais retratam
isso mais vivamente. Por exemplo, um pombo pode ser condicionado
a bicar um pequeno disco ou chave na parede de uma câmara expe
rimental. Quando, após um longo treino, começa a extinção, o pombo
poderá bicar 7.500 vezes durante a primeira hora, sem qualquer sinal
de parar. Nas duas horas seguintes poderá emitir aproximadamente
o mesmo número de respostas, e a extinção estará ainda longe de se
completar. Observando o pombo, poder-se-á dizer que está incuravel-
mente viciado em bicar o disco; e poder-se-á ficar admirado de como
não pára de pura exaustão. Posteriormente, é claro, não mais res
ponderá, mesmo quando já estiver descansado e outra vez faminto do
alimento que o bicar produzia. Mas um observador impaciente facil
mente teria concluído e manteria a opinião de que o hábito era in
quebrável.
20
7. Reforçamento intermitente
21
ê
22
nos que o organismo possa perceber a diferença entre as duas condi
ções, a freqüência do responder continuará a mesma de antes. Se
esta conclusão for admitida, deve-se pensar que o comportamento
operante está mais ligado do que foi sugerido antes nestas páginas
com os estímulos ambientais. Este é um ponto importante e ao qual
voltaremos em seções mais adiante.
8. Comportamento supersticioso
23
te os grãos. A resposta parece ter sido “colhida” pelo reforçamento
que ocorreu depois da sua primeira emissão. Antes que tivesse tempo
de se extinguir, um outro reforço foi dado; e assim uma completa
“superstição” foi estabelecida, não diferente do comportamento de um
jogador que fala com suas fichas ou dá voltas ao redor da mesa para
mudar' a sorte.
Para que os resultados sejam como estes, o reforçamento não-
-contingente deve ser freqüente no princípio. Quando isto não se ve
rifica, a resposta acidentalmente reforçada será suficientemente extin
ta para ser substituída por outra que, por sua vez, pode ser substituí
da por uma outra, destruindo deste modo o efeito ritualístico. O
comportamento supersticioso desenvolver-se-á, entretanto, rapidamen
te quando se começa com reforçamento pouco espaçado. Esse inter
valo pode ser gradualmente aumentado, sem causar uma modificação
no comportamento, quando este já estiver firmemente estabelecido.
No caso do tempo entre os reforçamentos ser sempre o mesmo, de-
senvolver-se-á uma discriminação de tempo, como no caso da res
posta de bicar sob um esquema de intervalo fixo. Ainda assim, a res
posta supersticiosa pode ser difícil de ser eliminada. Um pombo pulou
de um lugar para outro mais de 10.000 vezes antes de alcançar um
ponto próximo da extinção.
24
moedas e um cronômetro. Ele acabou de instruir o menino para
“pronunciar palavras” ao microfone, na velocidade que quisesse, po-
dendo repetir a mesma palavra se quisesse, evitando sentenças ou
outras seqüências significativas. A estas instruções, o experimentador
acrescentou: “De vez em quando, quando você estiver fazendo isso,
eu depositarei uma moeda na xícara. Quando o experimento termi-
minar, todas as moedas que obtiver serão suas. Tudo o que tem a
fazer é pronunciar palavras”.
Depois de alguma hesitação as palavras começaram a aparecer:
microfone, árvore, grama, mesa, jantar, papel de parede... nomes
de objetos na sala ou fora dela, e palavras de referência mais pessoal.
Uma das palavras, jloresy é tomada ao acaso pelo experimentador
como a ocasião para dar a moeda. Imediatamente é repetida, e no
vamente reforçada, até cinco moedas terem sido distribuídas em rápida
sucessão. A resposta do menino é condicionada; pode então ser ten
tado o controle da freqüência. De agora em diante, jlores será refor
çada somente quando for pronunciada dez segundos ou mais depois
da última vez que foi enunciada.
A palavra sofre, a princípio, alguma extinção, sua força dimi
nui e é pronunciada com menos segurança, até deixar de ser enun
ciada. Então, depois de uma série de outras palavras terem sido
emitidas, reaparece; e como já se haviam passado os dez segundos, é
novamente reforçada. Depois de alguns minutos de treino, desenvol
ve-se uma discriminação de tempo e a maioria das respostas flores é
reforçada. (Se uma ocorre antes, naturalmente, o experimentador sim
plesmente recoloca seu cronômetro no zero e passa a exigir um atra
so de mais dez segundos para que a próxima resposta seja bem su
cedida. )
Um dos resultados desse pequeno estudo pode surpreender. Entre
cada apresentação da palavra flores, o menino não permanecia ca
lado, como poderia ter feito. Ao contrário, preenchia o período de
dez segundos com outras palavras, e estas palavras ocorriam comple
tamente ao acaso. À medida que a prática continuava, desenvolvia-se
uma seqüência suficientemente regular dessas palavras — um tipo de
25
“encadeamento supersticioso”. Imediatamente depois de receber uma
moeda, essas palavras eram previsíveis mas, quando se aproximava o
momento do próximo reforçamento, as mesmas palavras sempre apa
reciam na ordem: navio, mar, bonito, vermelho, flores. Parece que
temos aqui um outro caso de reforçamento não-contingente, desde
que só a última resposta na cadeia era exigida para obter a recom
pensa.
Mas, há mais do que isso. O menino, neste experimento, apre
sentou uma excelente “discriminação de tempo”. Raramente respon
dia, depois do reforçamento, em menos de dez segundos, e raramente
ultrapassava mais do que dois ou três segundos. E, no entanto,
ele não tinha nenhuma idéia de que o experimento envolvia tempo!
Ele “pensava” que tinha de aprender uma série de respostas e, quan
do o experimento terminou, desculpou-se por não ter sido bem suce
dido, dizendo: “Sinto muito, mas eu não pude dizer todas as pala
vras que você queria que eu dissesse”. Tais resultados colocam ques
tões interessantes relativas à parte desempenhada pelo nosso próprio
comportamento quando estamos discriminando “tempo”. O encadea
mento supersticioso de respostas atrapalhou ou auxiliou na contagem
inconsciente de tempo? Mas, geralmente, quando discriminamos o
tempo sem um relógio, a que respondemos?
%
26
10. Extinção e reforço negativo
27
rante, como o pressionar a baira, é diminuir a sua freqüência de ocor
rência. Isto é verdade se o estímulo for aplicado durante o reforça-
mento positivo regular, durante o reforçamento positivo intermitente,
durante a extinção ou antes que tenha ocorrido qualquer condiciona
mento de operante. Além disso, dentro de certos limites, quanto mais
forte for a punição, maior será o efeito sobre a freqüência operante.
Em segundo lugar, se o animal punido for deixado na mesma
situação de punição por um período de tempo suficientemente longo
em qualquer uma daquelas condições, mas sem o choque ou outro
agente punitivo, recobrar-se-á dos efeitos. A recuperação será apa
rentemente mais rápida se a resposta punida continuar a receber re
forço positivo, quer regular quer intermitente, do que se estiver sob
extinção ou em uma situação aparentemente “neutra”. Em um estu
do com animais, em que ratos brancos foram punidos com choque
durante os primeiros dez minutos de extinção da resposta de pressio
nar a barra, o efeito da punição desapareceu quase que inteiramente
durante uma hora na qual os sujeitos estiveram confinados na situa
ção, mas com a barra ausente. Quase tanto tempo e quase tantas
respostas foram em seguida requeridas antes que o pressionar a barra
se extinguisse; e os ratos comportaram-se como animais que nunca
tivessem recebido choques antes.
Em terceiro lugar, parece que as respostas emocionais associa
das com o estímulo punitivo são condicionadas de modo respondente.
Quando, por exemplo, um choque for aplicado em lugar especial,
digamos a câmara experimental, o próprio lugar torna-se um estímulo
condicionado capaz de produzir os mesmos efeitos que o choque. E,
com estas modificações respondentes, ocorre a depressão de qualquer
comporjámento operante em curso. O lugar, pode-se dizer, provoca
medo e o medo põe fim a outras coisas— por exemplo, ao pressio
nar a barra. A extinção do medo, como qualquer extinção respon
dente, requer que o estímulo reforçador incondicionado (o choque)
seja suspenso. À medida que a extinção prossegue, e o lugar perde
os seus aspectos atemorizadores, a resposta operante começa a rea
parecer. O animal volta à atividade, reforçada ou não, que prevalecia
28
antes que o choque fosse aplicado. Se ainda estiver em vigor o refor
çamento positivo intermitente, o animal volta à freqüência anterior;
se as condições de extinção ainda estiverem presentes, retoma mais
uma vez o responder não reforçado. A punição poderá ter adiado o
responder, mas não terá alterado permanentemente a freqüência ope
rante, nem acelerado o processo de extinção operante.
Só se deve esperar este efeito transitório da punição se os estí
mulos punitivos não forem mais aplicados e apenas se o sujeito per
manecer na situação punitiva por um período de tempo suficiente
mente longo — isto é, até que o efeito dos estímulos condicionados
emocionais tenham tido oportunidade de se extinguir. Se, entretanto,
o animal, depois de ter sido punido, tiver oportunidade de escapar
para um ambiente diferente, no qual não receba mais punição e no
qual todas as suas necessidades forem satisfeitas, então o efeito da
punição pode parecer não ser transitório. O resultado da punição
será então a esquiva, tópico sobre o qual versará a seção 16.
11. Generalização
29
derá ter ocorrido em tudo isso uma pequena quantidade de condicio
namento operante, e o macaco poderá, num teste futuro, alcançar mais
rapidamente o objetivo. Mas o aspecto marcante da solução que deu
ao problema é o restabelecimento de dois atos que tinham sido pri
meiramente condicionados na presença de estimulação semelhante.
Estes restabelecimentos de respostas previamente condicionadas
foram tratados por Thorndike, alguns anos atrás, como exemplos de
“respostas por analogia”, uma lei básica do comportamento. Enun
ciava a lei simplesmente: “A qualquer situação nova o homem res
ponde como o faria a uma situação semelhante, ou a um elemento
semelhante dela”. Pavlov, pensando exclusivamente no comportamen
to reflexo, e mais em cachorros do que em seres humanos, chegou
independentemente a uma lei similar, que denominava generalização.
Hoje usamos o termo Pavlov e não o de Thorndike, mas o aplicamos
tanto a respondentes como a operantes e reconhecemos, mais do que
qualquer um desses pesquisadores, sua importância teórica.
Um exemplo de generalização do laboratório de Pavlov pode
ajudar aqui. Um cão foi condicionado a salivar ao som de 1.000
ciclos. Quando a resposta já estava bem estabelecida para este tom
(o único usado durante o treino), um certo número de outros tons
foram testados no seu efeito sobre a salivação do cachorro. Sem ex
ceção, eliciaram a resposta, embora num grau menor do que o tom
original. Os estímulos “generalizaram’. Isto é, o cachorro respondeu
a todos eles do mesmo modo, exceto na quantidade de saliva secre-
tada. Os tons que estavam mais próximos da freqüência do estímulo
condicionado produziram, em geral, maior fluxo salivar do que os
tons que estavam mais afastados na escala de freqüência.
Pode-se então dizer que, quando um operante ou um responden
ts foi condicionado em uma dada situação-estímulo, poderá ser evo-
cádo, sem condicionamento posterior, em uma outra situação-estímu
lo. A isto se acrescenta que o poder dos novos estímulos de evocar a
resposta dependerá das características físicas que as situações tiverem
em comum. Indo mais adiante, pode-se dizer que há vários contí
nuos ou escalas, ao longo dos quais os estímulos podem se generali-
30
zar. Tons, por exemplo, generalizarão ao longo da escala de freqüên
cia de vibrações sonoras (tonalidade), de uma escala de energia
(altura) e possivelmente de outras escalas. Um contínuo comparável
existe na visão, no tato e nos outros sentidos.
Na vida diária, exemplos de generalização são tão comuns que
passam despercebidos. São talvez mais óbvios nas crianças, nas quais
às vezes são divertidos. Os pais sorriem quando a criança diz “au-au”
à vista de um cavalo, de uma vaca, ou de qualquer outro quadrúpe
de; ou podem rir quando ouvirem uma criança dizer que a gasosa
“tem um gosto de quando o meu pé está dormindo”. Podem deixar
de perceber que o mesmo princípio está envolvido quando as respos
tas são muito mais comuns e menos dramáticas. Podem não ver que
a “galinha” de uma criança diante de uma codorna é, essencialmente,
o mesmo que o “passarinho” de outra. O fato é este: uma criança
ou um adulto, que foram condicionados a responder de uma certa
maneira a uma dada situação, responderão ainda da mesma maneira
quando cada um dos elementos da situação tiver sido alterado ao
longo de um ou mais contínuos básicos, ou mesmo quando alguns ele
mentos da situação original não estiverem presentes.
Há um outro aspecto deste quadro, que deve ser indicado bre
vemente aqui, para preparar a discussão da próxima seção. A gene
ralização pode ocorrer tanto durante a extinção quanto durante o con
dicionamento. Um exemplo de estudo de extinção respondente mos
trará como isso acontece. Suponha que a resposta galvânica da pele
(mudança da resistência elétrica da pele) foi condicionada a um estí
mulo vibratório em cada um dos quatrô pontos seguintes do corpo de
uma pessoa — a barriga da perna, a coxa, o lado e o ombro. Agora,
suponha que, depois, a extinção seja parcialmente conseguida em um
dos quatro lugares, por exemplo, estimulando a barriga da perna só
com ò vibrador, até que a reação condicionada da pele tenha sido
grandemente reduzida. Se, neste estágio do experimento, você testar
*
31
(
nhnm dos lugares produzirá efeito algum e se poderá então dizer que
a “generalização da extinção” já está completa.
12. Discriminação
32
nação da sala, no fundo visual da barra e da vasilha, ou na aparência
da própria barra não perturbariam apreciavelmente o seu comporta
mento. Isto é, haveria uma considerável generalização de estímulos.
Mas, se o pressionar a barra fosse reforçado somente com grande
iluminação, somente quando o fundo visual fosse de um certo padrão,
ou somente quando a barra fosse de um certo tamanho, cor ou lumi
nosidade ter-se-ia então formado uma discriminação: a resposta ter-
-se-ia extinguido em todas as situações, exceto num conjunto muito
restrito de condições de estímulos.
O caso respondente é similar. O cão, no laboratório de Pavlov,
condicionado a salivar na presença de um som de 1.000 ciclos, sali
vará também a sons de outras freqüências, devido à generalização.
Mas se estes outros sons forem apresentados repetidamente, sem se
rem acompanhados de alimento, e se o reforço continuar acompa
nhando o som de 1.000 ciclos, chegará o momento em que não mais
eliciarão a salivação, embora o som de 1.000 ciclos continue a eliciá-la.
Isto é um relato super-simplificado do processo de discriminação,
e objeções já devem ter ocorrido ao leitor. Por exemplo, e a genera
lização da extinção mencionada na última seção? No caso do cão de
Pavlov, por que é que o não-reforço, associado a sons que não o de
1.000 ciclos, não enfraquece a resposta ao próprio som de 1.000
ciclos? A resposta é que, de fato, isso acontece, mas o som de
1.000 ciclos não perde tanto o poder de eliciar quanto os outros.
Cada reforço associado com o som de 1.000 ciclos compensa de longe
a perda devida à generalização. Além disso, o aumento em poder para
excitar a resposta dos tons generalizados (através do reforçamento do
som de 1.000 ciclos) é mais do que anulado pelo efeito direto da
extinção sobre estes tons. Gradualmente, por pequenas adições e sub
trações, as duas condições de estimulação se separam uma da outra e
a discriminação se estabelece.
Este processo foi demonstrado repetidas vezes com animais, e
com menor freqüência com seres humanos, especialmente com adultos.
Uma razão importante para explicar porque isso ocorre é a de que a
maioria dos seres humanos, antes de chegar ao laboratório, já traz
33
consigo uma história complicada da função discriminativa. Não é
sempre que se pode começar do início e romper uma generalização.
Os estímulos discriminativos da vida diária, em geral, já se adianta
ram aos nossos procedimentos experimentais. Alguma melhoria pode
ser possível; poder-se-á talvez provocar um ligeiro aumento na per
centagem das respostas que serão reforçadas. Raramente se tem a
possibilidade de limitar suficientemente a amplitude dos valores do
estímulo que produzirão uma dada resposta.
Pode-se, naturalmente, testar ainda a capacidade final do sujeito
em discriminar. Pode-se determinar, por exemplo, qual a menor dife
rença que pode existir entre dois estímulos antes que a probabilidade
da resposta correta seja menor que 50 por cento. Esta é, há muitos
anos, a preocupação de um ramo da psicologia denominado psicofí-
sica, que tem como sua principal esfera de atividades o estudo da
sensitividade a diferenças entre estímulos no ser humano adulto. Oca
sionalmente tem preocupado também aqueles que estudam o compor
tamento de animais e de crianças — às vezes com resultados sur
preendentes. Em um experimento hoje famoso, Pavlov treinou um
cão a discriminar visualmente entre um círculo e uma elipse. Passo
a passo, ele aproximou a elipse da forma do círculo. Por fim, a dis
criminação se desfez, como seria de se esperar. Com as continuadas
exigências feitas, o cão terminou “neurótico”, até o ponto de ser ne
cessário removê-lo da situação experimental e dar-lhe um longo des
canso, para proteger sua saúde. Em outro experimento russo, uma
criança de seis anos foi compelida a distinguir sucessivamente entre
batidas do metrônomo de 144 batidas por minuto e batidas de 92,
108, 120 e 132 por minuto. Não houve nenhuma dificuldade em dis
criminar entre 144 e 92 ou 108 batidas tyor minuto; a distinção se
fez facilmente, em umas poucas tentativas. Mas as dificuldades co
meçaram quando o de 144 foi comparado com o de 120 batidas por
minuto; e, quando foi tentada a discriminação entre 144 e 132 bati
das por minuto, a criança tornou-se seriamente perturbada, exibindo
rudeza, desobediência, excitamento e comportamento agressivo, bem
como sonolência na situação experimental.
34
Há muito mais coisas que poderiam ser aqui incluídas a respeito
da discriminação. Livros inteiros foram escritos sobre este tópico, em
geral com o título de “sensação” ou “percepção”. De um ponto de
vista científico, este tópico está provavelmente mais adiantado do que
qualquer outro tópico em psicologia. No momento, contudo, o nosso
principal objetivo é compreender a “aprendizagem”, e o leitor pode
ver agora que a discriminação desempenha um papel bastante impor
tante nesta história. Milhares, talvez centenas de milhares de discri
minações devem ser feitas por cada um de nós para enfrentar as exi
gências do mundo exterior. O comportamento operante, para o qual,
no início, não se pode encontrar um estímulo eliciador, mais tarde
passa a ser quase que completamente controlado pelos estímulos. E
isto se verifica apenas porque se dão reforços na presença de um es
tímulo e se retiram reforços na presença de outro.
Talvez o leitor lembre que, na seção 3, sobre Condicionamento
Respondente, e outra vez na seção 4, sobre Condicionamento Operan
te, foi apresentado um diagrama simples, com o fim de tornar esses
princípios mais claros. Vejamos agora que espécie de quadro se po
deria usar para representar a discriminação. O leitor já sabe anteci
padamente, é claro, que nada de muito novo será incluído. Vimos
que a generalização é meramente uma espécie de bônus derivado do
condicionamento, e a discriminação (a quebra de uma generalização)
é, em grande parte, uma questão de extinção.
Quando se toma o caso da discriminação respondente, enfrenta
mos dificuldades logo de início. Porque qualquer condicionamento
respondente requer certo grau de discriminação. Por exemplo, o pri
meiro efeito do pareamento de um som de 1.000 ciclos com alimento,
para um cão preso em arreios na câmara experimental, é condicionar
a salivação ao som mais a estimulação dos próprios arreios e mais o
que possa ver, ouvir e cheirar dentro da sala. Não se reforça, entre
tanto, na presença de todos estes estímulos, a meno\s que o som esteja
presente. Assim, a resposta é extinta na ausência do som, mas apa
rece quando o som for parte do composto — e isto é discriminação.
Mais tarde, naturalmente, pode-se ir mais além. Será possível refor-
35
çar um som e extinguir outros, da maneira já descrita. O diagrama
que pode indicar esta outra etapa terá a seguinte aparência:
sA
sA
so-------------------— -----r--------
sA
No diagrama, o SD indica o estímulo ao qual o operante foi
associado e os SA indicam os estímulos generalizados que perderam o
poder de evocar a resposta. Por isso, não têm nenhuma conexão com
o R do diagrama.
(Ao se falar destes dois casos, a palavra “indício” é freqüente
mente usada como um sinônimo de SD ou “estímulo discriminativo”,
especialmente quando se trata de operantes. Seria econômico ter uma
outra abreviação para usar com os respondents, para indicar quando
os estímulos condicionados já foram discriminados, mas até agora ne
nhuma foi apresentada.)
Ainda um outro ponto. O procedimento de discriminação acima
mencionado (reforçamento sob SD e extinção sob 54) é, às vezes,
considerado como um caso especial de esquema de reforça, denomi
nado esquema múltiplo. Pode-se mostrar uma discriminação não so
mente pela resposta na presença de um estímulo e não-resposta na
36
presença de outro, mas também pelo padrão diferente de freqüência
de resposta sob duas (ou mais) condições de estímulo. O estímulo
A, por exemplo, pode ser apresentado sob um esquema de reforço de
intervalo fixo; o estímulo B pode ser apresentado sob razão fixa; e o
estímulo C pode ser apresentado sob razão variável. Depois de algum
tempo, o organismo responderá, em cada condição diferente de estí
mulo, com o padrão de respostas apropriado ao determinado esque
ma de reforço presente naquele momento.
37
Comecemos outra vez com um exemplo. Imagine-se um labora
tório no qual a principal peça de equipamento seja uma destas má
quinas de parque de diversões, cujo funcionamento consiste em puxar
e soltar a mola que impulsiona uma bolinha de aço, que vai sendo
desviada no seu trajeto sobre um plano inclinado por uma série de
pinos, até que emboque em uma das diversas cavidades que indicam
a contagem obtida. Este aparelho, entretanto, é um aparelho especial.
Um biombo oculta do operador o curso da bola e o impede de ver
o quanto puxa a mola antes de soltá-la. Outro anteparo o impede
de ver dois “quimó;*rafos” nos quais são registradas (1) a freqüên
cia com que puxa a mola e (2) a distância de cada puxão. Nem
pode ver a escala de 15 divisões que fica paralela ao cabo da mola e
que permite outras tantas 15 conexões elétricas, que controlam o apa
recimento de uma luz vermelha através de uma janela na extremidade
do aparelho. (Cada intervalo dessa escala está separado do seguinte
por 2,8 milímetros e pode ser disposto de modo a que um puxão na
mola até um ponto entre qualquer par das divisões da escala — por
exemplo, entre os pontos 2 e 5 ou entre 10 e 13 — ocasione o apa
recimento da luz vermelha quando a bola chegar ao fim do trajeto).
A única coisa que o operador, um aluno de college, vai saber é que
estará participando em um “estudo das habilidades não-visuais” e
que ele verá uma luz vermelha piscar na pequena janela sempre que
sua resposta for correta.
A primeira tarefa do sujeito, depois de receber instruções, será
a de puxar a mola durante 5 minutos. Ser-lhe-á dito que use para
puxar a mola uma força e uma freqüência que lhe pareçam naturais
e confortáveis. Cumprindo estas instruções responderá, por exemplo,
com uma freqüência de vinte e dois puxões por minuto, isto é, pouco
mais de uma vez cada três segundos. A distância média de cada
puxão (nossa medida da força da sua resposta) será, aproximadamen
te, de 32 milímetros, mas alguns puxões serão maiores e outros me
nores. Em outras palavras, haverá um certo grau de variabilidade
na resposta, mesmo trabalhando com uma freqüência e uma força
ótimas.
38
Quando este nível tiver sido determinado, diremos ao sujeito que
a luz agora passará a funcionar e disporemos os interruptores de
modo que só puxões que levem a posições entre 2 e 5 da escala pro
duzam o aparecimento da luz vermelha. Isto lhe dá uma amplitude
de 8,4 milímetros, dentro da qual as respostas serão corretas. Deixa
remos que o sujeito trabalhe até que tenha assegurado vinte reforços,
o que conseguirá facilmente em trinta e um puxões. Então, sem que
tenha conhecimento, mudamos a disposição do interruptor de 2-5 para
10-13. A amplitude é exatamente a mesma que antes, mas colocada
mais acima ao longo da escala. Exigirá cerca de 179 puxões, mais
de cinco vezes do que na primeira vez, para obter os vinte reforços.
Assim, parece que o domínio da primeira disposição atrapalha o do
mínio da segunda. Entretanto, com repetidas mudanças de 2-5 para
10-13, o sujeito melhora a rapidez com que se reajusta. O não-re-
forço, depois de uma série de reforçamentos, passa a ser sinal para
tentar algo diferente.
No estágio seguinte de nosso experimento, o sujeito começa a
responder com o interruptor disposto entre 2-6. Depois da obtenção
de vinte reforços, mudamos a colocação, sem o seu conhecimento,
para 3-6, diminuindo a amplitude de 2,8 milímetros. Desempenha
tão bem nesta nova disposição quanto antes e assim, outra vez, mu
damos a exigência, agora para 4-6. Quando a luz tiver acendido vinte
vezes, mudamos outra vez para 5-6. O número de respostas exigidas
para obter vinte reforços na disposição 3-6 foi de 32, o número exi
gido em 4-6 foi 47, e o número em 5-6 foi 93. Isto é, o número de
respostas aumenta à medida que a amplitude do movimento se torna
cada vez mais restringida.
Finalmente, o sujeito coloca-se em novas sessões na disposição
2-5, sob diferentes esquemas de reforço: (1) regular, em que cada
uma das respostas será reforçada se satisfizer corretamente o requisito
da distância; e (2) intermitente, no qual (nosso caso) não obterá re
forços até que tenha emitido 10 respostas corretas. Depois de cada
sessão, suspende-se completamente o reforçamento e se conta o nú
mero de respostas dadas antes que o sujeito mude para um novo
39
nível de força. Resultado: o sujeito muda mais facilmente depois de
um período de reforçamento regular, como seria de se esperar, do
que depois de um período de reforçamento intermitente — na reali
dade, com uma facilidade quatro vezes maior.
O que foi narrado é apenas uma pequena parte de um experi
mento efetivamente conduzido com quatorze sujeitos e vários outros
procedimentos adicionais, mas a amostra já é suficiente para iniciar
mos nossa discussão. Alguns dos principais aspectos da diferencia
ção já podem ser nitidamente percebidos. Há, por exemplo, uma
variabilidade inicial da resposta, sem a qual não poderia ocorrer ne
nhuma diferenciação. Isto ficou patente nos cinco minutos prelimina
res de puxões “naturais”, mas ocorreu também no começo da sessão
de teste do sujeito na disposição do interruptor 2-5. A variabilidade
apareceu principalmente na distância em que a mola era puxada e
ocorreu também em relação à freqüência, e poderia ter ocorrido em
relação à duração de cada puxão se isto tivesse sido medido. Pode
ríamos mesmo ter descoberto diferenças na forma ou “topografia” da
resposta — na maneira com que o sujeito segurava o cabo da mola
em puxões sucessivos — mas isto teria sido muito difícil de medir.
Em segundo lugar, há um reforçamento seletivo da resposta.
Quando a luz vermelha acompanha apenas as respostas de amplitude
de força entre os pontos 2-5 ou 10-13 da escala, em vez dos 1-15
original, o sujeito logo se ajusta com êxito. A amplitude da força
que emprega diminui abruptamente e, quando o experimentador mo
difica as “regras do jogo”, o sujeito é capaz de mudar facilmente de
uma amplitude para outra. Se a amplitude se tornja pequena demais,
há uma queda na acuidade (e se continuarmos mais além, poderá de-
senvolver-se um comportamento “neurótico”), e a rapidez da mu
dança dependerá tanto do número de mudanças já feitas, como do
esquema de reforço — mas ninguém pode duvidar que o comporta
mento está sendo modelado pela presença ou ausência da luz que
acompanha cada resposta. Puxões da mola que não produzem luz
diminuem de freqüência; os que a produzem tornam-se mais nume
rosos .
40
Em terceiro lugar, quando o experimentador reduz a amplitude
das respostas bem sucedidas de uma faixa ampla para uma estreita,
através de pequenos passos de 2-6 para um de 5-6, ele ilustra a im
portância das aproximações sucessivas no processo de modelagem. Se
tivesse passado abruptamente de uma faixa ampla para uma estreita,
da “fácil” para a “difícil”, ele teria aumentado consideravelmente os
erros e o tempo necessários para os seus sujeitos resolverem seus
problemas. Reforçando seletivamente pequenos progressos na direção
correta, reduz as chances de insucesso e alcança seu objetivo sem
atraso desnecessário.
Através das aproximações e no nível mais simples, ratos de la
boratório podem ser ensinados a erguer grandes pesos, andar sobre
as patas traseiras, mostrar um tempo de reação curto, e assim por
diante; crianças podem ser treinadas com maior eficiência a escrever,
falar, e a desempenhar muitas outras funções básicas, até mesmo a
exercer “autocontrole”; e peritos em cada campo de arte e de habili
dade podem ser levados ao máximo da perfeição. Em cada caso, o
professor segue a mesma regra: começa com variabilidade no com
portamento do seu aluno, reforça mudanças em uma direção e as
extingue em outra, assegura o máximo de êxito e o mínimo de insu
cesso com aproximações sucessivas ao comportamento que deseja.
Finalmente, a mudança no comportamento de nosso sujeito não
depende de modificações no seu mundo exterior. Não existem sinais
exteriores que lhe digam quando o reforço é acessível ou não, nem
que força terá de usar para ganhá-lo. Estas ligações poderiam ter
sido estabelecidas, como logo se verá, mas os únicos sinais discrimi-
nativos empregados na diferenciação do tipo mais puro são os que
vêm do próprio movimento, em vez de vir de uma fonte exterior. O
sujeito dirá, depois de ter alguma prática, que pode “sentir” quando
as respostas vão ser bem sucedidas, mas esta “sensação” vem das
contrações de seus próprios músculos quando começam a agir. Não
é um estímulo sobre o qual o experimentador tenha algum controle
direto.
41
O exemplo experimental é um dos muitos que poderiam ter sido
escolhidos. Há abundantes estudos na literatura psicológica sobre
arremessos de bola e de dardos, traçado de linhas, ao lado de outros
estudos de movimento em várias situações práticas. Muitos desses
casos são de diferenciação pura. Há também uma quantidade de ha
bilidades da vida diária que se baseiam no mesmo processo. O gol-
fista que impulsiona a bola com o seu taco, o cestobolista que arre
messa à cesta, o arqueiro, o jogador de malha, de boliche — são só
algumas de nossas atividades que podem ser aperfeiçoadas em situa
ções inalteradas de estímulos. Menos notórias, mas na verdade mais
importantes, são as diferenciações presentes no domínio de habilidades
universais tais como andar, falar, escrever, cantar e danças.
O processo básico, em todos estes casos, pode ser retratado,
embora de maneira não muito correta, assim:
r*
RD--------+ s
R*
Aqui, o R D representa a variante da resposta que conduz ao re-
forçamento, e R A (erre-delta) indica uma variante que não recebe
reforço. O R D e o R á correspondem assim ao SD e SA do nosso dia
grama de discriminação.
O diagrama é inadequado porque, como o que representa o con
dicionamento (página 12), sugere que os estímulos ambientais não
desempenham nenhum papel no ditar de nossas respostas. Leva a
pensar que o pressionar a barra não tem nada a ver com a presença
ou a ausência de uma barra na situação, que o cèstobolista não ne
cessita de uma cesta, ou o arqueiro de um arco. K verdade é que
os processos de diferenciação e de discriminação são concomitantes
desde o início do nosso desenvolvimento comportamental. Em certo
momento, a discriminação pode tomar a dianteira, em outro, a dife
renciação. Quando uma criança quer pegar uma bola, indica que a
bola é um estímulo discriminativo, mas o progresso que revela na
acuidade do pegar, com as repetições, se deve principalmente à dife
renciação. A mudança na resposta ocorre sem dúvida na presença do
sinal, mas não depende de nenhuma modificação nele.
42
Quando chegamos à idade adulta, cada um de nós adquiriu um
número enorme de respostas diferenciadas que podem ser dadas ou
não a um número ainda maior de sinais discriminativos. Além disso,
cada um de nós tem a habilidade de mudar suave e rapidamente de
uma resposta para outra diante de um campo de estímulos sempre
mutável. Observa-se isto de uma maneira bem viva quando se olha
os participantes de esportes como box, tênis ou futebol, nos quais
movimentos com a rapidez de um raio são necessários para acompa
nhar as variações de estímulos produzidos pelos movimentos do opo
nente. Mas se pode observar a mesma coisa, se se atentar para isso,
em praticamente todas as esferas da atividade humana, em interiores
ou ao ar livre, verbais ou não-verbais, no entretenimento ou no tra
balho. O músico que acompanha a partitura, o telegrafista que copia
o código Morse, a estenógrafa que toma um ditado ou datilografa
os símbolos abreviados que escreveu, o operário na linha de monta
gem — nestes exemplos, e em tantos outros, pode ser visto o pro
cesso.
Nenhuma disposição de linhas e letras pode aspirar a represen
tar o rápido intercâmbio de estímulo e resposta que ocorre nos casos
citados, mas o diagrama seguinte pode ser de alguma ajuda no retra
tar a mais simples das combinações de sinais discriminativos e ope
rantes diferenciados.
ra
SD---------------------------- R O ------- * 5
14. Encadeamento
43
“aprendizagem”, ele não teria dito nada sobre condicionamento, ex
tinção, generalização, discriminação, diferenciação ou reforçamento.
Pavlov, que nos deu todos estes termos, estava naquela época exami
nando a atividade digestiva de cães, e ainda faltavam dez anos para
que ganhasse, por estes trabalhos, o Prêmio Nobel. Thorndike só
tinha vinte anos de idade, e pelo menos ainda dois tinham de se pas
sar antes que se engajasse nos estudos com a gaiola-problema que
levariam à sua famosa Lei do Efeito.
Em lugar destes tópicos e desenvolvimento ter-se-ia ouvido o
professor de psicologia discorrer muito sobre a “associação de idéias”
e sobre as “leis” que governam aquelas associações, particularmente
na forma descrita pelos eminentes filósofos ingleses dos séculos XVIII
e XIX. Poder-se-ia também ter ouvido o relato de algum longo e
trabalhoso experimento alemão sobre a “memória” e o “esquecimen
to” — experimentos em que os sujeitos tinham de memorizar séries
de “sílabas sem sentido” (mib, gop, ruz, ved, etc.) em condições
muito especiais. Na melhor das hipóteses, ter-se-ia tratado exclusiva
mente de um relato de assuntos que agora cabem em um só capítulo
do campo da aprendizagem.
O interesse pela “aprendizagem serial”, tanto verbal como não-
-verbal, aumentava no início do século, quando os estudos do com
portamento animal começaram a exibir os labirintos para ratos bran
cos, e quando certos fisiólogos influentes começaram a descrever
“composições sucessivas” de reflexos em animais tão inferiores na es
cala evolutiva como o sapo e a minhoca. Em 1914, John B. Watson,
o fundador do “behaviorismo” primitivo na psicologia norte-ameri-
cana, combinava o que já se conhecia destes desenvolvimentos com
sua interpretação do princípio de Pavlov, para argumentar que a
m
44
damos, entretanto, que Watson estava essencialmente certo ao tentar
explicar tais formações de hábitos referindo-se a coisas mais funda
mentais. E vemos, também, que estas coisas fundamentais são dife
renciação, discriminação e generalização, que dependem, por sua vez,
do condicionamento e da extinção.
Formulamos a noção de encadeamento, hoje, enunciando sim
plesmente que uma resposta pode produzir o estímulo para a seguinte.
E reconhecemos, talvez mais do que antes, que é excepcional o caso
em que as respostas não ocorrem em cadeias. Ê raro que uma única
resposta ou conexão estímulo-resposta não conduza a outra ou não
se origine de uma anterior.
O enunciado essencial do que ocorre em um encadeamento pode
ser suficientemente bem delineado dobrando o diagrama discutido na
última seção.
sA gA sA rA
sp-------------------- rd—►sD-------------------- R° —
$A s A. RA
45
bolinha de vidro, colocada numa calha acima, caísse na gaiola. Quan
do a bolinha caía no chão, Plínio apanhava-a com as patas diantei
ras e a carregava pela gaiola até um pequeno tubo que se projetava
verticalmente a cerca de 2,5 cm acima do chão da gaiola. Levantava
então a bolinha até a borda do tubo e deixava-a cair dentro dele, o
que fazia com que uma pelota de alimento fosse automaticamente des
carregada num recipiente acessível. Plínio então se aproximava do
recipiente, apanhava a pelota, comia-a e voltava outra vez a repetir a
seqüência de atos. Desta maneira, Plínio ganhava a vida, dia após dia.
Aqui há, pois, uma cadeia de operantes, cada um induzido pelo
seu próprio sinal específico. (Vê-se com menos freqüência respon-
dentes encadeados, razão pela qual não serão tratados aqui.) Os es
tímulos visuais ou táteis, provindos da cordinha e circunvizinhanças,
provavelmente iniciam a resposta de puxá-la. Puxar o cordel coloca
em ação outros estímulos, evocados pelo aparecimento da bolinha.
Estes constituem o sinal para as respostas de apanhá-la e carregá-la,
que colocam o animal na presença de outro composto de estímulos
visuais, o tubo. As respostas de levantar e deixar cair a bolinha den
tro do tubo produzem, por sua vez, o som do mecanismo do alimen
tador que conduz a aproximação do recipiente e, finalmente, do pró
prio alimento. Com o término do comportamento de comer, toda a
seqüência começa de novo.
Exatamente quantas respostas distintas ocorrem na cadeia aper
feiçoada de Plínio continua a ser uma pergunta, visto que cada res
posta fundia-se quase completamente com a seguinte. É razoavel
mente certo, entretanto, que havia mais no começo do que no fim.
Por exemplo, o animal teve dificuldades consideráveis, de~ início, em
deixar a bolinha de vidro cair depois de tê-la levantado até a borda
do tubo; erguê-la era claramente uma resposta, largá-la outra e era-
-lhe difícil coordenar os dois movimentos adequadamente. Seu com
portamento assemelhava-se ao das crianças que estão aprendendo a
arremessar uma bola: ou soltam muito depressa ou seguram tempo
demais. Entretanto, mais adiante no treinamento, a coordenação de
Plínio estava tão boa e os elementos tão entrelaçados, que já não se
46
podia distinguir onde acabava uma resposta e começava a outra.
Como acontece em muitas ações humanas, especialmente na lingua
gem, as unidades originais, bem distintas de início, agrupam-se em
unidades maiores, reduzindo perceptivelmente o número de elos na
cadeia.
Também é difícil especificar os sinais que estiveram em ação no
controle do comportamento de Plínio na cadeia final. É bastante
provável que o número tenha diminuído com a prática — e que Plínio
tenha, no fim, respondido a meros fragmentos dos compostos iniciais.
Outros experimentos indicam que esta redução pode ocorrer. Mas,
na ausência de verificações especiais, não temos meios de dizer que
elemento da situação estimuladora, em qualquer estágio da seqüên
cia, foi o que desencadeou a resposta.
O encadeamento de Plínio, ao contrário dos que ocorrem na
maioria dos estudos humanos, requereu um longo treino de diferen
ciação para vários elos. As respostas empregadas em carregar, levan
tar e deixar cair a bolinha de vidro, embora modeladas em parte na
experiência anterior em manipular o alimento, tiveram que receber
ainda muita atenção. O treinador do rato tinha de vigiar cuidadosa
mente, e reforçar seletivamente, todas as pequenas mudanças na res
posta que indicavam uma melhoria. Como em todas as diferenciações
delicadas, tinha de evitar passar muito rapidamente de um estágio para
o seguinte, observando que os progressos se fizessem de maneira cons
tante e que não houvesse ocasião de ocorrer extinção quando uma
nova exigência fosse introduzida. Se as diferençiações já tivessem sido
formadas — se as habilidades básicas estivessem bem estabelecidas —,
não teria havido maior problema com o encadeamento em si, para o
animal. Cada ato discreto teria sido facümente adicionado aos outros,
da mesma maneira que os seres humanos combinam palavras velhas
e bem diferenciadas ao memorizar um poema. Antes que tais dife
renciações sejam feitas, entretanto, pode-se comparar Plínio a uma
pessoa que, não familiarizada com a língua chinesa, tenha de reagir a
uma sucessão de caracteres escritos nesta língua, pronunciando cada
um corretamente no momento em que ocorre!
47
Através dos anos, muitas questões foram propostas sobre a apren
dizagem serial. A maioria delas foram questões acerca do domínio
de séries de sílabas sem sentido. Perguntou-se, por exemplo, como a
velocidade dessa aprendizagem se relaciona com o número de itens
da lista que deve ser aprendida. Ou sobre o tipo de itens da lista —
por exemplo, o seu grau de semelhança com palavras reais ou partes
de palavras. Ou ao lugar dos itens na lista, isto é,'se uma parte da
lista é aprendida mais depressa do que outra. Ou ao domínio anterior
de outras listas, tendo o mesmo conteúdo ou conteúdo diferente. Estes
são alguns dos problemas formulados. Cada um deles foi submetido a
muita investigação, discussão e teorização. Mas só muito recentemen
te a sugestão de John Watson foi seriamente seguida e se fez a ten
tativa de relacioná-los com os princípios básicos de condicionamento,
extinção, discriminação, etc. Estas tentativas foram, no geral, bastante
fecundas e pode valer a pena examinar alguns exemplos.
Tomemos o assunto do número de itens da lista que deve ser
memorizada. Os experimentos com sílabas sem sentido indicam que
um número notável pode ser agrupado. Em uma investigação chegou-
-se ao domínio de 300, e o limite ainda está provavelmente longe de
ser alcançado! Parece, entretanto, que o tempo que tem de ser gasto
com cada sílaba aumenta apreciavelmente à medida que o número de
sílabas sobe. Pode levar um minuto e meio, em média, para se me
morizar 12 sílabas, mas requerer 195 minutos a memorização de 300
sílabas, que são apenas 25 vezes 12 sílabas. ]
/
48
plementa de algum modo as sílabas, fazendo com que wof-pes vire
algo como wolf-pest.
A generalização pode também desempenhar um papel na explica
ção das dificuldades que temos em dominar uma longa série de núme
ros. Só se dispõe de 10 algarismos, de 0 a 9, para construir tais
séries e, se não fosse pelos agrupamentos comuns, como 1492, 5280,
31416, e 1776, bem como vários outros mais pessoais (números de
telefone, de chapas de automóvel, etc.), teríamos muito mais dificul
dades com eles do que com as sílabas sem sentido. O agrupar pode
auxiliar por algum tempo, mas com o tempo esgotam-se as diferenças
entre os grupos. Finalmente, chega uma hora em que nenhurii acrés
cimo pode ser feito sem que haja uma perda correspondente. Até
chegarmos àquele diretor de faculdade, que era também ictiólogo, e
se queixava de que cada vez que memorizava o nome de um aluno
esquecia o nome de um peixe!
Pesquisas com animais contam uma história parecida sobre a
generalização como o fator que limita o estabelecimento de encadea-
mentos. Experimentos sobre aprendizagem de labirinto, usando ratos
brancos, mostram que o domínio do trajeto correto da entrada até a
saída depente, principalmente, dos sinais encontrados nas curvas su
cessivas, onde o animal deve escolher entre dois ou mais trajetos. As
diferenças entre estes sinais podem ser reduzidas de algumas maneiras.
Órgãos dos sentidos de importância crítica (por exemplo, os olhos)
podem ser cirurgicamente eliminados; ou cada unidade do aparelho
pode ser construída tão idêntica às demais quanto for possível. Em
qualquer dos casos, o resultado é o mesmo. A rapidez com que o
animal aprende diminui, e também é inferior o seu nível final de
desempenho.
Um caso especial, em que a quantidade de generalização é ex
trema, é o do labirinto “temporal”. Neste artefato, treinam-se os ratos
a passar pelo mesmo ponto de escolha em ocasiões sucessivas; se
forem, por exemplo, quatro, virando duas vezes à esquerda e depois
duas vezes à direita. A mudança de viradas à esquerda para viradas
à direita na terceira escolha é a fonte das maiores dificuldades. Não
49
há mudanças externas que digam quando virar à direita em vez de à
esquerda, e há tão pouca diferença nas maneiras de responder na
primeira e na segunda volta que o animal não pode identificar facil
mente sinais vindos de seu próprio comportamento, o que poderia
acontecer se se lhe permitisse emitir quatro respostas distintas em
cada volta pelo ponto de escolha. É uma discriminação tão delicada
que poucos ratos conseguem desenvolver com êxito a seqüência es-
querda-esquerda-direita-direita.
O que foi descrito é apenas uma introdução ao problema do en
cadeamento. Um relato mais amplo teria de incluir uma exposição
dos famosos “experimentos de associação”, algumas vezes usados na
detecção de mentiras e na psicoterapia, e nos quais se pede ao sujeito,
que responda uma palavra com outra tão depressa quanto puder.
Ter-se-ia de tratar com a questão dos encadeamentos ou elos de ca
deias que não podem ser observados, que são encobertos, e que figu
ram proeminentemente na análise do “pensamento”, do “significado”
e da “percepção”. Abrangeria a discussão de dúzias de conceitos e
resultados de experimentos, e incluiria muitos pontos altamente dis
cutíveis. Proveria o leitor de um grande conjunto de dados e poderia
até levá-lo a descobrir novos métodos de investigação e a planejar
novas pesquisas neste campo. Mas nem todas estas questões podem
ser abordadas aqui. Para os propósitos presentes, será suficiente que
o leitor tenha entendido claramente os princípios básicos e visto como
se relacionam com os que já foram discutidos antes neste livro. Ver-
-se-á em um momento que se relacionam também com a secção se
guinte.
50
choque elétrico e outras formas de estimulação intensa têm, desde o
início, a propriedade de reprimir o comportamento (ou de reforçar o
comportamento que as remove). De todos estes se diz que são re-
forçadores primários.
De outro lado, é bastante claro que estes estímulos constituem
apenas uma pequena parte do conjunto das coisas que reforçam. De
fato, só muito raramente observam-se condicionamentos, especialmente
ao nível humano, em que bebida ou choque elétrico desempenham
algum papel. Com muito mais freqüência, aparentemente, as respos
tas são reforçadas ou enfraquecidas pela aprovação ou desaprovação
de outras pessoas, por promessas ou ameaças, por “Certo!” ou “Erra
do!”. E estes são eventos que devem ter adquirido o seu poder re
forçador. Nós os chamamos de reforços secundários ou, algumas
vezes, reforços condicionados.
O modo pelo qual os reforços secundários adquirem seu poder
foi sugerido por Pavlov nos primeiros anos deste século. Observou
que, quando um reflexo condicionado estiver bem estabelecido em
um cão, poderá ser então usado como base de um segundo condicio
namento. Assim, se a batida de um metrônomo tornou-se um estí
mulo condicionado para a resposta salivar, poderá então ser associa
do a outro estímulo “neutro”, por exemplo, um retângulo negro, para
formar um reflexo condicionado de “segunda ordem”. Isto é, a ba
tida do metrônomo sozinha servia como estímulo reforçador para um
novo condicionamento, e o faria por causa da sua associação prévia
com o estímulo incondicionado primário, o alimento. Pavlov contu
do não levou muito longe o conceito de reforço condicionado. Só nos
últimos anos é que começamos a reconhecer a sua importância tre
menda e a compreender como o comportamento operante passa a ser
por ele controlado.
Vamos examinar a maneira pela qual isto ocorre — como o re
forçamento condicionado está relacionado com a discriminação, como
auxilia a formar os encadeamentos, e o significado que tem para o
comportamento humano quotidiano. E, como a psicologia, da mesma
maneira que a biologia, tem uma atitude democrática em relação às
51
diferenças entre as espécies, por que não começar com uma amostra
do comportamento dos chimpanzés?
Nosso sujeito é um macho de cerca de seis anos. Seu nome é
Moos, e vive em uma pequena colônia de macacos em uma estação
de pesquisas com antropóides, onde já há mais de dois anos tem par
ticipado de experimentos psicológicos. No experimento a que nos
referimos, há outros cinco animais, todos mais jovens e menos tra-
quejados. Moos e os outros já passaram por vários estágios de trei
namento. Em primeiro lugar, Moos aprendeu a inserir fichas na
fresta de uma destas máquinas de vender coisas que há nos Estados
Unidos. As fichas eram brancas e a inserção de uma ficha seguia-se
imediatamente ao aparecimento de um bago de uva no recipiente da
máquina de vender. Por causa de sua história anterior de sujeito ex
perimental, Moos aprendeu isso facilmente — bastou que o experi-
mentador demonstrasse uma vez o processo. Logo depois, Moss apa
nhou uma ficha do chão e, meio sem jeito, inseriu-a na fresta. Mais
algumas tentativas e sua habilidade aumentou consideravelmente. Isto
é, sua resposta diferenciou-se na direção de um movimento rápido,
suave e sem esforço para obtenção da recompensa. Em segundo lur
gar, ele e seus companheiros foram treinados a discriminar entre
fichas brancas e amarelas. No treinamento, apresentavam-se-lhe as
duas espécies de fichas em pares sobre uma bandeja que ele podia al
cançar de dentro de sua jaula. Se apanhava uma ficha branca (SD)
para usar na máquina de vender, obtinha uma uva; mas se) escolhesse
uma amarela (SA) e as colocava na fresta, não aparecia uva alguma.
Moos resolveu o problema em quatro sessões de 20 escolhas cada
uma, durante as quais fez um total de 10 erros, isto é, 10 respostas
em SA.
Por esta altura, uma nova peça de equipamento foi colocada na
jaula de Moos: uma máquina de trabalho. Suas características prin
cipais eram (1) uma barra e (2) um reservatório de fichas. O mover
um dos extremos da barra para cima, descrevendo um arco de 90
graus, fazia com que as fichas viessem a ficar ao alcance do opera
dor. Com a máquina em posição e com Moos atento, o experimentador
52
coloca uma ficha branca conspicuamcnte no reservatório e afasta-se.
O chimpanzé aproxima-se da máquina e começa a sacudi-la e agitá-la
repetida e vigorosamente, até que o experimentador o interrompe por
um breve período. Depois da pausa, Moos volta à máquina, desta
vez empurrando e puxando a barra. Não se passa muito tempo antes
que consiga descrever um arco de 90 graus, depois do que pega a
ficha do reservatório e usa-a imediatamente para conseguir uma uva
na máquina de vender. Em seguida, rapidamente retoma a resposta
de puxar a barra, obtendo fichas (e uvas) sem nenhuma dificuldade.
Dois aspectos deste experimento são especialmente dignos de nota.
Primeiro, formou-se, no segundo estágio do experimento, uma nítida
discriminação em que o SD era uma ficha branca e o Sá uma ficha
amarela. Na presença da primeira, a resposta manipuladora de Moos
produzia uma uva; na presença da segunda, não. Em segundo lugar,
a ficha branca tornou-se um reforçador secundário que, sozinho, foi
capaz de fortalecer a resposta de puxar a barra (mesmo quando,
como se demonstrou em um estágio posterior deste experimento, as
fichas não podiam ser trocadas por uvas senão depois de um certo
tempo). Assim, parece que um estímulo discriminativo para uma
resposta pode ser o reforçador condicionado de outra.
Experimentos essencialmente análogos ao de Moos foram con
duzidos também com ratos, gatos, cachorros e crianças, para não citar
com pintinhos, e o resultado foi sempre o mesmo. Ê hoje quase certo
que, se um estímulo deve tornar-se um reforçador condicionado, é
necessário que, antes, se torne um estímulo discriminativo. Não é
bastante dizer que um estímulo que esteve meramente presente em
todas as ocasiões em que a resposta foi reforçada tornar-se-á ele
próprio reforçador; o estímulo deve também ter estado ausente todas
as vezes em que a resposta não foi reforçada.
Talvez se possa ver agora, melhor do que antes, como se for
mam os encadeamentos. Na seção 14, observou-se que um encadea
mento não é mais do que uma fileira de relações SD ------------ R á,
mas não se fez nenhuma menção direta ao papel desempenhado pelo
reforçamento. Agora deve ter ficado claro que o sinal discriminativo
53
para uma resposta que obtém reforço primário torna-se reforçador
para a resposta que produz este sinal. Em outras palavras, cada SD
na cadeia torna-se um reforçador secundário para a resposta que o
produz.
Isto significa que, em certo sentido, os encadeamentos são esta
belecidos de trás para diante — que o primeiro elo é o último a ser
adicionado ao encadeamento. Recordemos o comportamento de Plí
nio, o rato. O primeiro elo da cadeia, puxar o cordel, não poderia
ter sido fortalecido antes que a bolinha de vidro tivesse se tornado
recompensadora; manipular a bolinha de vidro, carregá-la e levantá-
-la não poderia ter sido fortalecido a menos que o tubo tivesse, de
algum modo, se tornado também reforçador; deixar cair a bolinha
não poderia ter sido fortalecido sem o som do alimentador; e, final
mente, o comportamento de aproximar-se do recipiente de alimento
dependia da presença do reforçador primário, o alimento.
O reforçamento condicionado explica também o porquê de as
primeiras respostas da série tornarem-se fortes quando o reforçamen
to primário, final, fica tão distante no tempo. Ou, para dizê-lo de
outra maneira, explica porque o reforço primário pode ser “retarda
do”. Na verdade, o período de atraso possível de um reforçador pri
mário é provavelmente muito curto, questão de segundos. Se parece
ser mais longo, é porque o encadeamento de respostas, cada uma com
o seu reforço condicionado imediato, preenche a lacuna.
Neste ponto, se tomarmos Sr como símbolo do reformo condicio
nado, e SR como símbolo do reforço primário, o diagrama final que
servirá para representar este estado de coisas é o seguinte:
sá RA S* rA
S D ------------------ RD — p sro---------------- . R D — t SR
SA R* SA
54
estímulo discriminativo para a resposta diferenciada seguinte no en
cadeamento; e esta última conduz, finalmente, ao reforçador primá
rio. O primeiro SD seria, naturalmente, um Sr para qualquer elo adi
cional que se quisesse somar aos elos já ligados.
A influência tremenda do reforço condicionado sobre o compor
tamento humano pode ser observada mais conspicuamente no caso
daqueles estímulos ou dos compostos de estímulos que foram comu-
mente acompanhados, sem que houvesse distância muito grande do
reforço primário. Os mais interessantes, talvez, são os compostos
providos pelo comportamento de outra pessoa. Por exemplo, desde
o nascimento até a morte, o comportamento “atento” dos outros é
comumente a preliminar de reforçadores primários tais como alimen
to, bebida, e alívio do desconforto. A atenção torna-se, portanto, para
a maioria de nós, uma importante recompensa secundária, e pode ser
a reforçadora de toda uma série de atividades — desde o simples
“Olha, papai!” da primeira infância até o recital de achaques e de
dores que freqüentemente acompanha a velhice.
A aprovação, na forma de um sorriso, de um aceno de cabeça,
de um “Sim” ou equivalentes (diferentes pessoas revelam aprovação
de maneiras diferentes), é um outro aspecto do comportamento que
é, quase sempre, o antecessor de coisas mais básicas. Embora não
seja um reforçador condicionado tão óbvio como a atenção, ainda
assim figura proeminentemente na maioria de nossos contatos sociais.
A “busca de aprovação”, quando extrema, não é muito bem vista em
nossa sociedade, possivelmente ainda mais que o procurar “chamar a
atenção”, mas há poucos de nós que não tenhamos sido recompensa
dos uma vez ou outra pela “boa vontade” dos outros.
O comportamento afetivo (beijos, carícias, abraços, etc.) da par
te de outros é também um freqüente reforçador para a maioria de
nós, presumivelmente porque relaciona-se com várias espécies de re
forço primário, incluindo o sexual e o “maternal”. As características
de estímulo deste comportamento, como as da aprovação, revelam
muita variação entre indivíduos e grupos, e pode ser difícil distinguir
o seu padrão do da coqueteria, ou mesmo do da submissão (ver abai
55
xo). Os “sinais de afeição”, isto é, o próprio comportamento afetivo
também não são exatamente os mesmos de pessoa a pessoa.
Muitas pessoas em nossa sociedade são reforçadas pelo “ceder”
dos outros, por fazer as coisas “a seu modo”. Esta submissão ou
comportamento submisso é ainda mais difícil de identificar como
um padrão especial do que o padrão de estímulos da afeição ou da
aprovação, mas qualquer um pode lembrar-se de muitos exemplos. “De
pois do senhor!”, “Posso lhe ser útil, senhora?”, “Pode ficar com o
meu pirulito, Joãozinho.”, “Por aqui, senhor, tenho uma mesa reser
vada para o senhor!”, “Você pode ficar de centro-avante”, “Não foi
nada, não doeu muito”. Todas estas expressões derivam seu poder
reforçador do fato de elas, ou respostas como elas, terem algumas
vezes sinalizado recompensas mais concretas, ou a remoção de obs
táculos do caminho que leva a elas. Encorajam o desenvolvimento
de um estilo de vida dominante, de auto-afirmação, “masculino” .por
parte das pessoas a quem se dirige.
As pessoas dominantes, por sua vez, comumente concedem fa
vores àqueles que lhes dão prioridade. Aquele que se afasta para o
outro passar pode, pelo menos, receber um agradecimento ou ser en
corajado a acompanhar; o caixeiro será elogiado pela sua delicadeza;
Pedrinho terá uma chance de dar uma volta no velocípede do João
zinho; o “maitre” receberá uma boa gorgeta; Beltrano deixará que
Sicrano jogue na meia; e o homem cujo pé foi pisado receberá pal-
madinhas no ombro. Tudo isso encoraja a adoção de^um modo de
reagir diferente, subserviente ou “feminino”, e pode atíé resultar no
cortejar a dominância dos outros. Infelizmente, a pessoa cujos refor
ços consistem principalmente nas “sobras” pode também se tornar
presa da ansiedade e do medo.
Atenção, aprovação, afeição, submissão e dominação podem ser
difíceis de identificar como estímulos para o nosso comportamento,
mas há uma espécie de reforçadores condicionados que não oferece
tantas dificuldades. É a classe das “recompensas simbólicas”, um
exemplo das quais foi discutido páginas atrás, na forma da ficha bran*
ca de Moos. O dinheiro é naturalmente o principal espécime dessas
56
recompensas. Ê difícil superestimar o seu poder reforçador em nossa
sociedade. Mas existem outros, algo menos negociáveis, que são fá
ceis de destacar. Abrangem desde as estrelinhas douradas, boletins,
prêmios, bolsas de estudo, menções honrosas e diplomas, até as lin
das taças, medalhas, citações, condecorações e notícias nos jornais
sobre as nossas realizações. Não são, em geral, ocasiões para o re
forço primário imediato, mas nos levam pela estrada que a isso con
duz! Não são estas as únicas espécies de reforço “generalizado”*
que poderiam ser mencionadas aqui; nem foram tratadas tão porme
norizadamente quanto se poderia desejar. Se, contudo, ao fazer um
retrospecto desta seção, o leitor concordar que deu um passo adiante
na compreensão da conduta humana, isto terá sido bastante. Se pu
der ver que o reforço condicionado se baseia no estabelecimento de
uma discriminação, e que a ficha branca de Moos não dista muito
do valor de recompensa do “dinheiro, força, idade, títulos, hierarquia
e posições” (p. 6) nos negócios humanos, não há necessidade de
acrescentar mais nada.
57
John Watson adotou esta técnica em 1916 e, desde então, tem
sido muito popular nos laboratórios norte-americanos, tanto em pes
quisas com seres humanos como com animais. Só recentemente, en
tretanto, foi plenamente reconhecido o que ali ocorria. Watson acre
ditava, como Bechterev e Pavlov tinham acreditado antes dele, que o
procedimento era o mesmo que o empregado no condicionamento da
resposta salivar no cão. Pois não era a associação de um estímulo
neutro com um estímulo incondicionado? O estímulo neutro não pas
sava a eliciar a resposta. Segundo todas as aparências, a resposta é
Sim, mas havia algumas considerações perturbadoras.
Uma delas eram as comunicações que regularmente vinham de
vários laboratórios empenhados em investigações com animais de que
as respostas de flexão ao estímulo condicionado eram bem diferentes
das respostas ao estímulo incondicionado, o choque, exceto por um
breve período no início do condicionamento. Embora as respostas
fossem reconhecidamente semelhantes, as respostas ao choque eram
geralmente descritas.como parecidas com reflexos (respondentes), en
quanto que as dadas ao som pareciam comportamentos voluntários
(operantes). As primeiras eram um movimento rápido e convulsivo,
acarretando uma ampla ação muscular; as últimas, suaves, delibera
das e de uma forma bastante específica de resposta.
*
58
ças mais velhas; um choque forte erà mais eficiente que um choque
fraco. Os resultados referentes à intensidade do choque foram con
firmados nos laboratórios norteramericanos com sujeitos adultos, mas
alguns sujeitos, mesmo com choque intenso não se condicionaram de
maneira alguma. Comumente, os resultados com animais foram con
firmados. O responder difuso foi substituído por reações altamente
específicas à medida que o condicionamento prosseguia; a resposta
condicionada era evocada menos rapidamente do que a incondicio-
nada e o condicionamento era melhor sempre que era possível esqui
var o choque. Além disso, os resultados com seres humanos eram
notoriamente dependentes do tipo de instruções que recebiam e da
experiência anterior dos sujeitos em situações semelhantes.
A chave para a maioria desses problemas se encontra no que
pode ser chamado, meio esdruxulamente, “reforço condicionado ne
gativo”. O leitor estará lembrado da distinção, feita na seção 5, entre
reforçamento positivo e negativo. Os reforçadores positivos foram
definidos como sendo “todos aqueles estímulos que, quando apresetu
tados, agem no sentido de fortalecer o comportamento que os prece
de”. Reforçadores negativos foram definidos como os estímulos cuja
remoção é fortalecedora ou cuja apresentação é enfraquecedora. De
pois, na seção 15 aparece a distinção entre reforçadores primários e
condicionados. Mas todos os reforçadores condicionados descritos fo
ram do tipo positivo. Eram estímulos que, através de uma associa
ção especial com os reforçadores positivos, tornavam-se, eles próprios,
reforçadores. Nenhuma menção foi feita a estímulos que, através de
associação com reforçadores negativos, tivessem assumido uma fun
ção similar.
Esta negligência será agora remediada se se considerar um ou
tro experimento simples com um organismo relativamente simples, o
rato branco de laboratório. Desta vez, o equipamento é uma câmara
com uma divisão no meio e uma porta de ligação. O interior de
uma das divisões está pintado de branco, e tem no chão grades atra
vés das quais é possível aplicar choques elétricos aos pés do sujeito.
A outra divisão é pintada de preto, tem o chão de madeira, e é quase
59
à prova de luz. No teto de cada divisão há um alçapão que permite
colocar ou retirar o animal da câmara. Uma das paredes da divisão
branca é de vidro, o que permite ao experimentador observar o animal.
O procedimento no primeiro dia do experimento é simplesmente
colocar o animal na divisão branca, ligar uma corrente elétrica na
grade do chão, deixando que receba choque até que salte através da
cortina preta da portinhola para a divisão preta. Como se poderia
esperar, o rato resolve rapidamente este problema, em questão de
segundos. Daí por diante o experimentador, depois de ter dado ao
rato alguns minutos de descanso, experimenta outra vez. E outra vez,
até que se tenha acumulado 60 corridas da divisão branca para a
preta. A esta altura, ninguém vai discutir a afirmação de que o cho
que é um reforçador negativo — e que o correr para a divisão preta
foi reforçado pela remoção do choque. Ninguém duvida também que
o choque é um estímulo eliciador para a atividade “emocional”. E
pode-se também concluir que a divisão branca, no decorrer destas
tentativas, tornou-se um estímulo condicionado para esta atividade.
A primeira verificação destas afirmações se faz no dia seguinte.
Mais uma vez o sujeito é colocado na divisão branca. As condições
são as mesmas do dia anterior, exceto pelo fato de (a) a grade do
chão já não estar eletrificada, (b) a portinhola entre as divisões estar
fechada e trancada. Em quinze minutos de observação torna-se óbvio
que a divisão branca atua de jato como um estímulo emocional con
dicionado. Observam-se no comportamento do rato todos os sinais
clássicos de medo: micção, defecação, tremores e respiração acelera
da. Mesmo depois de um Quarto de hora de confinamento na divi
são branca, quando já se pode ver alguma melhoria, o animal con
tinua ainda agachado e trêmulo, obviamente desgraçado.
A segunda verificação é feita no dia seguinte. As condições são
as mesmas do dia anterior, isto é, o choque foi removido da divisão
branca mas a porta de passagem para a divisão preta é destravada e
permanece aberta atrás da cortina. O rato pode agora correr para a
divisão preta e nela permanecer durante mais ou menos um minuto,
depois do qual é retirado e recolocado na divisão branca, onde tem
60
outra chance de fugir. Isto é repetido sessenta vezes ou até que o
animal não abandone mais a divisão branca. Resultado: no fim do
dia, ele estará ainda atravessando a porta com apreciável velocidade
embora não tão rapidamente quanto a princípio. A divisão branca,
apesar de não mais apresentar choque, é ainda alguma coisa da qual
deve fugir. A sua “remoção” é recompensadora. Devido à associa
ção inicial entre a divisão branca e um reforço negativo, o choque,
ela tornou-se um reforçador negativo, ou melhor, um reforço nega
tivo condicionado.
Outros pontos deveriam ser destacados em relação a este expe
rimento. Um ponto é que se o animal fosse confinado na divisão
branca por um período muito longo, no segundo dia ele não tentaria
deixá-la, exceto para algumas explorações no terceiro dia. Ocorre
ria a extinção da resposta emocional ao estímulo divisão branca (ver
seção 10). Esta divisão teria perdido seu poder de reforço negativo
condicionado, de modo que sua remoção deixaria de ser recompensa
dora. O rato não fugiria simplesmente porque nada havia de que
afastar-se.
Um segundo ponto é que, se fizer com que o rato dê mais de
sessenta corridas no terceiro dia, sua velocidade de correr terá dimi
nuído e, por fim, caído para zero. O recolocar repetidamente o ani
mal no terceiro dia na divisão branca terá o mesmo efeito que uma
prolongada exposição no segundo. Não que o comportamento ope
rante de correr se tenha extinguido; ao invés disto, sua causa é que
foi eliminada à medida que a divisão branca vai perdendo sua força
como reforçador negativo ou estímulo emocional condicionado.
Um terceiro ponto é o seguinte. Poder-se-ia ter demonstrado o
reforçamento “negativo” condicionado quase tão facilmente se não se
tivesse permitido que o rato escapasse do choque no primeiro dia de
treino. Teria sido possível aplicar sessenta choques breves enquanto
estivesse confinado à divisão branca e, no terceiro dia, teria sido pos
sível ensiná-lo a correr através da portinhola. O reforço, como antes,
teria sido a remoção da divisão em que recebeu choques.
61
Um outro ponto ainda. Poderíamos ter condicionado o rato a
remover qualquer outra coisa que não a divisão branca. Alterando
ligeiramente o aparelho, poderíamos tê-lo condicionado a corrcr dc
uma divisão para outra e, assim, remover um determinado fator es
pecial do estímulo na situação, digamos desligar uma luz forte ou
uma cigarra. Na verdade, poderíamos ter demonstrado que qualquer
espécie de estimulação que não fosse negativa poderia passar a sê-lo
— até mesmo a estimulação oriunda dos próprios movimentos do
animal. Se um choquc fosse apresentado em intervalos de cinco se
gundos, a menos que o animal estivesse apoiado só sobre as patas
traseiras, poderíamos ter logo um animal que passaria a maior parte
do tempo com as patas dianteiras no ar, escapando assim de suas
outras maneiras de se comportar, todas as quais teriam eventual
mente sido punidas pelo choque.
Se recapitularmos agora o caso do condicionamento de retirada
do dedo, mão ou pé, ele aparece sob uma luz diferente. Parece
agora não ser muito mais do que um comportamento de esquiva,
como o exibido pelo rato que escapa de um reforçador condicionado
como um compartimento branco, uma cigarra ou umja das suas pró
prias respostas. Se o cachorro levanta a pata dianteira ao escutar
um som, e assim evita um choque elétrico na pata, seu reforçamento
bem pode ser derivado da eliminação de uma parte do composto de
estímulos que foi associado ao choque. Não se esperaria que este le
vantar operante se assemelhasse à reação respondente ao choque mais
do que esperaríamos que a corrida determinada do rato para o outro
compartimento se assemelhasse com os saltos que dava feito louco,
inicialmente, quando a grade era eletrificada.
Os resultados dos experimentos sobre a retirada do dedo não
são paralelos exatos dos experimentos de esquiva. Pode ser, contudo,
que experimentos com seres humanos incluam uma situação de con
flito que está ausente no caso de organismos como o cão e o rato.
O comportamento de algumas pessoas, incluindo o relato de como se
“sentem”, sugere uma espécie de esquiva competitiva. De um lado,
há a tendência a evitar o choque, o que vem sendo reforçado pela
62
remoção de um som, uma luz, ou outra ameaça qualquer. De outro
lado, há o que se poderia chamar uma esquiva de uma esquiva, que
foi originariamente reforçada porque recebia aprovação social ou eli
minava a desaprovação. Quando um sujeito relata que se sente “en
vergonhado” ou “meio tolo” por tirar o dedo do elétrodo quando
vem o sinal do choque, isto sugere que no passado suas falhas em
“enfrentar” tal estimulação foi seguida por conseqüências piores ain
da; e que, efetivamente, o deixar de retirar o dedo (para esquivar)
deve-se a um contramovimento que esquiva isto! Uma explicação
como esta pelo menos não contraria a descoberta de que as crianças
anormais adquirem a retirada do dedo mais facilmente que as nor
mais; que as meninas mais rapidamente que os meninos; que as crian
ças menores mais facilmente que as mais velhas; que com choque
forte é mais fácil que com fraco, etc.
Já se deu alguma atenção antes (seção 15) ao papel do reforço
positivo condicionado na vida diária do homem, e sua importância
no controle do comportamento já foi salientada. Os reforçadores
condicionados negativos são ainda dramáticos e vitalmente importan
tes. Uma grande porcentagem de nossos atos, tanto normais como
anormais, parecem ter adquirido quase toda sua força da remoção de
estímulos que adquiriram um caráter aversivo. Os mais óbvios são
as respostas que removem sinais exteriores de perigo. Muitos jogos
e a maioria das ocupações requerem certo grau de comportamentos
de esgueirar-se, eximir-se, furtar-se e esquivar-se em resposta a sinais
do ambiente. De outro modo, como acontece com o cão que deixa
de flexionar a perna ao som, pode vir o desastre.
Há também atividades que demandam escape de sinais providos
pelos nossos próprios movimentos. São importantes nas atividades
em que o equilíbrio e a postura desempenham um papel relevante.
Esquiar, patinar, andar de bicicleta, nadar, mergulhar, fazer acroba
cias, são excelentes exemplos. O ziguezaguear e o cai-não-cai de
quem começa a andar de esquis mostram vividamente a maneira pela
qual os sinais oriundos de um movimento vêm a ser “corrigidos” por
outro. Por fim, os escapes de cair são feitos tão rápida e sutilmente
63
que já não são vistos. Nos arabescos e figurações do ciclista de circo
há muito pouco que lembre as esquivas desajeitadas (ou os tombos
e os arranhões!) do principiante. E para retomar um exemplo ante
rior, nada lembra no passo elástico do andarilho a longa série de
“quase cair” e equilibrar-se que foram os principais ingredientes de
sua “aprendizagem de andar”.
Um aspecto mais sério deste assunto pode ser,aqui rapidamente
mencionado para encerrar esta seção. Reforçadores negativos, primá
rios e condicionados, constituem a maior parte do que chamamos
“punição” (Seção 10). No caso do primário, há efetivamente “feri
mento” corporal, como quando uma criança é espancada, leva palma-'
das ou é fisicamente forçada à submissão. No caso do condiciona
mento, pode ser na forma de um insulto, caçoadas, ironias ou amea
ças, entre outras coisas. Em ambos os casos," contudo, uma resposta
emocional fica condicionada de maneira pavloviana e a situação torna-
-se negativamente reforçadora. A fuga da situação, ou de qualquer
resposta com ela relacionada, torna-se recompensadora.
Um método óbvio de remover estas situações aversivas condicio
nadas é o empregado pelo rato do exemplo anterior, que abandonava
o lugar em que eTa punido tão rapidamente quanto podia. Assim
procedem ocasionalmente os seres humanos. O lugar em que sofre
ram uma perturbação emocional torna-se, para eles, um lugar a que
nunca querem voltar; desenvolvem uma “fobia” em relação a ele e,
através da generalização, a lugares que a ele se assemelhem. Algu
mas vezes, entretanto, mecanismos de defesa menos óbvios são usa
dos para evitar o reaparecimento de sinais ou ameaças de punição.
Uma pessoa pode tornar-se incapaz de “ver” ou “ouvir” aquilo que
seja negativamente reforçador, pode não ser capaz de fazer um mo
vimento que, anteriormente, desempenhou um papel em produzir re
forço negativo; ou pode desenvolver um comportamento que o man
tenha ocupado com estimulações alternativas, elas próprias negativa
mente reforçadoras, mas em menor grau.
Estes e outros modos de fugir das mazelas de nosso mundo atual
são interessantes para o estudioso da aprendizagem bem como para
64
aqueles cuja principal preocupação é com os desajustamentos huma
nos e com sua cura. Os problemas envolvidos não são simples. Nem
de longe tão simples como este apanhado do campo possa ter suge
rido. Mas hoje se pode ver, melhor do que nunca, que necessitarão,
para uma solução completa, de uma ampla compreensão dos princí
pios básicos aos quais o leitor foi introduzido neste trabalho.
17. Pós-escrito
65
Apêndice: curvas acumuladas e registrador acumulado
66
0 1 2 3 0 1 2 3
(minutos) (minutos)
Fig. 1 Fig. 2
0 1 2 3
(minutos)
Fig. 3
67
Seria muito útil ter um aparelho que, automaticamente, produ
zisse curvas de freqüência como estas, no próprio momento em que
as respostas são emitidas. Teríamos economizado o trabalho de
acumular respostas durante as sucessivas unidades de tempo (por
exemplo, cada minuto) e evitado elaborar curvas como as das figu
ras 1, 2 e 3, às vezes muito tempo depois de ter observado o com
portamento. Assim, se o sujeito do experimento (a menina, do exem
plo) construísse seu próprio registro gráfico à medida que se com
portasse, isto economizaria muito trabalho posterior e informaria em
cada momento, durante o experimento, exatamente o que estava ocor
rendo em termos da freqüência da resposta.
Esse aparelho existe! É o registrador acumulado, um dos ins
trumentos modernos mais úteis no estudo experimental do compor
tamento. Produz curvas como aquelas consideradas acima e -muitas
outras. Faz isso por simples adição (acumulação) de respostas e
tempo no registro gráfico (a curva). Exaiídnemos como isto ocorre.
Começa-se com alguma freqüência de resposta que se quer re
gistrar, como nos exemplos mencionados. Suponha que a resposta
seja a de pressionar uma alavanca. Cada vez que a alavanca for su
ficientemente pressionada, ativa o mecanismo que faz com que a pena
percorra verticalmente um degrau mínimo, em direção à parte supe
rior da folha de papel do registro. Se nada mais ocorresse, uma série
dessas respostas formaria uma linha reta no papel, de baixo para
cima, como a linha vertical marcada Respostas nas figuras 1, 2 ou 3.
Mas algo mais ocorre. Quando se aciona o aparelho para re
gistrar a resposta, o papel colocado sob a pena corre muito lenta e
constantemente para a esquerda, em uma velocidade de somente al
guns milímetros por segundo. Se este movimento continuasse por
algum tempo e nenhuma resposta fosse apresentada, a pena desenha
ria uma linha para a direita, tal como a linha horizontal <Jos minutos
em cada uma das três figuras. (Pode-se ver como isto funciona pu
xando lentamente uma folha de papel para a esquerda e mantendo
um lápis numa fosição fixa mais ligeiramente pressionado sobre a
68
superfície do papel.) As respostas, isoladamente, dariam uma linha
vertical; o tempo, isoladamente, uma horizontal.
Quando as respostas são apresentadas no decorrer do tempo, o
registrador acumulado faz curvas como as dos exemplos, ou combi
nações destas curvas. A fim de obter uma descrição pormenorizada
de como isto pode acontecer, suponhamos que já se tenha desenhado
na folha de registro uma linha para Respostas e uma linha para Mi
nutos, como na figura 4. Suponhamos também que se marquem pon
tos em cada linha a intervalos regulares, para mostrar o número de
respostas ou a quantidade de tempo que gastariam. Coloca-se agora
a pena do registrador no ponto zero, onde as duas linhas se encon
tram, e aciona-se o aparelho. Imagine que, com a passagem do tem
po, é possível, para alguns organismos, pressionarem uma alacanva,
obterem um reforço e, automaticamente, registrarem a resposta. Lem-
bre-se que cada resposta elevará a pena no papel na altura de um
pequeno degrau e que cada minuto de tempo será registrado como
uma curta distância horizontal da pena ao deslocar-se para a direita.
Na figura 4, parece que a primeira resposta ocorreu depois de
seis minutos, elevando a pena um degrau acima da linha de base.
Depois de outros três minutos de a pena movimentar-se para a direi
ta, outra resposta ocorreu e a pena moveu-se um outro degrau para
cima. As duas próximas respostas ocorreram aproximadamente no
intervalo de dois minutos e, depois disso, passaram a ocorrer com
constância e com uma freqüência de quase uma resposta por minuto,
até quatorze respostas serem apresentadas. Então, gradualmente, au
mentou cada vez inais o tempo entre as respostas. Finalmente, as
respostas cessaram e a linha do tempo continuou paralela à linha de
base, até o fim do registro. Foi construída a curva de respostas. A
pena pode voltar para a linha de base e um novo registro pode ser
iniciado.
Modificando-se o aspecto de linha quebrada do registro obtido,
enviesando o papel ou colocando-o à distância, pode-se reconhecer
que a “curva” feita é, em alguns aspectos, semelhante àquelas das
figuras 1, 2 e 3. A princípio, há uma ligeira aceleração positiva pa-
69
0 5 10 20 30 40 50
(minutos)
Fig. 4
recida com a que ocorre na figura 1. Segue-se um segmento em linha
reta, como o da figura 3, no qual as respostas aparecem numa fre
qüência constante. E finalmente, uma aceleração negativa, como a
da figura 2. /
Embora a curva da figura 4 tenha sido construída desse modo
especial, para mostrar aceleração positiva e negativa e uma freqüên
cia de respostas constante, os resultados não são muito diversos dos
obtidos em um experimento real. O registro poderia representar, pri
meiro, o condicionamento de uma resposta de pressionar uma ala
vanca em uma criança, com bons pedaços de doce reforçando cada
resposta; a segunda parte poderia representar um período constante
de respostas de comer o doce, depois de a resposta ser condicionada;
e a parte final da curva poderia ser um gráfico do decréscimo de
respostas decorrente da saciação de doce.
Dois outros pontos devem ser esclarecidos antes de encerrar este
assunto de registrador acumulado e de suas operações. Primeiro, a
aparência de linha quebrada da curva de registro acumulado não é,
geralmente, tão óbvia quanto a da figura 4. Quando as unidades das
respostas são muito pequenas e o movimento de tempo muito lento,
é difícil distinguir os degraus; a curva parecerá quase tão lisa quanto
as das três primeiras figuras. (Pode-se, naturalmente, exagerar o efei
to de degrau fazendo que a pena se mova para mais longe em cada
resposta e acelerando o movimento na direção tempo.)
70
Segundo, mesmo nos casos de degraus pequenos e velocidades
baixas, alguns organismos, como pombos, por exemplo, respondem
com alta freqüência e, se nada impedisse a pena, ela ultrapassaria a
parte superior do papel de registro. Por essa razão, os registradores
acumulados estão equipados com um mecanismo de reajuste que faz
a pena voltar automaticamente à linha de base quando alcança uma
determinada altura do papel de registro (quando um certo número de
respostas foi apresentado). O efeito é simüar ao apresentado no
fim do registro da figura 4. Curvas de respostas que se estendem no
tempo, mantendo alta freqüência, podem mostrar muitas voltas e as
censões. (Isto não significa, naturalmente, que se subtraem respostas
do número das já apresentadas; as curvas acumuladas, como o nome
sugere, acumulam respostas — somente adicionam. Se se tivesse no
papel de registro todo o espaço necessário, o registro continuaria até
o fim, sem qualquer necessidade para recomeçar da base.)
71
(
LEITURAS SUGERIDAS
73