Você está na página 1de 11

Condicionamento operante

O conceito de “Condicionamento Operante” foi criado pelo escritor e

psicólogo Burrhus Frederic Skinner. Este refere-se ao procedimento através

do qual é modelada uma resposta no organismo através de reforço

diferencial e aproximações sucessivas. É onde a resposta gera uma

consequência e esta consequência afeta a sua probabilidade de ocorrer

novamente; se a consequência for reforçadora, aumenta a probabilidade, se

for punitiva, além de diminuir a probabilidade de sua ocorrência futura,

gera outros efeitos colaterais. Este tipo de comportamento que tem como

consequência um estímulo que afete sua frequência é chamado

“Comportamento Operante”.

O conceito de Comportamento Operante difere do conceito de

Comportamento respondente, estudado por Pavlov, porque o primeiro

ocorre em um determinado contexto, chamado estímulo discriminativo, e

gera um estímulo que afeta a probabilidade dele ocorrer novamente; o

segundo é diretamente eliciado por algum estímulo e é uma reação

fisiológica do organismo. Uma resposta fisiológica a um estímulo, como

fechar o olho diante de algo que se aproxima dele, retirar o braço diante de

uma agulhada, etc.


O comportamento operante é modelado a partir de nosso repertório inato.

As respostas que gerem mais reforço em média, tendem a aumentar de

frequência e se estabelecer no repertório, ou seja, em um contexto

semelhante tendem a ser novamente emitidas. O tipo de consequência que

aumenta a probabilidade de ocorrência da mesma função de resposta em

contextos semelhantes, chama-se reforço. O reforço pode ser positivo,

quando há a adição de um estímulo no ambiente que resulte no aumento da

frequência da resposta que o gerou; ou negativo, quando a resposta emitida

remove algum estímulo aversivo, ou seja, que a pessoa tende a evitar, do

ambiente.

Os contextos onde existe probabilidade de uma determinada resposta ser

reforçada são chamados estímulos discriminativos, ou SD; os contextos

onde não existe a probabilidade da resposta ser reforçada, são chamados

estímulos delta, ou S∆.

Lei do Efeito de Thorndike

O condicionamento operante, também chamado de condicionamento

instrumental ou aprendizagem instrumental foi primeiramente estudado por

Edward L. Thorndike (1874-1949), que observou o comportamento de

gatos tentando escapar de "caixas problemas".[1] Na primeira vez que os

gatos eram colocados nas caixas, eles demoravam bastante tempo para
escapar delas. Mas, com o passar do tempo, as respostas ineficientes foram

diminuindo de frequência, e as respostas mais efetivas aumentavam de

frequência, e os gatos agora conseguiam escapar em menos tempo e com

menos tentativas. Em sua Lei do Efeito, Thorndike teorizou que as

respostas que produziam consequências mais satisfatórias, foram

"escolhidas" pela experiência e portanto, aumentaram de frequência.

Algumas consequências reforçavam o comportamento, outras

enfraqueciam-no". Thorndike produziu a primeira curva de aprendizagem

com este procedimento. B. F. Skinner (1904-1990)formulou uma análise

mais detalhada do condicionamento operante utilizando de conceitos como

reforçamento, punição e extinção. Seguindo as idéias de Ernst Mach,

Skinner rejeitou as estruturas mediadores de Thorndike requeridas pela

"satisfação" e construiu um novo conceito de comportamento sem a

utilização de tais referências.

Princípios do Reforço

É importante ressaltar, que reforço, ao contrário do que pode pensar o

senso comum, não é uma simples recompensa. Para B. F. Skinner, reforço,

pode ser qualquer evento que aumenta a frequência de uma reação

precedente. Um reforço pode ser uma recompensa tangível. Pode ser um

elogio ou uma atenção. Ou pode ser uma atividade, como poder usar o
carro depois que a louça estiver lavada, ou ter uma folga depois de uma

hora de estudo.[2]

Reforços Primários e Secundários

Os reforços primários - como receber alimento ou ser aliviado de um

choque elétrico - são intrinsecamente satisfatórios. Os reforços secundários

são aprendidos. Se um rato numa caixa de Skinner aprende que uma luz

sinaliza de maneira confiável que a comida está chegando, ele vai se

empenhar em acender a luz. Dinheiro, boas notas, são exemplos de reforços

secundários, cada um das quais está ligado a recompensas mais básicas.[2]

Reforços Imediatos e Retardados

Para ilustrar bem como funcionam esses dois tipos de reforços, pode-se

usar como exemplo um experimento de moldagem em que se condiciona

um rato a apertar uma barra. Antes de efetuar esse comportamento

"desejado", o rato faminto se empenhará numa sequência de

comportamentos "indesejados" - arranhar, farejar, andar de um lado para o

outro. qualquer desses comportamentos que preceda imediatamente o

reforço de comida tem mais probabilidade de ocorrer de novo. Se você

retarda o reforço da pressão da barra por mais 30 segundos, permitindo que


outros comportamentos interfiram e sejam recompensados, não ocorrerá

praticamente qualquer aprendizagem de apertar a barra.[2]

Humanos, ao contrário de ratos, reagem a reforços bem mais retardados: o

pagamento do salário no fim do mês, a nota no fim do semestre, o troféu no

campeonato.

Porém, reforços pequenos, mas imediatos, são às vezes mais atraentes do

que reforços grandes, mas retardados. Fumantes, alcoólatras e outros

usuários de drogas podem saber que seu prazer imediato é mais do que

contrabalançado pelos futuros efeitos perniciosos, mas nem por isso

abandonam seu vício.

Reforço Positivo, Reforço Negativo e Punição

Existem duas formas de reforço que são: o positivo e o negativo. Ambos

têm como escopo ensinar e reforçar um determinado comportamento. O

indivíduo aprende qual o comportamento desejável para alcançar

determinado objetivo. Já a punição reforça qual o comportamento

indesejável, ou seja, que não deve ser manifestado para evitá-la.


No reforço positivo quando o comportamento desejado é alcançado um

elemento de recompensa é adicionado. Para exemplificar o reforço positivo

consideremos um experimento onde um rato é privado de comida. Quando

este puxa determinada alavanca (comportamento desejado) é

disponibilizado o alimento (elemento de recompensa). Com o passar do

tempo o rato ao sentir fome irá puxar a alavanca para receber o alimento.

Desta forma o indivíduo exposto ao reforço positivo aprende o

comportamento adequado.

Já no caso do reforço negativo um elemento aversivo ao indivíduo é

retirado do ambiente como reforço para a continuação do comportamento.

Como por exemplo uma mãe que diz ao filho que ele não precisará lavar a

louça enquanto estiver mantendo seu quarto limpo. Ela retira um elemento

aversivo para o filho (Lavar a louça) para que ele continue com o

comportamento de manter o quarto limpo.

A punição, ao contrário do reforçamento negativo, (que visa a continuação

do comportamento) tem como objetivo a extinção do comportamento, ou

seja, com o passar do tempo, a probabilidade de ele ocorrer novamente

diminui. O reforçamento negativo, não é um evento punitivo: é a remoção

de um evento punitivo. Ambos utilizam de estímulos aversivos.[3]


As punições podem ser de dois tipos: por adição (punição positiva), quando

experiências aversivas são adicionadas, ou por subtração (punição

negativa), quando facilitadores do comportamento são subtraídos. Ambas

as técnicas levam a aquilo que chamamos de extinção.

A punição pode acarretar uma série de problemas: esse tipo de estimulação

aversiva, acarreta respostas do sistema nervoso, entendidas como

ansiedade, depressão, baixa auto-estima.[4] Além do mais, o

comportamento punido não é esquecido, ele é suprimido. Pode ser que após

a estimulação aversiva ter sido eliminada, o comportamento volte a ocorrer:

a criança pode simplesmente aprender a não dizer palavrões em casa, mas

continuar a usá-los em outros lugares.

Ela também suprime o comportamento indesejado, mas não guia a pessoa

para um comportamento mais desejável. A punição diz o que não fazer, o

reforço diz o que fazer. Uma punição combinada com um reforçamento

positivo de comportamentos desejáveis é mais eficiente.


Em suma, a punição rápida e segura pode ser eficaz, e pode de vez em

quando causar menos dor do que o comportamento autodestrutivo que

suprime. Mas ele pode reaparecer, se for possível evitar a punição. Essa

estimulação aversiva também pode provocar efeitos colaterais indesejáveis,

como ansiedade e ensinar agressividade. Os psicólogos preferem dar mais

ênfase ao reforço positivo do que à punição.

Programações de Reforço

Usando-se esquemas de reforço contínuo, a aprendizagem ocorre

rapidamente, mas sem o reforço, a extinção ocorre rapidamente também.

Na vida real, esquemas de reforço contínuo são raros.[2]

Nevin, em 1988, estudou que as reações às vezes são reforçadas, às vezes

não. É o que se chama de reforço parcial. A aprendizagem demora mais, no

começo, mas ela é mais "resistente" à extinção. Imagine um pombo que

aprendeu a bicar uma tecla para obter comida. quando o pesquisador vai

suspendendo gradativamente a entrega de alimento, até que ela ocorra só de

maneira rara e imprevisível, os pombos podem bicar 150.000 vezes sem

recompensa. Com o reforço parcial, a esperança flui eterna (esse é o

princípio do "pombo supersticioso" de Skinner). É o que ocorre por


exemplo, em jogadores compulsivos, que continuam a jogar, mesmo sem

nunca ganharem.

Esquemas de Razão Fixa

Reforçam o comportamento depois de um determinado número de

respostas. Empregados que trabalham em fábricas que recebem por

produção, são reforçados de tal maneira. quando são recompensados.

Esquemas de Razão Variável

Reforçam a primeira resposta depois de uma quantidade imprevisível de

respostas. É o que ocorre com os jogadores e pescadores. A dificuldade de

se extinguir tais comportamentos é de que o reforço aumenta à medida que

aumentam as respostas. As programações de ritmo variável são constantes.

Dependem muito de certos factores.

Esquemas de Intervalos Fixos

Reforça a primeira resposta depois de um período determinado. Como

pessoas que verificam a caixa de correspondência quando a hora do carteiro


passar se aproxima, os pombos bicam uma tecla com mais frequência à

medida que fica mais próxima a hora esperada de recompensa, produzindo

um padrão inconstante de "para-começa".

Esquemas de Intervalo Variável

Reforça a primeira resposta depois de intervalos de tempo variáveis. Como

o questionário imprevisível que reforça o estudo, as programações de

intervalo variável tendem a ciliar respostas lentas e firmes. Caso os

questionários tornem-se previsíveis, os estudantes começarão a seguir o

padrão de pára-começa que caracteriza as programações de intervalo fixo

(em outras palavras, estudarão apenas na véspera).

O Uso dos modelos Animais

Um behaviorista utiliza o comportamento dos animais não como forma de

poder estudar as particularidades que os animais possuem quanto ao seus

comportamentos, mas sim, para procurar leis universais que regem o

comportamento dos organismos. Para Skinner (1956), os esquemas de

reforço do condicionamento operante são universais. Importa pouco, disse

ele, que reação, que reforço ou que espécie você usa. O efeito de

determinada programação de reforço é quase o mesmo: "Pombo, rato,


macaco, o que é o quê? Não importa… O comportamento apresenta

características espantosamente similares."

Thorndike, E. L. (1901). Animal intelligence: An experimental study of the associative

processes in animals. Psychological Review Monograph Supplement, 2, 1-109.

Myers, D (1999) em "Introdução a Psicologia Geral", Rio de Janeiro: LTC - Livros

Técnicos e Científicos Editora S.A.

Skinner, B. F. (1974) em "Sobre O Behaviorismo" São Paulo: Editora Cultrix

Skinner, B. F. (1971) em "Para Além da Liberdade e da Dignidade" Lisboa: Edições 70

Você também pode gostar