Condicionamento Operante

Condicionamento operante
O conceito de “Condicionamento Operante” foi criado pelo escritor e
psicólogo Burrhus Frederic Skinner. Este refere-se ao procedimento através
do qual é modelada uma resposta no organismo através de reforço
diferencial e aproximações sucessivas. É onde a resposta gera uma
consequência e esta consequência afeta a sua probabilidade de ocorrer
novamente; se a consequência for reforçadora, aumenta a probabilidade, se
for punitiva, além de diminuir a probabilidade de sua ocorrência futura,
gera outros efeitos colaterais. Este tipo de comportamento que tem como
consequência um estímulo que afete sua frequência é chamado
“Comportamento Operante”.
O conceito de Comportamento Operante difere do conceito de
Comportamento respondente, estudado por Pavlov, porque o primeiro
ocorre em um determinado contexto, chamado estímulo discriminativo, e
gera um estímulo que afeta a probabilidade dele ocorrer novamente; o
segundo é diretamente eliciado por algum estímulo e é uma reação
fisiológica do organismo. Uma resposta fisiológica a um estímulo, como
fechar o olho diante de algo que se aproxima dele, retirar o braço diante de
uma agulhada, etc.

O comportamento operante é modelado a partir de nosso repertório inato.
As respostas que gerem mais reforço em média, tendem a aumentar de
frequência e se estabelecer no repertório, ou seja, em um contexto
semelhante tendem a ser novamente emitidas. O tipo de consequência que
aumenta a probabilidade de ocorrência da mesma função de resposta em
contextos semelhantes, chama-se reforço. O reforço pode ser positivo,
quando há a adição de um estímulo no ambiente que resulte no aumento da
frequência da resposta que o gerou; ou negativo, quando a resposta emitida
remove algum estímulo aversivo, ou seja, que a pessoa tende a evitar, do
ambiente.
Os contextos onde existe probabilidade de uma determinada resposta ser
reforçada são chamados estímulos discriminativos, ou SD; os contextos
onde não existe a probabilidade da resposta ser reforçada, são chamados
estímulos delta, ou S∆.
Lei do Efeito de Thorndike
O condicionamento operante, também chamado de condicionamento
instrumental ou aprendizagem instrumental foi primeiramente estudado por
Edward L. Thorndike (1874-1949), que observou o comportamento de
gatos tentando escapar de "caixas problemas".[1] Na primeira vez que os
gatos eram colocados nas caixas, eles demoravam bastante tempo para
escapar delas. Mas, com o passar do tempo, as respostas ineficientes foram
diminuindo de frequência, e as respostas mais efetivas aumentavam de
frequência, e os gatos agora conseguiam escapar em menos tempo e com
menos tentativas. Em sua Lei do Efeito, Thorndike teorizou que as
respostas que produziam consequências mais satisfatórias, foram
"escolhidas" pela experiência e portanto, aumentaram de frequência.
Algumas consequências reforçavam o comportamento, outras
enfraqueciam-no". Thorndike produziu a primeira curva de aprendizagem
com este procedimento. B. F. Skinner (1904-1990)formulou uma análise
mais detalhada do condicionamento operante utilizando de conceitos como
reforçamento, punição e extinção. Seguindo as idéias de Ernst Mach,
Skinner rejeitou as estruturas mediadores de Thorndike requeridas pela
"satisfação" e construiu um novo conceito de comportamento sem a
utilização de tais referências.
Princípios do Reforço
É importante ressaltar, que reforço, ao contrário do que pode pensar o
senso comum, não é uma simples recompensa. Para B. F. Skinner, reforço,
pode ser qualquer evento que aumenta a frequência de uma reação
precedente. Um reforço pode ser uma recompensa tangível. Pode ser um
elogio ou uma atenção. Ou pode ser uma atividade, como poder usar o
carro depois que a louça estiver lavada, ou ter uma folga depois de uma
hora de estudo.[2]
Reforços Primários e Secundários
Os reforços primários - como receber alimento ou ser aliviado de um
choque elétrico - são intrinsecamente satisfatórios. Os reforços secundários
são aprendidos. Se um rato numa caixa de Skinner aprende que uma luz
sinaliza de maneira confiável que a comida está chegando, ele vai se
empenhar em acender a luz. Dinheiro, boas notas, são exemplos de reforços
secundários, cada um das quais está ligado a recompensas mais básicas.[2]
Reforços Imediatos e Retardados
Para ilustrar bem como funcionam esses dois tipos de reforços, pode-se
usar como exemplo um experimento de moldagem em que se condiciona
um rato a apertar uma barra. Antes de efetuar esse comportamento
"desejado", o rato faminto se empenhará numa sequência de
comportamentos "indesejados" - arranhar, farejar, andar de um lado para o
outro. qualquer desses comportamentos que preceda imediatamente o
reforço de comida tem mais probabilidade de ocorrer de novo. Se você
retarda o reforço da pressão da barra por mais 30 segundos, permitindo que

outros comportamentos interfiram e sejam recompensados, não ocorrerá
praticamente qualquer aprendizagem de apertar a barra.[2]
Humanos, ao contrário de ratos, reagem a reforços bem mais retardados: o
pagamento do salário no fim do mês, a nota no fim do semestre, o troféu no
campeonato.
Porém, reforços pequenos, mas imediatos, são às vezes mais atraentes do
que reforços grandes, mas retardados. Fumantes, alcoólatras e outros
usuários de drogas podem saber que seu prazer imediato é mais do que
contrabalançado pelos futuros efeitos perniciosos, mas nem por isso
abandonam seu vício.
Reforço Positivo, Reforço Negativo e Punição
Existem duas formas de reforço que são: o positivo e o negativo. Ambos
têm como escopo ensinar e reforçar um determinado comportamento. O
indivíduo aprende qual o comportamento desejável para alcançar
determinado objetivo. Já a punição reforça qual o comportamento
indesejável, ou seja, que não deve ser manifestado para evitá-la.

No reforço positivo quando o comportamento desejado é alcançado um
elemento de recompensa é adicionado. Para exemplificar o reforço positivo
consideremos um experimento onde um rato é privado de comida. Quando
este puxa determinada alavanca (comportamento desejado) é
disponibilizado o alimento (elemento de recompensa). Com o passar do
tempo o rato ao sentir fome irá puxar a alavanca para receber o alimento.
Desta forma o indivíduo exposto ao reforço positivo aprende o
comportamento adequado.
Já no caso do reforço negativo um elemento aversivo ao indivíduo é
retirado do ambiente como reforço para a continuação do comportamento.
Como por exemplo uma mãe que diz ao filho que ele não precisará lavar a
louça enquanto estiver mantendo seu quarto limpo. Ela retira um elemento
aversivo para o filho (Lavar a louça) para que ele continue com o
comportamento de manter o quarto limpo.
A punição, ao contrário do reforçamento negativo, (que visa a continuação
do comportamento) tem como objetivo a extinção do comportamento, ou
seja, com o passar do tempo, a probabilidade de ele ocorrer novamente
diminui. O reforçamento negativo, não é um evento punitivo: é a remoção
de um evento punitivo. Ambos utilizam de estímulos aversivos.[3]

As punições podem ser de dois tipos: por adição (punição positiva), quando
experiências aversivas são adicionadas, ou por subtração (punição
negativa), quando facilitadores do comportamento são subtraídos. Ambas
as técnicas levam a aquilo que chamamos de extinção.
A punição pode acarretar uma série de problemas: esse tipo de estimulação
aversiva, acarreta respostas do sistema nervoso, entendidas como
ansiedade, depressão, baixa auto-estima.[4] Além do mais, o
comportamento punido não é esquecido, ele é suprimido. Pode ser que após
a estimulação aversiva ter sido eliminada, o comportamento volte a ocorrer:
a criança pode simplesmente aprender a não dizer palavrões em casa, mas
continuar a usá-los em outros lugares.
Ela também suprime o comportamento indesejado, mas não guia a pessoa
para um comportamento mais desejável. A punição diz o que não fazer, o
reforço diz o que fazer. Uma punição combinada com um reforçamento
positivo de comportamentos desejáveis é mais eficiente.

Em suma, a punição rápida e segura pode ser eficaz, e pode de vez em
quando causar menos dor do que o comportamento autodestrutivo que
suprime. Mas ele pode reaparecer, se for possível evitar a punição. Essa
estimulação aversiva também pode provocar efeitos colaterais indesejáveis,
como ansiedade e ensinar agressividade. Os psicólogos preferem dar mais
ênfase ao reforço positivo do que à punição.
Programações de Reforço
Usando-se esquemas de reforço contínuo, a aprendizagem ocorre
rapidamente, mas sem o reforço, a extinção ocorre rapidamente também.
Na vida real, esquemas de reforço contínuo são raros.[2]
Nevin, em 1988, estudou que as reações às vezes são reforçadas, às vezes
não. É o que se chama de reforço parcial. A aprendizagem demora mais, no
começo, mas ela é mais "resistente" à extinção. Imagine um pombo que
aprendeu a bicar uma tecla para obter comida. quando o pesquisador vai
suspendendo gradativamente a entrega de alimento, até que ela ocorra só de
maneira rara e imprevisível, os pombos podem bicar 150.000 vezes sem
recompensa. Com o reforço parcial, a esperança flui eterna (esse é o
princípio do "pombo supersticioso" de Skinner). É o que ocorre por

exemplo, em jogadores compulsivos, que continuam a jogar, mesmo sem
nunca ganharem.
Esquemas de Razão Fixa
Reforçam o comportamento depois de um determinado número de
respostas. Empregados que trabalham em fábricas que recebem por
produção, são reforçados de tal maneira. quando são recompensados.
Esquemas de Razão Variável
Reforçam a primeira resposta depois de uma quantidade imprevisível de
respostas. É o que ocorre com os jogadores e pescadores. A dificuldade de
se extinguir tais comportamentos é de que o reforço aumenta à medida que
aumentam as respostas. As programações de ritmo variável são constantes.
Dependem muito de certos factores.
Esquemas de Intervalos Fixos
Reforça a primeira resposta depois de um período determinado. Como
pessoas que verificam a caixa de correspondência quando a hora do carteiro

passar se aproxima, os pombos bicam uma tecla com mais frequência à
medida que fica mais próxima a hora esperada de recompensa, produzindo
um padrão inconstante de "para-começa".
Esquemas de Intervalo Variável
Reforça a primeira resposta depois de intervalos de tempo variáveis. Como
o questionário imprevisível que reforça o estudo, as programações de
intervalo variável tendem a ciliar respostas lentas e firmes. Caso os
questionários tornem-se previsíveis, os estudantes começarão a seguir o
padrão de pára-começa que caracteriza as programações de intervalo fixo
(em outras palavras, estudarão apenas na véspera).
O Uso dos modelos Animais
Um behaviorista utiliza o comportamento dos animais não como forma de
poder estudar as particularidades que os animais possuem quanto ao seus
comportamentos, mas sim, para procurar leis universais que regem o
comportamento dos organismos. Para Skinner (1956), os esquemas de
reforço do condicionamento operante são universais. Importa pouco, disse
ele, que reação, que reforço ou que espécie você usa. O efeito de
determinada programação de reforço é quase o mesmo: "Pombo, rato,

macaco, o que é o quê? Não importa… O comportamento apresenta
características espantosamente similares."
Thorndike, E. L. (1901). Animal intelligence: An experimental study of the associative
processes in animals. Psychological Review Monograph Supplement, 2, 1-109.
Myers, D (1999) em "Introdução a Psicologia Geral", Rio de Janeiro: LTC - Livros
Técnicos e Científicos Editora S.A.
Skinner, B. F. (1974) em "Sobre O Behaviorismo" São Paulo: Editora Cultrix
Skinner, B. F. (1971) em "Para Além da Liberdade e da Dignidade" Lisboa: Edições 70

Condicionamento Operante

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Condicionamento Operante

Enviado por

Direitos autorais:

Formatos disponíveis

Condicionamento operante

O conceito de “Condicionamento Operante” foi criado pelo escritor e

psicólogo Burrhus Frederic Skinner. Este refere-se ao procedimento através

do qual é modelada uma resposta no organismo através de reforço

diferencial e aproximações sucessivas. É onde a resposta gera uma

consequência e esta consequência afeta a sua probabilidade de ocorrer

novamente; se a consequência for reforçadora, aumenta a probabilidade, se

for punitiva, além de diminuir a probabilidade de sua ocorrência futura,

consequência um estímulo que afete sua frequência é chamado

O conceito de Comportamento Operante difere do conceito de

Comportamento respondente, estudado por Pavlov, porque o primeiro

ocorre em um determinado contexto, chamado estímulo discriminativo, e

gera um estímulo que afeta a probabilidade dele ocorrer novamente; o

segundo é diretamente eliciado por algum estímulo e é uma reação

fisiológica do organismo. Uma resposta fisiológica a um estímulo, como

uma agulhada, etc.

As respostas que gerem mais reforço em média, tendem a aumentar de

frequência e se estabelecer no repertório, ou seja, em um contexto

semelhante tendem a ser novamente emitidas. O tipo de consequência que

aumenta a probabilidade de ocorrência da mesma função de resposta em

contextos semelhantes, chama-se reforço. O reforço pode ser positivo,

quando há a adição de um estímulo no ambiente que resulte no aumento da

frequência da resposta que o gerou; ou negativo, quando a resposta emitida

remove algum estímulo aversivo, ou seja, que a pessoa tende a evitar, do

Os contextos onde existe probabilidade de uma determinada resposta ser

reforçada são chamados estímulos discriminativos, ou SD; os contextos

onde não existe a probabilidade da resposta ser reforçada, são chamados

estímulos delta, ou S∆.

Lei do Efeito de Thorndike

O condicionamento operante, também chamado de condicionamento

instrumental ou aprendizagem instrumental foi primeiramente estudado por

Edward L. Thorndike (1874-1949), que observou o comportamento de

gatos tentando escapar de "caixas problemas".[1] Na primeira vez que os

diminuindo de frequência, e as respostas mais efetivas aumentavam de

frequência, e os gatos agora conseguiam escapar em menos tempo e com

menos tentativas. Em sua Lei do Efeito, Thorndike teorizou que as

respostas que produziam consequências mais satisfatórias, foram

"escolhidas" pela experiência e portanto, aumentaram de frequência.

Algumas consequências reforçavam o comportamento, outras

enfraqueciam-no". Thorndike produziu a primeira curva de aprendizagem

com este procedimento. B. F. Skinner (1904-1990)formulou uma análise

mais detalhada do condicionamento operante utilizando de conceitos como

reforçamento, punição e extinção. Seguindo as idéias de Ernst Mach,

Skinner rejeitou as estruturas mediadores de Thorndike requeridas pela

"satisfação" e construiu um novo conceito de comportamento sem a

utilização de tais referências.

É importante ressaltar, que reforço, ao contrário do que pode pensar o

senso comum, não é uma simples recompensa. Para B. F. Skinner, reforço,

pode ser qualquer evento que aumenta a frequência de uma reação

precedente. Um reforço pode ser uma recompensa tangível. Pode ser um

Reforços Primários e Secundários

Os reforços primários - como receber alimento ou ser aliviado de um

choque elétrico - são intrinsecamente satisfatórios. Os reforços secundários

sinaliza de maneira confiável que a comida está chegando, ele vai se

empenhar em acender a luz. Dinheiro, boas notas, são exemplos de reforços

secundários, cada um das quais está ligado a recompensas mais básicas.[2]

Reforços Imediatos e Retardados

usar como exemplo um experimento de moldagem em que se condiciona

um rato a apertar uma barra. Antes de efetuar esse comportamento

"desejado", o rato faminto se empenhará numa sequência de

comportamentos "indesejados" - arranhar, farejar, andar de um lado para o

outro. qualquer desses comportamentos que preceda imediatamente o

reforço de comida tem mais probabilidade de ocorrer de novo. Se você