Condicionamiento operante: aprendizaje por refuerzo

Condicionamiento operante
El condicionamiento operante es una forma de aprendizaje mediante el cual un sujeto

tiene ms probabilidades de repetir las formas de conducta que conllevan consecuencias
positivas y, por el contrario, menos probabilidades de repetir las que conllevan
consecuencias negativas. El condicionamiento operante es un tipo de aprendizaje
asociativo que tiene que ver con el desarrollo de nuevas conductas en funcin de sus
consecuencias, y no con la asociacin entre estmulos y conductas como ocurre en
el condicionamiento clsico.
El trmino condicionamiento instrumental fue introducido por Edward Thorndike y sugiere
que la conducta sirve de "instrumento" para conseguir un fin y se da por ensayo y error, a
diferencia del Condicionamiento Operante planteado por Skinner el cual establece que
aquellas respuestas que se vean reforzadas tienen tendencia a repetirse y aquellas que
reciban un castigo tendrn menos probabilidad de repetirse.
La investigacin sobre el condicionamiento operante ha dado lugar a una tecnologa muy
minuciosa para la enseanza, denominada modificacin de conducta.
ndice
[ocultar]
1 Primeras investigaciones
2 Procedimientos de condicionamiento
3 Tipos de refuerzos
4 Fases del condicionamiento operante
5 Programas de reforzamiento
6 Distincin entre condicionamiento clsico y operante
7 Bibliografa
Primeras investigaciones[editar]
El psiclogo Edward Thorndike (1874-1949) fue uno de los pioneros en el estudio del
condicionamiento instrumental. Para ello, ide sus denominadas cajas de solucin de
problemas, que eran jaulas de las que los gatos (que eran los animales con los que
trabajaba) podan escapar mediante acciones simples como manipular un cordn,
presionar una palanca o pisar una plataforma. Como incentivo para resolver el problema,
el gato poda ver y oler que fuera de la caja haba comida, pero no poda alcanzarla. Al
principio, el gato comenzaba a hacer movimientos azarosos, hasta que casualmente
resolva el problema, por ejemplo tirando de la polea que abra la jaula. Sin embargo, cada
vez que Thorndike meta al gato en la jaula, tardaba menos en salir. Esto se deba a que
se estaba produciendo un condicionamiento operante: la conducta de tirar de la polea
estaba siendo reforzada por su consecuencia (la apertura de la caja y la obtencin de la
comida). Esta conducta, al ser reforzada, se converta en la conducta ms probable en un
futuro cuando las circunstancias eran similares.
Caja de Skinner
A partir de estos experimentos, Thorndike estableci un principio que denomin Ley del
efecto: Cualquier conducta que en una situacin produce un efecto satisfactorio, se har
ms probable en el futuro. Si la respuesta va seguida de una consecuencia satisfactoria,
la asociacin entre el estmulo y la respuesta se fortalece; si a la respuesta le sigue una
consecuencia desagradable, la asociacin se debilita. En otras palabras, Thorndike
defenda que todos los animales, incluyendo al ser humano, resuelven los problemas
mediante el aprendizaje por ensayo y error.
Tambin los estudios de Pvlov sobre condicionamiento clsico tuvieron una gran
influencia en el estudio del condicionamiento operante. Si bien se trata de procesos de
aprendizaje diferentes, el condicionamiento clsico y el operante comparten varios de sus
principios, como la adquisicin, la extincin, ladiscriminacin o la generalizacin.
El autor ms importante en el estudio del condicionamiento operante es B.F. Skinner. A
finales de la dcada de 1920 empez a trabajar con palomas. Para ello, utilizaba un
ambiente libre de distracciones denominado caja de Skinner, en el que se podan
manipular las condiciones en las que se proporcionaba alimento a los animales. Sus
exhaustivos estudios utilizando este artefacto permitieron a Skinner descubrir muchos de
los factores que influyen en el condicionamiento operante.
Procedimientos de condicionamiento[editar]
Existen cuatro procedimientos o tipos de condicionamiento instrumental:
Refuerzo positivo o condicionamiento de recompensa: Un refuerzo positivo es

un objeto, evento o conducta cuya presencia incrementa la frecuencia de la respuesta
por parte del sujeto. Se trata del mecanismo ms efectivo para hacer que tanto
animales como humanos aprendan. Se denomina refuerzo porque aumenta la
frecuencia de la conducta, y positivo porque el refuerzo est presente. Refuerzos
positivos tpicos son las alabanzas, los regalos o las aportaciones monetarias. Sin
embargo, hay que tener en cuenta que en ocasiones algo que ordinariamente se
considera desagradable puede funcionar como refuerzo positivo, ya que de hecho
incrementa la probabilidad de la respuesta (como cuando se grita a un nio ante una
rabieta, y este se siente reforzado porque as llama la atencin).
Refuerzo negativo: Un refuerzo negativo es un objeto, evento o conducta cuya

retirada incrementa la frecuencia de la respuesta por parte del sujeto. Al igual que el
anterior, se denomina refuerzo porque aumenta la frecuencia de la conducta, pero
negativo porque la respuesta se incrementa cuando el refuerzo desaparece. En el
refuerzo negativo se pueden distinguir dos procedimientos:
Condicionamiento de escape: En este caso, la frecuencia de una

respuesta aumenta porque interrumpe un estmulo aversivo, es decir, un suceso
que est ocurriendo y que el sujeto considera desagradable. Un ejemplo tpico
sera el de un animal que aprieta una palanca porque as elimina una corriente
elctrica o el de un padre que le compra una chuchera a su hijo para dejar de
orle llorar.
Condicionamiento de evitacin: En este caso, la frecuencia de una

respuesta aumenta porque pospone o evita un estmulo aversivo futuro. Un
ejemplo tpico sera el de un alumno que estudia para evitar una mala nota.
Entrenamiento de omisin: Se produce cuando la respuesta operante impide la

presentacin de un refuerzo positivo o de un hecho agradable; es decir, consiste en
retirar el estmulo positivo de una conducta para as provocar la extincin de la
respuesta. Un ejemplo importante es el de tiempo fuera, en el que se retira la
atencin de un nio aislndolo durante un cierto perodo de tiempo.
Castigo: El castigo provoca la disminucin de una conducta porque el suceso que

la sigue es un estmulo aversivo. Un ejemplo tpico es castigar a una rata con una
pequea corriente elctrica cuando pulsa una palanca. Aunque el castigo puede ser en
ocasiones muy eficaz para hacer que desaparezca una conducta, se recomienda
utilizarlo lo menos posible, ya que tiene muchos efectos adversos o no deseados. En
muchas ocasiones la conducta solo desaparece temporalmente o nicamente en los
contextos en los que es probable el castigo. Adems, genera gran cantidad de
consecuencias secundarias (como frustracin, agresividad, etc.) que pueden hacer
que se detenga el proceso de aprendizaje. Por eso, en la aplicacin de castigos es
importante seguir ciertas reglas, como reforzar al mismo tiempo conductas alternativas
a la castigada, aplicarlo inmediatamente despus de la conducta que se quiere
suprimir, o ser constante (ya que castigar una conducta solo a veces produce un
efecto contrario al que se desea).
Tipos de refuerzos[editar]
Lo que es o no es un refuerzo durante el condicionamiento operante depende del individuo
y de las circunstancias en que se encuentra en ese momento. Por ejemplo, unas galletas
pueden suponer un refuerzo para un perro hambriento, pero no para uno que acaba de
comer carne.
Los refuerzos se pueden dividir en dos grandes grupos: los primarios o intrnsecos y los
secundarios o extrnsecos.
Se dice que un reforzador es primario o intrnseco cuando la respuesta es

reforzante por s misma, es decir, cuando la respuesta es en s una fuente de
sensaciones agradables y la accin se fortalece automticamente cada vez que
ocurre. Existen varios tipos de conductas que son intrnsecamente reforzantes. Por
ejemplo, las respuestas que satisfacen necesidades fisiolgicas, como beber cuando
se tiene sed o comer cuando se tiene hambre, son intrnsecamente agradables para la
mayora de los organismos. Muchas actividades sociales o que brindan estimulacin
sensorial o intelectual son tambin con frecuencia intrnsecamente reforzantes, al igual
que la sensacin de progreso en una habilidad. Tambin pueden ser reforzantes por s
mismas todas las conductas que ayudan a un organismo a evitar algn dao. Sin
embargo, las actividades intrnsecamente gratificadoras no siempre son reforzantes
desde el principio; por ejemplo, se necesita cierta habilidad antes de que una actividad
que requiere competencia (como tocar un instrumento musical, por ejemplo) se vuelva
inherentemente satisfactoria.
Los refuerzos secundarios o extrnsecos son aprendidos, y en ellos el premio o

gratificacin no es parte de la actividad misma, sino que obtienen su carcter de
refuerzo por asociacin con los reforzadores primarios. Por ejemplo, las recompensas
monetarias se convierten en refuerzo porque permiten a su vez conseguir refuerzos

primarios. Un tipo de reforzadores extrnsecos especialmente importante, que pueden
influir enormemente cuando se trata de modificar la conducta humana, son
los reforzadores sociales como el afecto, la atencin o la aprobacin.
En la vida real, diversos reforzadores intrnsecos y extrnsecos se encuentran
habitualmente entremezclados en un mismo suceso reforzante.
Fases del condicionamiento operante[editar]
Adquisicin: La adquisicin de la respuesta se refiere a la fase del aprendizaje en

que la respuesta es seguida por reforzadores. Durante la adquisicin la respuesta se
vuelve ms fuerte o ms frecuente, debido a su relacin con la consecuencia
reforzante.
Generalizacin: Las respuestas fortalecidas mediante procedimientos operantes

en un conjunto de circunstancias tienden a extenderse o a generalizarse en
situaciones similares, al igual que ocurre en el condicionamiento clsico. Cuando ms
parecidos sean los contextos, ms probable es la generalizacin.
Discriminacin: Los individuos desarrollan tambin discriminaciones al reforzarse

las respuestas en una situacin, pero no en otra.
Extincin: Cuando se retira el reforzamiento para alguna respuesta particular,

dicha conducta disminuye su frecuencia gradualmente hasta que solo ocurre con la
misma frecuencia con que ocurra antes del reforzamiento. Sin embargo, es importante
advertir que en muchas ocasiones, despus de que se retiren los reforzadores, se
advierte inicialmente un aumento de la cantidad de respuesta y de la frustracin antes
de que empiece la disminucin.
Recuperacin espontnea: Al igual que en el condicionamiento clsico, las

respuestas que se han extinguido vuelven a aparecer algunas veces, es decir, se da
una recuperacin espontnea despus de un descanso
Programas de reforzamiento[editar]
Los programas de reforzamiento son reglas que indican el momento y la forma en que la
aparicin de la respuesta va a ir seguida de un reforzador sobre la administracin del
reforzador. Estos programas influyen en distintos aspectos del aprendizaje, como la
rapidez con la que se aprende inicialmente la respuesta, la frecuencia con la que se
ejecuta la respuesta aprendida, la frecuencia con la que se hacen las pausas despus de
los reforzamientos, o el tiempo que se sigue ejecutando la respuesta una vez que el
refuerzo deja de ser predecible o se suspende.
Existen dos tipos bsicos de reforzamiento: el reforzamiento continuo y el reforzamiento
intermitente. En el reforzamiento continuo cada una de las respuestas da lugar a la
aparicin de un reforzador, como en el caso de una paloma que recibe comida cada vez
que picotea una tecla. Este tipo de reforzamiento parece ser el modo ms eficaz para
condicionar inicialmente la conducta. Sin embargo, cuando el refuerzo cesa (por ejemplo,
cuando desconectamos la entrega de alimento) la extincin tambin es rpida. Por su
parte, en el reforzamiento intermitente las respuestas solo se refuerzan algunas veces,
como en el caso de una persona que juega a las mquinas y recibe el refuerzo o premio
cada varias jugadas. Este tipo de programa produce un patrn ms persistente de
respuestas que un programa continuo cuando el reforzamiento se vuelve impredecible o
cesa. Una combinacin de reforzamiento intermitente y de refuerzo continuo es muy eficaz
cuando se trata de ensear a los sujetos mediante condicionamiento operante: al principio
se utiliza un reforzamiento continuo, para que se adquiera la respuesta, y luego se pasa a

un reforzamiento intermitente, para que sea ms difcil que se extinga.
El reforzamiento intermitente da lugar a los programas de reforzamiento, que pueden ser
de dos tipos: de razn (en funcin del nmero de respuestas) y de intervalo (en funcin del
tiempo). A su vez, cada uno de ellos admite dos tipos de administracin: fija o variable.
Razn fija: El refuerzo se obtiene despus de un nmero fijo de respuestas. Un

ejemplo se da cuando las fbricas pagan a sus obreros despus de producir un
determinado nmero de productos. En realidad, el reforzamiento continuo es un
programa de este tipo de razn 1. Los individuos responden con una tasa
relativamente mayor de respuestas cuando operan bajo programas de razn fija
superior a 1 (depender del caso aplicar la razn ms adecuada), pero por lo general
hacen una pausa para descansar despus de recibir el reforzamiento, antes de
proseguir con la respuesta.
Razn variable: En este caso, el nmero de respuestas para conseguir el

reforzador vara aleatoriamente, aunque siempre dentro de un promedio determinado.
Un ejemplo son las mquinas tragamonedas, que estn programadas para otorgar el
premio conforme a un programa de razn variable. Muchos reforzadores naturales,
como el xito o el reconocimiento, se acercan mucho a este tipo de programas. Los
programas de razn variable producen una tasa de respuesta global elevada
sostenida, y los individuos no hacen pausa despus del refuerzo. Aparentemente, la
incertidumbre de no saber cundo va a llegar el siguiente reforzador mantiene a los
organismos produciendo la respuesta constantemente.
Intervalo fijo: El refuerzo aparece cada vez que trascurre una determinada
cantidad de tiempo, siempre que durante el intervalo se haya dado la respuesta. Un
ejemplo sera el de un padre que verifica cada media hora que su hijo est estudiando,
y cuando es as le hace un halago. Los problemas de intervalo fijo producen una tasa
de respuestas desigual. Una vez que se administra el refuerzo, la tasa de respuestas
tiende a ser baja. Durante el intervalo, la conducta aumenta tpicamente hasta
alcanzar un nivel elevado inmediatamente antes del siguiente reforzador programado.
La cantidad global de respuestas en un programa de intervalos fijos es moderada.
Intervalo variable: El refuerzo est disponible despus de un tiempo que vara

aleatoriamente, pero alrededor de un promedio. Un ejemplo es el de un profesor que
realiza exmenes sorpresa aproximadamente cada semana. Este tipo de programa
por lo general produce una tasa de respuesta constante, pero moderada.
Por lo general, los programas de tasa (razn) producen una adquisicin ms rpida, pero
fcilmente extinguible una vez suspendida la administracin de reforzadores; y los de
intervalo producen una adquisicin ms estable y resistente a la extincin. En la vida real,
estos programas bsicos a menudo se combinan.
Distincin entre condicionamiento clsico y operante[editar]
En el condicionamiento clsico la asociacin se da entre un estmulo condicionado

y uno incondicionado. En el condicionamiento instrumental, la asociacin se da entre
las respuestas y las consecuencias que se derivan de ellas.
En el condicionamiento clsico, el estmulo incondicionado no depende de la

respuesta del sujeto, mientras que en el operante las consecuencias dependen de la
respuesta del sujeto.
En el condicionamiento clsico, la respuesta del sujeto es involuntaria, mientras

que en el instrumental es generalmente voluntaria.
Bibliografa[editar]
Alonso Garca, Jos Ignacio (2008). Psicologa (3. edicin). McGraw Hill. pp. 120
123. ISBN 978-84-481-6117-0.
Campos, L. (1972). Diccionario de Psicologa del Aprendizaje. Mxico: Ciencia de

la Conducta. pp. 120123.
Davidoff, Linda L. (1980). Introduccin a la psicologa (2. edicin). McGraw Hill.

pp. 170197. ISBN 968-451-515-4.
Myers, David G. (1997). Psicologa (2. edicin). Editorial Mdica Panamericana.

pp. 224234. ISBN 84-7903-132-8.
Tarpy, Roger M. (2003). Aprendizaje: teora e investigacin contemporneas.

McGraw Hill.

Condicionamiento operante: aprendizaje por refuerzo

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Condicionamiento operante: aprendizaje por refuerzo

Enviado por

Direitos autorais:

Formatos disponíveis

Condicionamiento operante

El condicionamiento operante es una forma de aprendizaje mediante el cual un sujeto

4 Fases del condicionamiento operante

6 Distincin entre condicionamiento clsico y operante

Refuerzo positivo o condicionamiento de recompensa: Un refuerzo positivo es

Refuerzo negativo: Un refuerzo negativo es un objeto, evento o conducta cuya

Condicionamiento de escape: En este caso, la frecuencia de una

Condicionamiento de evitacin: En este caso, la frecuencia de una

Entrenamiento de omisin: Se produce cuando la respuesta operante impide la

Castigo: El castigo provoca la disminucin de una conducta porque el suceso que

Se dice que un reforzador es primario o intrnseco cuando la respuesta es

Los refuerzos secundarios o extrnsecos son aprendidos, y en ellos el premio o

monetarias se convierten en refuerzo porque permiten a su vez conseguir refuerzos

Fases del condicionamiento operante[editar]

Adquisicin: La adquisicin de la respuesta se refiere a la fase del aprendizaje en

Generalizacin: Las respuestas fortalecidas mediante procedimientos operantes

Discriminacin: Los individuos desarrollan tambin discriminaciones al reforzarse

Extincin: Cuando se retira el reforzamiento para alguna respuesta particular,

Recuperacin espontnea: Al igual que en el condicionamiento clsico, las

se utiliza un reforzamiento continuo, para que se adquiera la respuesta, y luego se pasa a

Razn fija: El refuerzo se obtiene despus de un nmero fijo de respuestas. Un

Razn variable: En este caso, el nmero de respuestas para conseguir el

Intervalo variable: El refuerzo est disponible despus de un tiempo que vara

Distincin entre condicionamiento clsico y operante[editar]

En el condicionamiento clsico la asociacin se da entre un estmulo condicionado

En el condicionamiento clsico, el estmulo incondicionado no depende de la

En el condicionamiento clsico, la respuesta del sujeto es involuntaria, mientras

Campos, L. (1972). Diccionario de Psicologa del Aprendizaje. Mxico: Ciencia de

Davidoff, Linda L. (1980). Introduccin a la psicologa (2. edicin). McGraw Hill.

Myers, David G. (1997). Psicologa (2. edicin). Editorial Mdica Panamericana.

Tarpy, Roger M. (2003). Aprendizaje: teora e investigacin contemporneas.

Você também pode gostar