Escolar Documentos
Profissional Documentos
Cultura Documentos
PRINCIPIOS DE APRENDIZAJE Y
CONDUCTA
CAPITULO 5 : EL CONDICIONAMIENTO INSTRUMENTAL : FUNDAMENTOS
PRIMERAS INVESTIGACIONES SOBRE CONDICIONAMIENTO
INSTRUMENTAL
Las diferentes cajas-problema requeran del gato diferentes respuestas para salir. Algunas eran
ms fciles que otras. En las cajas ms simples, los movimientos aleatorios del gato le llevaban
a escapar y a acceder a la comida, Conforme se repetan los ensayos, el gato escapaba cada vez
ms de prisa. En cajas ms complicadas, como la caja K que se muestra en la figura 5.l, el
escapar mejoraba con la prctica, pero ms lentamente. En la caja K el gato, para escapar, tena
que tirar de una cuerda, presionar un pedal y abrir uno de los dos picaportes. La figura 5.1
muestra los tiempos medios que tardaban en escapar cinco gatos distintos, En el primer ensayo,
ninguno de los gatos escap en los diez minutos de tiempo mximo permitido. La actuacin de
los gatos mejor en los ltimos ensayos; cerca del final del experimento escapaban en dos o tres
minutos, Thorndike interpret que los resultados de sus estudios reflejaban el arprendizaje de una
asociacin.
Thorndike pens que el lograr escapar llevaba al aprendizaje de una asociacin entre los
estmulos del interior de la caja-problema y las respuestas de escape. Cuando la asociacin, o
conexin, entre la caja y las respuestas con xito se fortaleca, el gato daba esas respuestas en
cuanto se le encerraba en la caja-problema. Las consecuencias de las respuestas con xito (el
escapar de la caja) fortalecan la asociacin entre los estmulos de la caja y esas respuestas.
Es importante recalcar aqu que, de acuerdo con la ley del efecto, los animales aprenden una
asociacin entre la respuesta y los estmulos presentes en el momento de la respuesta. La
consecuencia de la respuesta no est implicada en la asociacin. La consecuencia, satisfactoria o
molesta, simplemente sirve para fortalecer o debilitar el lazo, o asociacin, entre la respuesta y la
situacin a estimular.
INSTRUMENTAL
Otro laberinto utilizado con frecuencia es el laberinto en T, que se muestra en el lado derecho de
la figura 5.2. El laberinto en T consiste en una caja de salida y callejones que forman una T. Se
coloca una caja de meta al final de cada brazo de la T. Dado que tiene dos cajas de meta, el
laberinto en T es adecuado para estudiar la conducta de eleccin instrumental. Por
ejemplo, el experimentador puede poner un cebo con comida natural en una caja de meta y en la
otra caja comida sazonada con Nutrasweet (un edulcorante artificial). Colocando varias veces la
rata en el laberinto en T y viendo qu brazo escoge, el experimentador puede medir la
preferencia por una u otra comida. La latencia y velocidad del recorrido por el tronco de la T
hasta los brazos tambin nos proporciona una informacin importante. Si ninguna de las dos
alternativas que se le suministran en las cajas de meta es apetitosa, la rata puede tener una
latencia larga para iniciar el recorrido en el laberinto y puede que ande despacio.
Los mtodos de operante libre permiten al sujeto repetir libremente la respuesta instrumental
una y otra vez. Los mtodos de operante libre fueron ideados por B. F. Skinner (1938) para
estudiar la conducta de una manera ms continua de la que es posible con los laberintos. Antes de
que pueda ser analizada experimentalmente una conducta, se tiene que definir una unidad
medible de la conducta. Las observaciones comunes de la conducta indican que la conducta es 1
continua. Una actividad lleva a otra. Skinner propuso el concepto de operante como forma de
dividir la conducta en unidades significativas y medibles.
La caja de Skinner es una caja experimental pequea que contiene una especie de palanca que la
rata puede manipular. La cmara tambin posee un mecanismo que suministra un premio, como
comida o agua. En el experimento ms simple se coloca una rata hambrienta en la cmara. La
palanca se conecta electrnicamente al sistema de suministro de comida. Cuando la rata
presiona la palanca, cae una bola de comida en un cuenco.
Las respuestas operantes como la de presin de la palanca se definen en trminos del efecto que
tienen sobre el ambiente. Las actividades que ejercen el mismo efecto sobre el ambiente se
consideran ejemplos del mismo operante. El hecho esencial no son los msculos que
intervengan en la conducta, sino la forma en que la conducta opera sobre el ambiente. Por
ejemplo, la respuesta operante de presin de la palanca en las ratas se define tpicamente como el
descenso de la palanca que se precisa para causar el cierre del microinterruptor. El sujeto puede
presionar la palanca con su pata delantera derecha, con la izquierda o con el rabo. Todas esas
diferentes respuestas musculares constituyen el mismo operante si todas presionan la palanca
hasta abajo. Se supone que las distintas formas de presionar la palanca son funcionalmente
equivalentes porque todas tienen el mismo efecto sobre el ambiente: cerrar el microinterruptor.
La mayora de las ratas, cuando son colocadas en una caja de Skinner, no presionan casi nunca la
palanca. Existen dos pasos preliminares para el establecimiento de la conducta de presin de la
palanca. Se ensea primero a los animales el momento en que la comida est disponible en el
cuenco. Esto se realiza emparejando repetidamente el sonido del aparato de suministrar la
comida con el suministro de una bolita de comida en el cuenco. Despus de suficientes
emparejamientos de este tipo, el sonido del suministro de comida hace de estmulo
condicionado para la presencia de comida en el cuenco. Esta fase preliminar del
condicionamiento se llama entrenamiento al comedero.
Despus del entrenamiento al comedero, el sujeto est preparado para aprender la respuesta
instrumental requerida. La mayora de las respuestas instrumentales se pueden analizar en
trminos de sus componentes.
Por ejemplo, para presionar la palanca es necesario que el sujeto se acerque a la palanca, levante
las patas delanteras por encima de la palanca y empuje hacia abajo. Para facilitar la presin de la
palanca, el experimentador puede comenzar dando comida al sujeto cuando ste realiza los
componentes preliminares de la respuesta de presin de la palanca. En un principio se le puede
reforzar al sujeto slo por el hecho de aproximarse a la palanca. Despus se le puede entregar el
premio slo si el sujeto huele o toca la palanca. Por ltimo, se le puede entregar el premio slo si
el animal presiona realmente la palanca. La secuencia de pasos del entrenamiento se llama
moldeamiento por aproximaciones sucesivas. Antes de entregar el premio el experimentador
va pidiendo cada vez un acercamiento mayor a la conducta deseada.
Cuando se mete un sujeto en una caja de Skinner, ste despliega una amplia variedad de
actividades. Cada actividad posee una tasa concreta de aparicin antes del condicionamiento.
Una rata nueva, por ejemplo, posee una alta tasa de respuestas de oler y una tasa baja de
respuestas de presin de la palanca. Esta tasa inicial de respuestas, antes de que se introduzca
una manipulacin experimental, se llama lnea de base del operante libre. La lnea de base del
operante libre puede usarse para valorar el cambio de conducta que tiene lugar cuando se
introduce un procedimiento de condicionamiento. El reforzamiento de la presin de la palanca,
por ejemplo, aumentar la tasa de esta respuesta desde un nivel operante bajo hasta una tasa
mucho ms alta.
PROCEDIMIENTOS DE CONDICIONAMIENTO INSTRUMENTAL
En todas las situaciones de condicionamiento instrumental, la conducta del sujeto produce algn
tipo de consecuencia en el ambiente. Los procedimientos de condicionamienro instrumental
pueden clasificarse segn la naturaleza del acontecimiento ambiental controlado por la conducta.
El acontecimiento puede ser agradable o desagradable. Un acontecimiento agradable se llama
estmulo apetitivo. Un acontecimiento desagradable se llama estmulo aversivo. Otro
factor importante en la clasificacin de los procedimientos de condicionamiento instrumental es
la relacin, o contingencia, entre la respuesta y el acontecimiento ambiental que controla. La
respuesta instrumental puede producir el acontecimiento (en cuyo caso se dice que tiene lugar
una contingencia positiva o eliminarlo (en cuyo caso se dice que tiene lugar una contingencia 1
negativa). La tabla 5.1 describe cuatro procedimientos comunes de condicionamiento
instrumental. Los procedimientos difieren en el tipo de estmulo (reforzador apetitivo o
aversivo) que se controla con la respuesta instrumental, y en si la respuesta produce o elimina el
estmulo.
EL REFORZAMIENTO POSITIVO
El trmino reforzamiento positivo se refiere a una clase de situaciones en las que existe una
contingencia positiva entre la respuesta instrumental y un estmulo reforzador apetitivo. En otras
palabras, si el sujeto ejecuta la respuesta instrumental, recibe el estmulo reforzador; si el sujeto
no ejecuta la respuesta, el estmulo reforzador no se presenta. Dar una bolita de comida a una
rata hambrienta siempre que presiona la palanca es un ejemplo de laboratorio de reforzamiento
positivo. Existen muchos ejemplos de reforzamiento positivo fuera del laboratorio. Un padre
puede dar un dulce a su hija slo cuando sta deja los juguetes; un profesor puede alabar a un
estudiante slo cuando le presenta un buen trabajo; o una empleada puede recibir un cheque
extra slo cuando realiza bien su labor. La intencin del padre, del profesor y del jefe es
asegurar que la respuesta instrumental siga producindose y, quiz, que incluso aumente su
frecuencia.
EL CASTIGO
El trmino castigo se refiere a una clase de situaciones en las que existe una contingencia
positiva entre la respuesta instrumental y un estmulo desagradable o aversivo. Si el sujeto
ejecuta la respuesta instrumental, recibe el estmulo aversivo; si no ejecuta la respuesta
instrumental, el estmulo aversivo no se presenta. Una madre puede reprender a su hijo por correr
por la calle, pero no por jugar tranquilamente en un jardn; el jefe puede criticarte por llegar tarde
a una reunin; un profesor puede suspender a alguien porque ha contestado muchas preguntas
mal. Esos procedimientos disminuyen la probabilidad en el futuro de la respuesta instrumental.
Los experimentos de laboratorio sobre castigo incluyen, por lo general, algn tipo de 1
reforzamiento positivo para conseguir que la conducta instrumental se produzca de vez en
cuando. En un principio, se puede entrenar a los sujetos a dar alguna respuesta para obtener un
reforzamiento positivo, como presionar una palanca o correr por un pasillo por comida. Una vez
que se establece la respuesta de la palanca se puede presentar un estmulo aversivo, como una
descarga elctrica, despus de cada presin de la palanca. En el ejemplo del corredor, el sujeto
puede recibir una breve descarga en la caja de meta. El resultado es un descenso en la presin de
la palanca o en la velocidad de carrera.
EL REFORZAMIENTO NEGATIVO
EL ENTRENAMIENTO DE OMISIN
Otro tipo de entrenamiento que implica una contingencia negativa entre la respuesta instrumental 1
y el reforzador se llama entrenamiento de omisin. En este caso, la respuesta instrumental impide
la aparicin de un hecho agradable, o reforzador apetitivo. Si el sujeto da la respuesta
instrumental no se presenta el reforzador apetitivo. As pues, el reforzador se entrega slo si el
sujeto retiene la respuesta instrumental. Utilizamos el entrenamiento de omisin cuando le
pedirnos a un nio que se vaya a su habitacin despus de hacer algo mato. Los padres no
introducen un estmulo aversivo cuando le dicen al nio que se vaya a su cuarto. No existe nada
aversivo en la habitacin del nio. Ms bien, al enviar al nio a su cuarto lo que hacen los
padres es apartar las fuentes de reforzamiento positivo, como por ejemplo jugar con amigos o ver
la televisin. El retirar el carnet de conducir a alguien por conducir bebido tambin constituye un
entrenamiento de omisin (retirada del reforzamiento o privilegio de conducir).
Existe a menudo una gran confusin sobre los trminos que se utilizan para describir los
procedimientos de condicionamiento instrumental. Varios comentarios pueden ayudar a
clarificar el tema. En primer lugar, los trminos reforzamiento negativo y positivo no se refieren a
resultados agradables o desagradables. Se refieren a contingencias positivas y negativas entre la
respuesta instrumental y su consecuencia sobre el ambiente. El reforzamiento positivo implica
una contingencia positiva entre la conducta y un hecho ambiental (la presentacin de un
estmulo provechoso), y el reforzamiento negativo implica una contingencia negativa entre la
conducta y un acontecimiento ambiental (la retirada de un estmulo aversivo). El trmino
reforzarniento se utiliza en ambos casos porque tanto el reforzamiento positivo como el negativo
suponen un fortalecimiento ( o refortalecimiento ) de la conducta.