Sintesis de TARPY R Aprendizaje. Teoria PDF

Esquema-síntesis de
TARPY, ROGER M.:
APRENDIZAJE:
Teoría e investigación
contemporáneas
(Segunda parte)
Elaborado por
José Antonio López
Índice (con hipervínculos)
8. Procedimientos básicos del condicionamiento operante .......................................................................1
9. Variables que afectan al aprendizaje instrumental ................................................................................4
10. Fenómenos del condicionamiento instrumental ..................................................................................7
11. Perspectivas teóricas en el condicionamiento instrumental ..............................................................12
12. Especializaciones adaptativas del aprendizaje ..................................................................................16
13. Generalización y discriminación .......................................................................................................20
Presentación
Los esquemas del presente documento constituyen una síntesis de la segunda parte
del libro Aprendizaje: Teoría e investigación contemporáneas, de Roger M. Tarpy, Ed.
McGraw-Hill, Madrid, 2003.
Los apartados se corresponden en general con los capítulos del libro original.
Se han omitido algunos contenidos.
This work is licensed under a Creative Commons Attribution-NonCommercial 4.0 International

License. Autor: José Antonio López López (2016).
Contacto: alfanui@hotmail.com
TARPY, R. M. Aprendizaje 1
8. Procedimientos básicos del condicionamiento operante 8
Condicionamiento instrumental (operante)

El C pavloviano implica el aprendizaje del E, el C Instrumental concierne al aprendizaje de la R.
Los teóricos han sostenido que se trata de dos formas de aprendizaje distintas. Afirman que los centros
neuronales que controlan los respectivos procesos son distintos. La postura alternativa es que el C instrumental y
el pavloviano no son procesos de aprendizaje distintos, sino sólo manifestaciones diferentes de una misma
forma de aprendizaje con un único conjunto de reglas.
E. THORNDIKE fue el primero en proporcionar con sus experimentos un marco amplio y sistemático para
investigar el proceso de aprendizaje de modo científico.
Definición del condicionamiento instrumental
Desde un punto de vista formal, el CI se produce cuando el resultado, normalmente un EI, es contingente con
respecto a la conducta del sujeto.
Términos
Estímulos
 Los EI se utilizan igual que en el CC.
 Los EC también se utilizan, pero: no hace falta que sean explícitos, existen E en el entorno de prueba, y
desempeñan un papel distinto al del CC: son Estímulos discriminativos.
 Los Ed (E neutros que indican cuándo una R puede conducir o no a la consecuencia deseada) pueden
ser + (recompensa disponible) y – (no disponible).
 Un E puede desempeñar 2 papeles simultáneamente: señal discriminativa y asociarse también con la
consecuencia y actuar como un EC pavloviano.
Respuestas
 La RI es la poderosa R refleja provocada por el EI, pero no suele interesar.
 La R instrumental o reacción condicionada es normalmente bastante distinta a la RI. Suele ser una R
motora relativamente arbitraria.
Fases del aprendizaje instrumental
Adquisición
Proporciona evidencia palpable de que una R específica se está volviendo más fuerte, debido a su relación
con la consecuencia reforzante.
Con un entrenamiento continuado, la tasa de R aumenta.
La fuerza de R se mide en función de:

 el aumento en la probabilidad o frecuencia de la conducta
 una disminución en el nº de errores cometidos
 un decremento en el tiempo que lleva completar la R
 un aumento del vigor o velocidad de la conducta
 la tendencia a persistir en la realización de la R.
Extinción
Implica omitir la consecuencia que sigue a la R.

El resultado de este procedimiento es una disminución en la fuerza de la R, una reducción gradual en la
ejecución.
No elimina la R totalmente. Si el animal recibe un intervalo de descanso tras la extinción, se produce una
recuperación espontánea de la R.
Tipos de CI
Son 4 tipos, correspondientes a una contingencia entre una R y una consecuencia.
Los procedimientos difieren en 2 dimensiones: positivo-negativo (apetitivo-aversivo) y consecuencia o

evitación/interrupción de consecuencia.
C de recompensa
Una R produce un resultado deseable. La probabilidad de R aumenta.
Entrenamiento de omisión
El resultado que sigue a la R es la ausencia de un EI+. Su efecto es la supresión de la R.

Se asemeja a la extinción en que ambos procedimientos dan lugar a la disminución en la ejecución. Sin embargo,
Omisión y
el grado de supresión es distinto (menor en la omisión), y en la omisión el reforzador se recibe siempre que no
extinción
haya R.
La mayor eficacia de la extinción para suprimir la conducta se explica porque en la omisión la recompensa
“gratuita” puede ser percibida como un Ed para una R adicional.
La omisión puede dar lugar a mayor supresión de conducta que la extinción si se utiliza el contracondiciona-
miento (entrenamiento de recompensa para la conducta alternativa), en la que se refuerza una conducta que se
opone o es antagónica respecto a la R criterio.
Castigo
La R instrumental va seguida de un EI–.

Cuando se administra un EI– a continuación de una R, las claves ambientales circundantes se vuelven aversivas.
Contingencia La supresión es provocada directamente por el castigo contingente e, indirectamente, por el EC provocador de
miedo. Pero el factor más importante es la contingencia entre la R y la consecuencia aversiva.
Las conductas alternativas suelen aumentar en frecuencia durante el castigo. Cuando se suprime mediante un
castigo la conducta con mayor prioridad en la jerarquía motivacional orientada a la comida (comer), aumenta la
siguiente conducta con mayor fuerza relacionada con la comida (escarbar en la arena).
Escape y evitación
Implica la terminación o no-ocurrencia de un EI aversivo.

 En el escape, la R termina un EI–
 En la evitación, el Ed indica cuándo responder, y si hay R se omite el EI–.
Normalmente, se observan R de evitación y escape en el mismo experimento.
El resultado es el reforzamiento de la conducta.
Técnicas de  Caja de lanzadera de dos compartimentos (evitación de descarga saltando al 2º compartimento).

estudio de la  Evitación de Sidman: el sujeto pospone la descarga eléctrica, por lo general presionando una palanca.
evitación Permite el condicionamiento sin Ed.
 Evitación pasiva: se evita la descarga permaneciendo pasivamente en el lado seguro, lejos del EI–.
Históricamente, el paradigma de aprendizaje escape/evitación se ha denominado reforzamiento negativo.
Especificidad del reforzador y de la respuesta
Definición de reforzamiento
No puede definirse en función de las propiedades físicas del Er, sino más bien del efecto que el E tiene en la
conducta: cualquier consecuencia o acontecimiento que, cuando se hace contingente respecto a una R previa,
aumenta la probabilidad de esa R en el futuro.
Los reforzadores y los E punitivos se definen empíricamente, por sus efectos en la conducta, no a priori, por
alguna propiedad o característica inherentes.
Sin embargo, esta definición plantea el problema de la circularidad, no permite predecir si un E dado actuará
como reforzador.
El principio Incluye 2 supuestos:

de PREMACK 1. El patrón de actividad global de un sujeto puede analizarse en función de sus actividades constitu-
yentes. El porcentaje de tiempo que el sujeto dedica a una actividad dada refleja la probabilidad de esa
actividad, y por tanto el grado de preferencia relativa por ella.
2. La relación de reforzamiento implica siempre dos conductas. Una actividad preferible refuerza la
ejecución de una R menos prefernete.
Todo lo que se necesita para predecir si un E será reforzante es estimar su preferencia relativa. Cuanto mayor
sea el aumento, p. ej., en la presión de la palanca, más potente será el reforzador.
La fuerza de la relación de reforzamiento (indicada por el aumento en la conducta) es una función directa de la
probabilidad previa de la actividad reforzante: cuanto mayor es el grado de preferencia relativa de la actividad,
mayor capacidad tienen para reforzar la R.
Unidades conductuales
R discreta La mayoría de los estudios de aprendizaje instrumental se centran en las reacciones motoras voluntarias.
frente a Una técnica de R discreta implica una R única, ejecutada sólo en un cierto momento.
conducta La técnica alternativa implica la R operante libre. El experimentador determina qué comportamiento es correcto,
operante pero el sujeto determina cuándo se realiza la conducta.
Clase de R Aparte de las reacciones motoras voluntarias, se utilizan respuestas como:

 Reacciones fisiológicas: cambios en la tasa cardiaca, en la tensión arterial... (biofeedback). También
la R de conductancia de la piel. En ocasiones se han condicionado patrones de reacciones fisiológicas
muy específicos. El biofeedback tiene un gran potencial como tratamiento para ciertos trastornos
médicos.
 Conducta verbal.
 Unidades mayores y más complejas de conducta, como hábitos de estudio, acciones desadaptativas,
respuestas sociales... Es la terapia conductual o de modificación de la conducta, que se basa en la
extinción de la conducta y el condicionamiento posterior de un patrón más adaptativo.
Topografía El reforzamiento puede afectar a:

de R  La duración de una conducta (tasa).
 La forma específica de la conducta.
 La variabilidad de los componentes del patrón: puede reforzarse a los sujetos no sólo por realizar una
R, sino también por hacerlo de forma variable. Si no se refuerza selectivamente la variabilidad, puede
darse un alto grado de estereotipia.
Creación de unidades conductuales mediante reforzamiento
¿Cómo se instaura una conducta, mediante CI, si el sujeto no la realiza en el momento del entrenamiento?
Moldea- Una técnica frecuente es el moldeamiento de R, en el que se refuerzan las aproximaciones sucesivas a la R
miento criterio final. Si el sujeto muestra dificultades para aprender, se escoge la R anterior de la secuencia.
Principios del Condicionamiento Instrumental
Contigüidad
Inmediatez del reforzador tras la R.

Experimento de SKINNER (1948): la conducta aparecía justo antes de la administración de la comida, los
sujetos se comportaban como si su respuesta provocara la aparición de la comida. Realizaban una gran variedad
de R, pero cuando cualquiera de ellas resultaba casualmente contigua a la recompensa, era reforzada. Sin
embargo, este procedimiento era pavloviano (similar al automoldeamiento), no una conducta arbitraria reforzada
por recompensa.
La ausencia de contigüidad (demora de la recompensa) provoca disminuciones pronunciadas en el aprendizaje
instrumental. Pero el problema a menudo es la dificultad para identificar la unidad conductual exacta que se
está ejecutando y, por tanto, el grado de contigüidad respuesta-reforzador.
Parece que el principio de contigüidad prevalece sobre un mayor reforzamiento global.
Contingencia respuesta-reforzador
Es el factor más importante del CI. La relación de predicción diferencial es más importante que la contigüidad,
quizá por la percepción de causalidad.
El aprendizaje tiene lugar si, y sólo si, la presentación de la recompensa depende de la ejecución previa de una R.
Experimento: la R de palanca aumentó a medida que se incrementaba la contingencia entre la presión de la
palanca y la recompensa del agua. Cuando la probabilidad de las recompensas ganadas y gratuitas era la misma,
la R a la palanca disminuía de modo espectacular.
9. Variables que afectan al aprendizaje instrumental 9
Programas de reforzamiento intermitente

La recompensa no suele darse de forma regular en entornos naturales. Animales y humanos normalmente han de
realizar varios intentos, o esperar durante cierto periodo de tiempo, hasta que la recompensa se encuentre
disponible.
Los programas de reforzamiento se clasifican según la base para la recompensa (tiempo o número de respuestas)
y el criterio del programa (fijo o variable).
Razón fija El sujeto recibe una recompensa por realizar un nº determinado de R.

RF Tasa global de R relativamente alta, pero si se aumenta demasiado el valor de la RF empeora (tensión del
programa: largas pausas tras el reforzamiento).
La pausa post-reforzamiento está determinada por la duración del intervalo entre reforzadores.
Ejemplo humano: pago a destajo.
Razón El nº de R requeridas varía de una recompensa a otra. Viene definido por el nº medio de R requeridas.
variable RV Tasa media global de R superior a la de otros programas. Suele ser muy estable.
Ejemplo humano: máquinas tragaperras.
Intervalo Se recompensa por responder una vez transcurrido un periodo de tiempo fijo.
fijo IF La estrategia más eficaz es esperar hasta la finalización del intervalo y realizar entonces una única R para recibir el
reforzamiento, pero los sujetos suelen responder a lo largo de todo el intervalo.
Suelen hacer una pausa durante cierto tiempo tras la recompensa y después comienzan a efecturar la R con una
tasa cada vez más rápida. Discriminan el paso del tiempo, e inhiben temporalmente la R. Sólo después de cierto
tiempo comienzan a responder con anticipación a recibir la siguiente recompensa:
 La aceleración de la tasa es más acusada cuando el entrenamiento es prolongado.
 Si se dispone de señales externas que ayuden a discriminar el paso del tiempo, se muestra una
aceleración más pronunciada de la tasa durante el intervalo.
 Administrar una recompensa tras un intervalo fijo, sin exigir respuesta, hace que después se muestre un
patrón de conducta típico del IF cuando se exige responder.
 Si se distrae al animal, anulando la inhibición, la R se expresa de forma inmediata.
Ejemplo humano: paga semanal o mensual.
Intervalo El intervalo entre periodos de reforzamiento disponible varía. Se define por el tiempo medio entre
variable IV reforzamientos.
Tasa R estable pero baja. Aumenta en función de la tasa de reforzamiento, y aumenta ligeramente justo antes
de la siguiente recompensa.
Ejemplo humano: pesca.
Comparación
La tasa de R es superior en los programas de razón, puesto que influye en la recompensa. No parece deberse a la
mayor frecuencia de reforzamiento, sino a la diferencia entre el tiempo entre respuestas (TER).
En los programas de intervalo, cuanto menor es la frecuencia con que responde el animal, más probable es que se
refuerce la siguiente respuesta, más próxima al final del intervalo temporal. La recompensa fortalece los valores de
TER contiguos a ella: si el TER es breve (razón), el condicionamiento se generaliza; si el TER es amplio, se
fortalece de forma selectiva. Cuanto más breve es el valor del TER con que los sujetos deben responder,
mayor es la tasa de R.
Cuando se exige al sujeto seguir los mismos valores de TER no se observa diferencia de tasa entre RV e IV.
Programas complejos
Programas Programa de reforzamiento diferencial de tasas bajas de respuesta: el sujeto tiene que refrenar su R hasta que
RDB haya transcurrido un cierto período de tiempo. Si la R se produce antes de que haya transcurrido el criterio
temporal, el temporizador se reinicia y el intervalo comienza de nuevo.
Con entrenamiento suficiente, la R llega a ser estable y eficaz. Eficacia inversamente relacionada con la magnitud
del valor de RDB.
Los sujetos se entretienen en conductas colaterales durante el tiempo en que están inhibiendo la R. Parece
tratarse de una reacción en cadena: cada R es una parte inherente de una cadena y sirve como señal para la
siguiente R. Para algunos investigadores es la forma que tiene el animal de medir el intervalo; para otros estas
conductas resultan reforzadas porque interfieren con la ejecución de la R, mejorando la eficacia.
Programas Programa compuesto: la R es contingente a completar dos programas distintos.
combinados Ejemplo: programa IF-RF. El reforzamiento se consigue si el sujeto efectúa un nº mínimo de R en un periodo de
tiempo concreto.
La conducta suele reflejar los patrones de cada programa por separado.
Programa tándem: los programas se presentan de modo secuencial, el sujeto debe cumplir sus requisitos
sucesivos para conseguir el reforzamiento. Si cada programa cuenta con una clave externa se llama encadenado.
Programa mixto: se puede obtener el reforzamiento en cada uno de los programas componentes, pero se
presentan en orden aleatorio. Si cada programa va señalado por una clave discriminativa es un programa
múltiple.
Ejecución en programas con humanos o animales
A menudo, los seres humanos no muestran los mismos patrones conductuales que otros animales.
En programas de IF, las personas no suelen acelerar gradualmente la tasa de R. Presentan una tasa alta y
estable a lo largo del IF, o realizan sólo una o dos R hacia el final del intervalo.
En programas de RF, los humanos no muestran la conducta de pausa y carrera típica de las ratas, ni su tasa de R
resulta afectada por el tamaño de la RF.
Las instrucciones dadas por el experimentador ejercen una poderosa influencia en la conducta humana, ya que
el estado de motivación es distinto.
Los humanos formulan sus propias reglas y descripciones de las contingencias de reforzamiento.
Características de los reforzadores
Magnitud
Cuanto mayor es la recompensa, mejor es el aprendizaje. Esto coincide con la perspectiva evolucionista.
A veces es difícil definir la magnitud del reforzador. Concentración y magnitud suelen afectar a la conducta de
modos diferentes.
En cuanto a la medida, suele evaluarse el aprendizaje en función de la tasa R o el aumento de velocidad, pero
estas medidas no siempre muestran consistencia entre sí, por lo que cada una debe medir un proceso subyacente
distinto.
El aprendizaje está más relacionado con la magnitud del reforzador en la velocidad de carrera en callejones que
Entrena-
para la tasa de R en la caja de Skinner.
miento de
Cuando el requisito de RF resulta demasiado alto, los sujetos dejan de responder por completo (“punto de
recompensa
ruptura”). Con un incentivo mayor, los animales persisten más tiempo (efecto motivacional de la recompensa),
pero no aprenden mejor la tarea.
Hay que tener en cuenta que la magnitud interacciona con el tipo de programa utilizado. El cambio en la tasa
de conducta en función de la magnitud de la recompensa puede ser un subproducto del cambio en la distribución
de los valores de TER.
Otro factor es si se trata o no de un experimento de economía cerrada (toda la comida se obtendrá en la
cámara experimental). En ese caso, los animales mantienen un nivel de consumo constante, independientemente
de la duración del acceso a la comida: si el acceso es breve, los sujetos responden con mayor rapidez, por lo que
la tasa de R está inversamente relacionada con la magnitud de la recompensa.
Cuanto mayor es la intensidad del castigo, más parece suprimirse la R. El efecto del castigo en la tasa R puede
Castigo
ser bastante específico (por ejemplo, suprimiendo de forma selectiva TER largos).
Cuanto más fuerte es el EI, mayor es la mejoría en la ejecución de escape (p. ej., más rápida). Tanto la
Escape /
consecuencia de la R como el nivel de motivación inicial resultan afectados por esa intensidad: a mayor descarga
evitación
eléctrica, más motivación y ejecución más rápida. La rapidez puede deberse a la motivación.
En la evitación los efectos son más complejos. En general, parece directamente relacionada con la intensidad de la
descarga. Igualmente afecta a la evitación pasiva, pero sólo cuando se trata de reacciones naturales del animal.
Por ejemplo, en la caja de lanzadera, la evitación está inversamente relacionada con la intensidad de descarga. Ello
se debe a que el condicionamiento comporta dos tendencias contrarias: la reacción de evitación en sí misma
(alejarse) y la evitación pasiva (no volver al lugar de la anterior descarga).
Inmediatez de la recompensa
En general, la demora interfiere en el aprendizaje de nuevas conductas, además de en la ejecución de R muy

arraigadas.
Entrena- La ejecución disminuye gradualmente con el aumento de la demora.

miento de La demora del reforzamiento puede cambiar de forma selectiva la naturaleza de la unidad de R que se ejecuta.
recompensa Por ejemplo, una mayor demora provoca un aumento de frecuencia de valores de TER largos.
Hay poco consenso sobre el posible límite de demora para que ocurra aprendizaje. Influyen otros factores, como la
presencia de claves externas durante el intervalo de demora. Facilitan la ejecución y eliminan prácticamente el
déficit producido por la demora. Las claves que ocupan un porcentaje mayor del intervalo de demora facilitan la
ejecución más que las que ocurren sólo al principio. Hipótesis:
 La clave externa funciona como un reforzador en sí misma (es como otra recompensa).
 Hipótesis del marcado: un acontecimiento inesperado y saliente (luz, sonido) inmediatamente
posterior a una respuesta de elección, da lugar a un mejor repaso, y por tanto recuerdo, de la respuesta
de elección. Al reforzarse posteriormente, los sujetos muestras una mayor capacidad para asociar su
elección correcta anterior con la recompensa de la comida.
Condiciona- Igual que en el de recompensa, el aprendizaje guarda relación inversa con la demora, y las claves entre R y
miento recompensa facilitan también el C aversivo.
aversivo El efecto de la demora en la administración de un castigo es una reducción en el grado de supresión de la R: el
castigo es menos eficaz cuando se demora.
¿Afecta el reforzamiento al aprendizaje o a la ejecución?
Parece que la recompensa puede tener su efecto predominante en la ejecución en vez del aprendizaje. Vigoriza la
ejecución pero no modifica el grado de aprendizaje sobre la relación respuesta-consecuencia. La recompensa
instrumental no afecta a lo que el animal aprende sino más bien influye en su motivación para realizar la R.
El contraste de incentivo respalda este punto de vista, mostrando que la conducta resulta afectada también por
Contraste de la condiciones de recompensa anteriores:
incentivo  Contraste negativo: cuando se cambia a una magnitud inferior de recompensa se da menos vigor de
R que cuando se mantiene desde el principio el nivel bajo.
 Contraste positivo: cuando las condiciones de recompensa mejoran de repente, los animales
sobrepasan el nivel de ejecución y rinden aún más que los sujetos que han recibido esa magnitud de
recompensa desde el comienzo del entrenamiento.
La magnitud de la recompensa afecta a la ejecución modificando la motivación del animal para responder en
Disminución vez de su aprendizaje, tal como muestran:
motivación  Los cambios en la ejecución tras el cambio de magnitud de recompensa son tan repentinos que es
improbable que el aprendizaje de los animales se vea afectado.
 La disminución de la ejecución en el contraste negativo no puede deberse a un desaprendizaje
repentino, sino a una menor motivación.
Naturaleza del reforzador
Un reforzador es cualquier acontecimiento que incrementa la probabilidad de una R contingente.
Cambio de la entrada sensorial en el que la presentación de una luz o un ruido es contingente respecto a una
Ref.
conducta. Se produce principalmente cuando los animales han experimentado un periodo de privación sensorial.
sensorial
Los olores están entre los E más salientes para los roedores. El olor de la orina de los ratones dominantes
Olores
resulta aversivo para otros ratones. Las ratas ingenuas se aproximan al olor de recompensa y evitan los olores de
frustración.
Los reforzadores sociales no afectan a la conducta elevando sólo el nivel general de estimulación sensorial, son
Ref. social
reforzadores en sí mismos. Para muchos animales, la interacción social con otras especies también es
reforzante.
Patrón de la magnitud de la recompensa
Afecta poderosamente al aprendizaje instrumental. Cuanto más pronunciado es el patrón (creciente o decreciente),
mejor se anticipa la magnitud en el siguiente ensayo, respondiendo en consecuencia.
Los animales son capaces de extrapolar un ensayo que no han aprendido directamente a partir del patrón,
anticipando la secuencia.
Características de la respuesta: relevancia ecológica

No todas las R son condicionables en la misma medida, aun utilizando el reforzador adecuado.
Conducta Los BRELAND demostraron que una conducta aprendida podía sesgarse progresivamente hacia otra conducta, en
inadecuada este caso alimentaria, no deseada (conducta inadecuada).
Se da incapacidad para aprender ciertas respuestas de forma eficaz. Algunas respuestas, pero no otras, son más
Entrena. de relevantes para, o influenciadas por, la recompensa de comida (consistencia evolucionista), por lo que son más
recompensa susceptibles a los efectos de la recompensa de la comida que los que no lo son.
C aversivo El patrón de supresión provocado por una descarga eléctrica es distinto del patrón de aumento de respuesta
provocado por la comida. Es efectiva la supresión para algunas conductas, pero no para otras.
¿Ven limitada los sujetos la asociación R-recompensa que forman, o son sólo incapaces de expresar estas
asociaciones? ¿Se da falta de aprendizaje o sólo carencia de ejecución?
 Según CHARLTON, la existencia de un condicionamiento diferencial entre varias R es probablemente
resultado de interacciones imprevistas entre las contingencias del programa y las distintas topografías de
R. Son sólo diferencias de grado, no cualitativas. Reflejan déficit de ejecución, no incapacidad de
aprendizaje.
 Pero la dificultad para condicionar una conducta dada puede reflejar también una incapacidad para
asociar la conducta con la recompensa (fallo en el aprendizaje asociativo).
Lo que está claro es que la facilidad de condicionamiento refleja que la conducta resulta apropiada al estado de
motivación del sujeto. Los patrones de conducta más afectados por el reforzamiento de la comida son aquellos
exhibidos por animales hambrientos en momentos próximos a la comida.
10. Fenómenos del condicionamiento instrumental 10
Reforzamiento condicionado
Un reforzador secundario Sr es un E inocuo que adquiere las propiedades del reforzador primario (comida,
agua) al emparejarse de forma consistente con el reforzamiento primario. En ocasiones posteriores, la clave
secundaria refuerza por sí misma la conducta (EC pavloviano).
Pruebas
En la fase de extinción, la presentación del reforzador condicionado mantiene la conducta respecto a la cual es
Manteni- contingente la clave.
miento de R También mantiene la conducta durante la adquisición en condiciones que, de lo contrario, producirían un déficit en
la conducta (como en demora de recompensa).
Durante el entrenamiento, un sujeto experimenta 2 clases de consecuencias tras su conducta:

Encadena- 1) Una R no produce ninguna recompensa en presencia de E2 pero sí ante E1.
miento 2) Responder durante la presentación de E2 da lugar a E1; responder ante E1 produce la recompensa.
Si se mantiene la conducta en presencia de E2, el E1 debe ser reforzador.
Procedimiento de la adquisición:
Técnica de 1) Los sujetos con reforzamiento secundario reciben un E auditivo seguido de reforzador.
adquisición 2) Fase de prueba: Se introduce una palanca. Presentación del E auditivo tras cada presión de palanca.
El E auditivo emparejado previamente con el reforzador tiene el mayor efecto en la presión de palanca.
Un reforzador condicionado no sólo mantiene conductas que han sido ya aprendidas y aumenta la frecuencia
de otras nuevas (técnica de la adquisición), sino que afecta también a la tasa de aprendizaje.
Tas. del reforzamiento secundario
Se plantean 2 preguntas:
 ¿Cuál es la fuente de la fuerza de un reforzador secundario?
 ¿Por qué se mantiene la conducta de modo tan eficaz cuando un reforzador condicionado va a
continuación de su ejecución?
Un reforzador secundario obtiene una fuerza considerable mediante su asociación con la recompensa (CC).
Adquisición
Los principios para generar un fuerte ref. sec. son los utilizados para entrenar fuertes EC pavlovianos. P. ej., la
de la fuerza
fuerza del reforzamiento secundario es una función directa de la magnitud e inmediatez del EI.
Según la hipótesis del E discriminativo, un E secundario actúa principalmente como Ed.

Función de
En una prueba de ref. sec., la conducta se mantiene a un nivel alto porque cada presentación de la clave tras
la clave
la R desencadena una R adicional.
La contingencia R-clave es más crítica que la relación clave-R. Un E puede afectar a la R en virtud de su valor
reforzante, sin afectar simultáneamente a la conducta en su papel como Ed.
Conducta de elección
Las conductas instrumentales siempre implican una elección, al menos entre responder y no responder.
Ley de la igualación
Enunciado matemático que describe la relación entre la tasa de R y la tasa de recompensa. Los animales
equiparan su tasa de R con la tasa a la que se refuerza la acción.
Frecuencia Cuando se les presenta a los animales la elección entre 2 programas concurrentes que difieren en frecuencia de
del reforz. reforzamiento:
 responden al mejor de los dos.
 distribuyen sus R de modo que el nº relativo de R dadas a un programa se equipara al nº
relativo de reforzadores de ese programa.
 la ecuación expresa que las tasas relativas de R se igualan.
Otras carac- Otras dimensiones de la recompensa (magnitud, naturaleza, inmediatez) también influyen en la conducta de
terísticas del elección de un modo similar.
reforzam. Se responde más al programa que ofrece la recompensa más inmediata, aunque también se responde a la opción
menos favorable.
La igualación también se produce cuando los reforzadores difieren cualitativamente.
Condicion. La fórmula de la igualación atañe también a situaciones que comportan consecuencias aversivas.
aversivo
La ley de la igualación contribuye a especificar la relación cuantitativa entre el valor del reforzamiento y la
respuesta.
HERRNSTEIN ha ampliado la ley para incluir no sólo la proporción de las R efectuadas en el programa a en relación
al b, sino también la tasa de R en un solo programa respecto a no responder en absoluto.
Autocontrol Muchos estudios de autocontrol muestran que las ratas y las palomas actúan de forma impulsiva; escogen la
opción de recompensa más inmediata pero más pequeña.
Según la ley de la igualación, un sujeto ajusta la tasa de R a la tasa del efecto combinado de la magnitud y la
inmediatez. Predomina el efecto de la inmediatez.
Sin embargo, varios factores hacen que los sujetos ejerzan un mayor autocontrol:
 Los E administrados durante el intervalo de demora justo antes de la administración de la recompensa
disminuyen los efectos perjudiciales de la demora. Una recompensa señalada no se devalúa tanto
como la recompensa no señalada.
 Los humanos adultos muestran a menudo un mayor autocontrol, porque desarrollan reglas relativas a
los requisitos para obtener recompensas.
 El que un animal demuestre impulsividad o autocontrol depende, en parte, de las actividades que
efectúe el sujeto durante el intervalo de demora. Si las recompensas son salientes, los animales
tienden a ser impulsivos; si el atractivo de la recompensa disminuye, y el sujeto puede realizar otras
clases de comportamientos de distracción, se demuestra un mayor grado de autocontrol.
 El autocontrol puede mantenerse omitiendo la demora al principio pero aumentándola después
de forma gradual durante el entrenamiento.
 La experiencia del sujeto afecta al grado de autocontrol. Los sujetos obligados a responder cinco veces
por recompensa presionaron la palanca que requería un mayor esfuerzo más veces que el grupo que
había recibido recompensa más fácilmente.
 La impulsividad se evita cuando los sujetos se comprometen con la recompensa grande demorada
antes del punto de elección. Si se establece un compromiso de antemano, que evita tener que
enfrentarse a la tentadora elección posteriormente, el autocontrol aumenta.
Evaluación Problema 1: La ley de igualación predice que se realizará la misma elección siempre que se mantengan los valores
relativos de inmediatez, magnitud y frecuencia de recompensa. Sin embargo, se ha demostrado que la proporción
de respuestas varía también en función de los valores absolutos de recompensa.
Problema 2: La ley no siempre predice la conducta de elección de forma precisa. Los sujetos suelen cometer 3
errores sistemáticos en situaciones de elección:
 Sesgos: se muestran cuando el sujeto tiene una especial afinidad o preferencia por una de las
elecciones.
 Sobreigualación: tasa de R superior para el mejor de dos programas respecto a lo que predice la
fórmula de igualación. Se produce cuando resulta costoso para el sujeto cambiar al lado de menor
preferencia, cuando el “tiempo fuera” impuesto normalmente por cambiar de un programa a otro es
relativamente largo.
 Igualación por defecto o infraigualación: cuando el sujeto responde menos de lo previsto en el
programa preferido o ventajoso.
BAUM desarrolla la ley general de la igualación, que corrige los errores sistemáticos.
Problema 3: Los sujetos no igualan la tasa relativa de R con la tasa de reforzamiento cuando se les ofrece la
posibilidad de elegir entre 2 programas de RV. En lugar de ello, responden exclusivamente en el mejor
programa.
Teorías de la igualación
La igualación es una descripción de la conducta, que predice cómo se distribuyen preferencias entre dos
opciones, pero no explica por qué (naturaleza subyacente).
Maximiza- La igualación se produce porque los sujetos intentan maximizar la tasa de reforzamiento.
ción Los animales han evolucionado para comportarse de un modo que produce la tasa más alta de reforzamiento.
Cuando un animal opera en un programa de IV, el tiempo avanza también para el otro programa. Resulta
ventajoso para el sujeto responder en ambos programas. En cambio, en un programa concurrente RV-RV no se
puede “almacenar recompensas”, por lo que responderá exclusivamente al mejor.
Mejora Mejorar se entiende en el sentido de hacer algo más ventajoso.

La conducta de igualación se produce porque el sujeto está escogiendo continuamente la opción más
prometedora (el programa con tasa de reforzamiento momentáneamente más alta).
Ambas teorías cuentan con evidencia a favor y en contra, por lo que se requiere más investigación.
Efecto del reforzamiento parcial

Aumento de la resistencia a la extinción que se produce cuando los animales reciben reforzamiento
intermitente (en lugar de continuo) durante la adquisición.
Si se refuerza sólo a un animal en una parte de los ensayos de adquisición, la velocidad y persistencia de la R
durante la extinción aumenta en relación a los sujetos que reciben recompensa en todos los ensayos durante la
fase de adquisición.
Históricamente, se consideró una paradoja. Si la recompensa fortalece una R, los animales reforzados de forma
continua deberían persistir durante más tiempo durante la extinción que los animales reforzados parcialmente.
Factores que afectan a la persistencia
Muchas de las variables que afectan a la adquisición inflyen también en la persistencia del animal durante la
extinción.
Magnitud Las recompensas grandes, cuando se administran en cada ensayo de adquisición, disminuyen la posterior
recompensa resistencia a la extinción. Cuando se administran de forma intermitente, aumentan la resistencia a la
extinción.
Nº ensayos La resistencia a la extinción disminuye en función del nº de ensayos reforzados de forma continua, pero aumenta
con un nº mayor de ensayos de reforzamiento parcial.
Patrones de Una secuencia alterna de recompensa y ausencia de recompensa durante la adquisición produce menos
recompensa resistencia a la extinción que el patrón aleatorio de ensayos de recompensa y no recompensa, aun cuando
durante la se utilice el mismo nº de recompensas.
adquisición Tª: los animales con presentación aleatoria muestran persistencia durante la extinción porque no pueden
distinguir entre las condiciones existentes durante la extinción de las que se experimentaron durante la
adquisición. Sin embargo, en los sujetos de la condición alterna no se observa persistencia porque las condiciones
experimentadas a lo largo de la extinción (ausencia de recompensa) son lo bastante distintas de los patrones
estrictamente alternos de recompensa y no recompensa experimentados durante la adquisición.
Orden de los programas: la resistencia a la extinción es mayor cuando los ensayos reforzados de forma
intermitente se administran tras los ensayos reforzados de forma continua que cuando se invierte el orden. Un
bloque de ensayos con recompensa continua se distingue más fácilmente de la extinción que un bloque de ensayos
con recompensa parcial.
Tas. del efecto de reforzamiento parcial
Tª AMSEL y cols: los sujetos desarrollan la expectativa de recompensa durante la adquisición. Durante la
frustración extinción, experimentan una reacción incondicionada denominada frustración (Rf), que vigoriza la conducta.
La frustración es un estado de motivación que vigoriza la conducta. Se produce cuando los animales esperan una
recompensa pero no la reciben.
Los sujetos experimentan mayor frustración en la fase de extinción cuando la adquisición conlleva recompensas
grandes que cuando implica recompensas pequeñas debido a que es mayor la discrepancia entre las
expectativas y lo que reciben de hecho. Una mayor frustración implica más perturbación y, por tanto, extinción
más rápida. Sucede lo mismo cuando se da un entrenamiento prolongado.
Mediante el CC se condiciona el E resultante de la reacción de frustración y posteriormente actúa como un Ed de la
R instrumental, lo que explica la mayor resistencia a la extinción en los sujetos reforzados parcialmente.
El estímulo de frustración Ef se convierte en un Ed para la respuesta instrumental, por lo que la resistencia a la
extinción es fuerte.
Hipótesis La hipótesis secuencial (de los post-efectos) afirma que los animales tienen recuerdos de las consecuencias
secuencial de ensayos previos que no son necesariamente de naturaleza emocional, sino sólo la consecuencia de responder.
Los ensayos recompensados dieron un post-efecto en la memoria de recompensa (Er), y al contrario los no
recompensados (En).
Los post-efectos de la recompensa y no recompensa se convierten en parte del abanico de E que el animal
experimenta en la caja de salida durante el siguiente ensayo. Durante la extinción, Er está ausente y En resulta
saliente. La perturbación en el complejo estimular provoca una reducción del grado en que los E provocan la
conducta.
Una perturbación en el complejo estimular durante la extinción acelera su curso. Las conductas extinguidas se
recobran si los animales reciben claves relacionadas con la comida antes de la prueba.
Cuanto mayor es la magnitud de la recompensa, más salientes son los post-efectos de la recompensa durante la
adquisición. Por tanto, en la extinción, la omisión de un Er saliente produce un déficit mayor en el complejo
estimular discriminativo que la omisión de un Er débil.
Efecto del reforzamiento parcial: durante la adquisición del reforzamiento parcial, se están formando dos tipos
de memoria (Er y En). Los animales reforzados parcialmente son recompensados por responder en presencia del
En, incorporan el En en su complejo estimular discriminativo y toleran la extinción con mayor facilidad.
Indefensión aprendida
Cuando la R y la recompensa son independientes, ¿deja de producirse el aprendizaje, o aprende el animal algo
sobre su independencia? La indefensión aprendida indica que los sujetos aprenden que su conducta es
independiente de la recompensa. Este aprendizaje tiene efectos perturbadores en el aprendizaje futuro.
Ejemplos
La indefensión aprendida es el hallazgo de que el aprendizaje futuro se retarda si el animal recibe previamente
consecuencias incontrolables.
SELIGMAN y MAIER: el grupo de escape aprendió la nueva tarea con la misma facilidad que los sujetos con
Transferen. ausencia de descarga, pero el grupo acoplado mostró una perturbación acusada.
aversiva- La dificultad del grupo acoplado para aprender puede haberse debido a su incapacidad para controlar la descarga
aversiva eléctrica en fase 1. Esta falta de control provocó el desarrollo de la expectativa general de que la conducta es
irrelevante respecto a la terminación de la descarga. La expectativa de falta de control se transfirió a la
nueva situación, provocando un retardo del aprendizaje.
Se ha observado el mismo tipo de transferencia negativa en situación de condicionamiento apetitivo, llamada

apetitiva pereza aprendida.
Algunos autores han sugerido que el perjuicio del aprendizaje no se debe a la transferencia de una expectativa,
Transfer. sino más bien a que el animal experimenta un cambio de actividad general. Si la actividad disminuye tras una
motivacional descarga incontrolable, la ejecución inferior de los sujetos acoplados puede deberse a una disminución general
cruzada de actividad.
Se comprueba que cuanta más inactividad muestra un sujeto en fase 1, independientemente del tratamiento, más
disminuye la actividad en la fase de prueba.
Pero hay razones para creer que está ocurriendo algo más que un simple cambio de actividad: se comprueba
transferencia negativa entre situaciones apetitivas y aversivas que conllevan tipos notablemente distintos de tareas
de R.
Principios de la indefensión aprendida
Los sujetos pueden ser protegidos contra los efectos de la descarga eléctrica inescapable administrando antes
Inmuniza-
una descarga susceptible de escape.
ción
Los reforzadores incontrolables no impiden el aprendizaje posterior si los sujetos experimentan recompensas
controlables antes de la fase de indefensión.
Experimentar un control sobre la administración de reforzadores no sólo elimina los déficit de aprendizaje causados
Maestría
por el entrenamiento de indefensión, sino que también hace que los animales sean inusualmente persistentes
aprendida
en varias tareas de aprendizaje.
La experiencia con acontecimientos controlables, en nuevas situaciones, aumenta la motivación y la capacidad para
asociar respuestas y consecuencias.
La condición de indefensión puede corregirse. La respuesta forzada contribuyó a superar el déficit de aprendizaje
Reversibi-
provocado por una descarga inescapable.
lidad
Tas. de la indefensión aprendida
Hipótesis de Cuando las consecuencias son independientes de la conducta, el sujeto desarrolla un estado de indefensión
indefensión aprendida, que se manifiesta de 2 formas:
aprendida  Pérdida de motivación, indicada por disminución de ejecución y nivel superior de pasividad.
 Expectativa generalizada de que su conducta seguirá siendo independiente de las consecuencias
reforzantes.
Se ha demostrado que no es la falta de control, sino la incapacidad para predecir el EI:
 Recibir una descarga inescapable y predecible perjudica el aprendizaje menos que recibir una descarga
no señalada. Señalar la descarga inescapable elimina el déficit de aprendizaje.
 La presentación de E tras la finalización de una descarga inescapable elimina el déficit. Los sujetos de un
grupo acoplado con retroalimentación aprenden tan eficazmente como los de escape y sin descarga.
Hipótesis de Los animales que reciben una descarga inescapable desarrollan ansiedad crónica, que hace que aprendan de
la ansiedad modo deficiente después.
Si se suprimen los olores estresantes, no se muestra efecto de indefensión aprendida.
El miedo crónico hace que los olores del entorno de pre-tratamiento se asocien con la descarga inescapable, y
tiene efectos no asociativos, como aumento de neofobia. Los olores serían por tanto mediadores del efecto de la
indefensión aprendida, quizá provocando un disminución condicionada de norepinefrina.
Un estímulo de retroalimentación atenúa el miedo crónico. Los sujetos de escape crean sus propias señales de
retroalimentación producidas por la R cuando escapan: cuando una señal predice el final de la descarga, los
animales sienten menos miedo.
La Tª no explica el que la ansiedad sea innecesaria para que se produzca déficit. Animales tratados con
diazepam mostraban todavía déficit de aprendizaje.
Tª del Los sujetos que reciben descargas inescapables cambian el modo en el que procesan la información
procesa- posteriormente.
miento Los animales indefensos aprenden con menor eficacia, independientemente de su estado de ansiedad. Sin
cognitivo embargo, con una descarga más intensa se elimina el déficit, medido por velocidad de carrera, pero no medido por
la precisión de la discriminación: la descarga inescapable provocó déficit cognitivo.
Es posible que los animales indefensos vean afectada su atención. Las ratas con descarga inescapable eran más
susceptibles a los efectos perturbadores de las claves irrelevantes que los sujetos con escape o sin descarga.
El efecto de indefensión aprendida se observó sólo cuando las claves distractoras estaban presentes. Según la Tª
del procesamiento cognitivo, los animales con descarga inescapable resultarían distraídos por las luces irrelevantes,
lo que haría más difícil la ejecución correcta.
11. Perspectivas teóricas en el condicionamiento instrumental 11
Mecanismos fisiológicos del aprendizaje

Muchos sostienen que el aprendizaje implica un cambio estructural o químico en el sistema nervioso.
Sustratos biológicos de la memoria
Puesto que la memoria es una unidad de conducta aprendida que persiste a lo largo del tiempo, tiene sentido que
los recuerdos se codifiquen neurológicamente en zonas específicas del cerebro.
Algunas de las primeras investigaciones fueron llevadas a cabo por LASHLEY. Su estrategia consistía en dañar o
Lashley extirpar áreas específicas del cerebro y realizar después pruebas de aprendizaje. La destrucción de hasta la mitad
del tejido cortical influía muy poco en el aprendizaje de laberintos simples, aunque en laberintos más difíciles la
ejecución resultaba dañada en cierta medida.
Principios:
 Equipotencialidad: Otras áreas del cerebro asumen las funciones del área dañada. Ninguna parte del
córtex es más importante que otra para aprender tareas.
 Acción en masa: Las áreas corticales del cerebro no están especializadas.
PENFIELD operó a varios pacientes epilépticos graves para extirparles áreas del cerebro susceptibles de producir
Penfield ataques. Para identificar esas áreas, estimulaba el tejido cerebral y observaba la conducta. La estimulación de
áreas particulares hacía que el paciente expresase a menudo vívidos recuerdos y emociones como miedo.
Muchas R se asemejaban más a sueños o alucinaciones, pero se respaldó la idea de que los recuerdos residen en
localizaciones anatómicas específicas.
HEBB: Cuando se estimulan varias neuronas de forma reiterada y sucesiva, se producen cambios estructurales
Hebb en las sinapsis, se desarrollan protugerancias o botones en el axón. Los grupos de neuronas forman unidades
funcionales más grandes (asociaciones de células); si se activa una neurona, las otras se excitan también. Los
grupos de asociaciones de células forman conjuntos mayores de material neurológico (secuencias de fase).
Actualmente se considera que la memoria puede estar relacionada con cambios en el ácido ribonucleico
Actualidad cerebral. Puede ser afectada también por varias hormonas, como las catecolaminas, las hormonas pituitarias y los
neuropéptidos. Algunos sostienen que los recuerdos son una consecuencia de los cambios de la eficacia sináptica
en las vías neuronales, consecuencia de la síntesis de proteínas o cambios en la receptividad de las neuronas.
El hipocampo parece ser un elemento importante de la memoria. Sus lesiones perturban la formación de MCP,
especialmente de índole espacial. El hipocampo desarrolla potenciación a largo plazo, aumento duradero de la
R post-sináptica tras un período de estimulación.
Mecanismos neurológicos del reforzamiento
OLDS y MILNER: ratas equipadas con electrodos en el área septal presionaban una palanca para administrarse
Autoesti-
corriente (autoestimulación). En otras partes del cerebro se presionaba la palanca para poner fin a la estimulación.
mulación
Las zonas anatómicas que sustentan la autoestimulación forman un centro de placer.
eléctrica
La autoestimulación viene sustentada por la amígdala, el hipocampo y el septum, pero la principal área es el
Anatomía de
fascículo frontal medial.
la recom-
Sistema de recompensa: Las neuronas del fascículo frontal medial descienden desde el área preóptica lateral,
pensa y el
atravesando el hipotálamo, para inervar tres circuitos diferentes:
castigo
 Circuito eferente: atraviesa el núcleo pontino y la médula espinal. Expresión de conductas específicas
de la especie.
 Sistema ascendente (I): desde el tegmento ventral, asciende a través del núcleo accumbens hasta la
sustancia innominada y las áreas preópticas laterales. Efectos motivacionales del reforzamiento.
 Las fibras frontales mediales forman un tracto ascendente (sistema II), que se extiende desde la
sustancia negra hasta el estriado. Facilita la formación de la memoria.
La presión de la palanca para estimular el estriado (II) conlleva conductas muy estereotipadas; la destrucción del
estriado provoca una disminución de conductas. La topografía conductual cuando se presiona para proporcionar
estimulación al sistema I incluye componentes de conductas específicas de la especie, como R alimentarias. El
sistema I, a diferencia del II, está implicado en los aspectos motivacionales de la recompensa.
El sistema principal de castigo es el tracto periventricular.
Teoría de la respuesta consumatoria del reforzamiento: lo que los sujetos encuentran reforzante es
precisamente la ejecución de condeuctas de supervivencia específicas de la especie. La mayoría pueden provocarse
mediante estimulación directa del cerebro, en especial del hipotálamo. Las conductas de supervivencia específicas
de la especie y la estimulación cerebral reforzante son mediadas por los mismos circuitos neuronales.
Neuroquí- El sistema de recompensa implica neuronas catecolaminérgicas (nervios en los que las principales sustancias
mica de la transmisoras son la noradrenalina y la dopamina). El sistema periventricular aversivo es un sistema colinérgico
recompensa (acetilcolina).
La acción de varios antagonistas de la dopamina, como el haloperidol, se asemeja a los efectos de una reducción
en la recompensa. Aumentan la resistencia a la extinción una vez desaparecidos sus efectos, por lo que deben
reducir el impacto de la recompensa en los ensayos. Esto podría explicar el que algunas drogas psicoactivas, como
la heroína, resulten tan reforzantes.
Teorías mecanicistas (E-R) del aprendizaje
Tª neoconductista de HULL
Su sistema es hipotético-deductivo porque incluye postulados y teoremas formales. Si el resultado de la prueba es

el previsto por el teorema, el postulado es respaldado. Es una teoría mecanicista porque propone el uso de
variables intermedias (estados o características de los animales que median su conducta). La sed, por ejemplo,
sería un estado motivacional que surge de la necesidad biológica de agua.
Postulado IV: reducción del impulso.

Reducción Los organismos tienen necesidades biológicas básicas. La necesidad es un estado biológico que ocasiona conductas
del impulso no aprendidas encaminadas a reducirlo; el impulso sería el estado psicológico que corresponde al desequilibrio
biológico. El reforzamiento implica la reducción del impulso.
Fuerza del Los incrementos producidos por reforzamientos sucesivos se suman de tal modo que producen una fuerza del
hábito hábito: siempre que un sujeto experimenta cierta secuencia E-R seguida de una reducción de su estado de
impulso, aumenta el hábito, que consiste en la tendencia a efectuar esa R en presencia de ese E.
El hábito es una variable intermedia, refleja la fuerza de la conexión E-R. El refuerzo disminuye el impulso y
aumenta la fuerza del hábito.
Postulado VII: potencial de reacción

El hábito se traduce en ejecución manifiesta sólo cuando se motiva al sujeto. La ejecución se produce cuando
tanto el hábito como el impulso se hallan presentes.
Potencial El potencial excitatorio predice la ejecución del sujeto, que se produce cuando ha desarrollado un hábito y se
excitatorio halla en estado de impulso (relación multiplicativa).
La relación entre el impulso y la ejecución es aproximadamente lineal. En el caso del hábito, el efecto no es lineal:
la resistencia a la extinción aumenta en función del nº de reforzamientos, pero el aumento resulta
proporcionalmente decreciente. Impulso y hábito afectan a la conducta de modo distinto.
Inhibición Postulados VIII-IX: inhibición reactiva y condicionada

reactiva y La inhibición reactiva es la fatiga acumulada como consecuencia de la R. Disminuye el potencial excitatorio.
condicionada La inhibición condicionada se basa en la reducción de la inhibición reactiva. A medida que el sujeto se cansa
tiene cada vez mayor motivación para dejar de actuar porque el estado de inhibición reactiva es aversivo; la
suspensión de la propia ejecución se refuerza porque disipa la inhibición reactiva aversiva. Los sujetos devienen
condicionados para dejar de responder.
Estado de la tª de HULL
Esta tª tuvo éxito porque era coherente y susceptible de verificación. Sin embargo:
 Muchos encontraron fallos en la concepción molecular de la conducta propuesta.

 Aunque la precisión matemática era un argumento sólido, los conceptos psicológicos en los que se
basaban los términos matemáticos estaban sujetos a verificación directa y, por tanto, eran susceptibles
de refutación. Las curvas de aprendizaje son muy variables, en la tasa de crecimiento influyen muchos
factores, incluyendo pequeñas variaciones en el procedimiento.
 Muchas conductas se aprenden aun cuando no se halle implicado ningún impulso o reducción de
necesidad. La sacarina es muy reforzante, y también la exploración.
Teoría neo-hulliana: Trabajo de AMSEL sobre el efecto del reforzamiento parcial. El estado de motivación
aversiva que denomina frustración equivale a la inhibición reactiva.
Tas. cognitivas (R-E) del aprendizaje

Se centran en la noción de que los sujetos están orientados hacia metas, desarrollando representaciones
mentales de su conducta.
Conductismo cognitivo de TOLMAN
Principio fundamental: los animales obtienen un conocimiento general del entorno, y desarrollan expectativas
sobre las consecuencias de su conducta. El reforzamiento no es necesario para el aprendizaje, sólo para la
ejecución.
Estudio del aprendizaje latente: una vez se proporcionó la recompensa en la caja meta, mostraron una mejora
Aprendizaje repentina en su ejecución. Los animales habían aprendido, pero no actuaron de un modo que mostrase su
latente aprendizaje. El reforzamiento no es necesario para desarrollar un mapa cognitivo del entorno, sólo para estimular
una ejecución eficaz.
Mapas cognitivos: Según TOLMAN, las ratas desarrollan expectativas sobre las consecuencias de su conducta y
Mapas desarrollan mapas cognitivos o mentales de su entorno. No se limitan a efectuar una secuencia de movimientos
cognitivos musculares.
Críticas:
 La conducta no siempre parece estar orientada a metas. Los sujetos actúan a menudo sólo para explorar
su entorno.
 Los animales realizan a menudo conductas con una gran orientación a metas, pero difícilmente pueden
calificarse de intencionadas (como la polilla que vuela a la bombilla eléctrica). El concepto de propósito
es problemático porque implica que el sujeto tiene cierta noción interna y autoconocimiento respecto a la
meta de su conducta.
 La Tª de TOLMAN dice poco sobre qué conducta efectuará el animal y que probablemente aprenderá.
Las asociaciones en el aprendizaje instrumental
La fuerza y el significado de un EC depende, entre otras cosas, de su valor informativo. El C instrumental se ve

a la misma luz que el pavloviano: los sujetos procesan la información no sólo respecto a los E, sino también
respecto a su propia conducta. Los animales desarrollan representaciones de metas y las asocian con
representaciones de su propia conducta.
En una situación típica de aprendizaje instrumental existen 3 componentes funcamentales: Ed, R y
consecuencia. Pueden producirse asociaciones entre cada uno de estos elementos.
RESCORLA ha demostrado la asociación de R y consecuencia. Los sujetos adquirieron dos asociaciones R-C
Asociaciones
distintas. Esta investigación respalda la concepción cognitiva del C instrumental, el sujeto funciona como un
R-C
procesador de información al aprender asociaciones entre R y objeto meta.
 Cuando se devaluaba un reforzador asociándolo con veneno, la tasa de R disminuía: los sujetos
recordaban después el reforzador como aversivo. En cambio, la R al otro reforzador mantuvo su fuerza.
 Cuando los sujetos desarrollan una asociación R-C1, esa asociación no se ve afectada si la R va seguida
de una consecuencia distinta, C2.
 La asociación R-C2 sigue desarrollándose durante el curso de un entrenamiento prolongado.
 La asociación R-C persiste a pesar de la administración de tratamientos que causan interferencia.
Los Ed se asocian con consecuencias. Los Ed facilitaron con mayor eficacia la realización de una nueva R
Asociaciones
cuando el E y la R tenían una consecuencia común. Por tanto, el Ed debe haberse asociado con la consecuencia
E-C
debido a que la capacidad de éste para modular la R era mayor cuando su consecuencia y la de la R coincidían.
El conocimiento supone más que simples asociaciones entre 2 elementos. Un sujeto forma también una red
Asociaciones
jerárquica de asociaciones en la que los E se asocian con la relación entre una R y su consecuencia
jerárquicas
E – [R-C].
Un EC tiene fuerza sólo cuando predice de forma fiable un EI.
RESCORLA demostró que un Ed es fuerte cuando predice de modo fiable las combinaciones R-C.
El trabajo sobre asociaciones jerárquicas está de acuerdo con la aproximación cognitiva porque la meta se encarna
en la representación o memoria desarrollada por el sujeto. Una asociación jerárquica es análoga a un mapa
cognitivo, representa las relaciones funcionales o contingentes.
Tas. de la regulación conductual
Análisis conductual de SKINNER
SKINNER afirmaba que las tas. o mecanismos del aprendizaje eran innecesarios. No contribuyen de forma
sustancial a nuestra comprensión de la conducta, puesto que el propio mecanismo interno no es explicado.
Él se centra en el concepto de contingencia de reforzamiento. Tiene 2 efectos:
 Selecciona la conducta de entre las muchas posibles R del repertorio, siempre que vaya seguida de
un acontecimiento reforzante y no de un castigo (reforzamiento diferencial).
 Mantiene la conducta. El fortalecimiento de la conducta mediante el reforzamiento se denomina ley
empírica del efecto (no explicativa, sino descriptiva).
Hipótesis de la privación de R
Una formulación de la contingencia de reforzamiento es el principio de PREMACK. Según él, el efecto del
Principio de reforzamiento se basa en la probabilidad diferencial de dos actividades:
PREMACK 1. Se observa la probabilidad o preferencia de 2 actividades distintas cuando el sujeto no está limitado.
2. Se establece una relación de reforzamiento cuando la ejecución de una R más probable se hace
contingente respecto a realizar primero una conducta menos probable.
La hipótesis de la privación de R de ALLISON cuestiona la afirmación del principio de PREMACK. El cambio

Hipótesis de previsible en la tasa de una conducta instrumental no se produce debido a una consecuencia especial denominada
la privación reforzador, sino, más bien, porque se priva al sujeto de la actividad respecto a la cual la conducta instrumental
de R es contingente.
La combinación de 2 actividades preferida por el sujeto es su punto de deleite. Si el animal carece de acceso
libre, no puede realizar las 2 con su tasa preferida. El incremento de una actividad no se debería a la consecuencia
reforzante, sino más bien a que el programa priva al sujeto de la otra. Lo que produce el efecto reforzante es la
limitación de la conducta impuesta por el programa, no la consecuencia reforzante.
Las condiciones causantes de un aumento en la R instrumental implican una privación de R. Si las limitaciones de
un programa de reforzamiento impiden o restringen el acceso a una conducta particular, los sujetos efectúan otras
conductas por encima de su tasa de línea base preferida para intentar realizar la actividad restringida con una tasa
lo más cercana posible al punto de deleite.
La fuerza del efecto de reforzamiento depende de la diferencia entre la conducta permitida por el programa y
su punto de deleite. A medida que aumenta la diferencia entre el resultado y el punto de deleite, la conducta
instrumental aumenta también. Esto explica por qué los grandes incentivos producen un mayor efecto reforzante
que los incentivos pequeños (punto de bienestar superior).
Economía conductual
Principios económicos
El análisis económico de la conducta comienza con una serie de supuestos sobre la motivación, los axiomas de la
demanda: los organismos tienen necesidades esenciales, las cuales producen la demanda de los bienes que
satisfacen esas necesidades. Para satisfacer necesidades, los animales tienen que pagar cierto precio o coste.
A medida que aumenta el coste de un bien, la demanda disminuye. En el estudio del aprendizaje y la conducta
Demanda animal, puede establecerse una función de demanda mediante un programa de razón fija.
elástica e La demanda de un reforzador varía no sólo con su coste, sino también en la medida en que ese bien constituye
inelástica una necesidad esencial. Con artículos no esenciales, la demanda se considera elástica: disminuye
sensiblemente con los aumentos de precio. Si se mantiene con bastante estabilidad, se considera inelástica.
Otro factor que afecta a la demanda es la sustitución. Los individuos pueden sustituir un bien por otro cuando el
coste aumenta; en ese caso, la demanda es muy elástica.
La demanda puede expresarse como una elección entre 2 bienes. Un análisis económico supone que cada acción
Curva de refleja la consecuencia de una elección. La elección puede expresarse mediante una curva de indiferencia, que
indiferencia incluye una serie de puntos, cada uno de los cuales representa una combinación igualmente valiosa de productos.
Aunque una persona sea indiferente respecto a dos puntos cualesquiera a lo largo de una curva, prefiere situarse
en la curva más externa, porque ahí es donde tiene el mayor valor total de bienes.
La familia de curvas de indiferencia muestra las combinaciones de bienes que un sujeto encuentra igualmente
Línea de aceptables. Sin embargo, la curva de indiferencia que de hecho mantiene un individuo dado es determinada por el
presupuesto presupuesto de ese individuo. La línea de presupuesto muestra la combinación de bienes que el individuo puede
costearse; el punto de equilibrio es el encuentro entre la curva de indiferencia y la línea de presupuesto. Si la
línea de presupuesto cambia, se establece un nuevo punto de equilibrio.
Planes de conducta óptima

El principal objetivo de este enfoque es describir cómo regulan la conducta del sujeto las leyes derivadas del
estudio de la economía. Manejando o regulando su conducta respecto a los costes y los beneficios, un individuo
puede obtener el máximo beneficio de sus esfuerzos.
Los animales maximizan las funciones coste-beneficio mediante la conducta adaptativa. Actuar por
Tª de la debajo del punto óptimo es poner en peligro el éxito en el afrontamiento de las exigencias ambientales. Según la
optimización Tª de la optimización, diversos planes de conducta reflejan una decisión inconsciente de maximizar el beneficio
respecto a los costes.
Un ejemplo de ello sería la conducta de elección de parcela. Invertir demasiado poco tiempo evaluando las
posibles parcelas puede ocasionar un error de apreciación, y tardar demasiado sería una pérdida de tiempo. La
segunda decisión importante es cuándo abandonar la parcela después de alimentarse cierto tiempo. Según la Tª
de la búsqueda óptima de comida, el momento en que el sujeto debe abandonar una parcela depende de
diversos factores, entre los que se encuentran la tasa de ingestión de energía dentro de la parcela, el tiempo
necesario para trasladarse de una parcela a otra, y el tiempo requerido en buscar y procurar una presa. Son los
horizontes temporales.
En cuanto a la selección de la dieta, un animal ha de seleccionar lo que come teniendo en cuenta sus costes y
beneficios. Comer presas demasiado pequeñas produce escasa energía en comparación con los costes de hallarlas
y obtenerlas. Las presas mayores son mejores pero menos abundantes. Se optará por la presa más provechosa, la
que produzca mayor cantidad de energíapor unidad de tiempo.
Otro aspecto a tener en cuenta es si el sujeto corre el riesgo de ser atrapado por un depredador, por lo que habrá
que compensar las conductas de búsqueda de comida y de defensa. Cuando la amenaza de un predador es baja,
el sujeto invierte más tiempo en la búsqueda de comida que cuando la amenaza es elevada.

12. Especializaciones adaptativas del aprendizaje 12
Los animales desarrollan procesos de aprendizaje adaptativos, específicos de la especie, en el contexto del
aprendizaje de respuestas. A lo largo de la evolución, los individuos que nacieron con la capacidad de efectuar una
R ligeramente más ventajosa tenían ventaja desde un punto de vista selectivo.
La relación R-reforzador no puede divorciarse de los E que desencadenan la R. La distinción entre C instrumental y
pavloviano se basa principalmente en diferencias de procedimiento.
Aprendizaje específico de fase

A menudo, los individuos realizan un acto, pero no reciben ninguna recompensa evidente por hacerlo.
Varias formas de aprendizaje específico de la especie corresponden a una fase específica: se producen sólo, o
con mayor fuerza, durante cierto periodo de tiempo en la vida del animal (períodos críticos).
Aprendizaje del canto
El canto es innato en muchas especies de aves; en otras es aprendido, a menudo como consecuencia de una
retroalimentación crítica del entorno.
Teoría de la plantilla: las aves nacen con un patrón que se encarga de dar forma a los detalles del canto, una
Limitaciones especie de filtro. La exposición al canto adecuado entre los 10 y los 50 días da lugar al desarrollo del canto
en la normal. La plantilla excluye canciones de otras especies.
naturaleza En el espectrograma, la frecuencia del tono aparece representada en el eje vertical y el tiempo en el horizontal.
del canto La Tª de la plantilla explica algunos resultados, pero no otros, como que algunas aves aprenden y responden a
cantos que ellas mismas nunca emiten. El aprendizaje del canto es más flexible de lo que indica la estricta Tª de
la plantilla, por lo que deben influir otros factores.
El aprendizaje del canto no puede producirse antes o después de un período crítico.

Período Pinzones cebra: todos los sujetos aislados a los 35 días de edad presentaron canto anormal: la estructura del canto
sensible no se asemejaba a la del padre. La proporción de elementos compartidos por padre e hijo aumentaba con el
tiempo: los pinzones cebra desarrollan su canto entre los 35 y 65 días.
El período sensible no es invariable. Se produce aprendizaje antes y después. En machos pinzones cebra no
expuestos al macho cantor adulto, se produjo aprendizaje de la madre; tras 35 días de aislamiento, se permitió el
acceso al macho adulto, y se comprobó que los sujetos no sólo no tienen dificultades para aprender el canto, sino
que éste reemplaza de hecho cualquier canto que pueda haberse aprendido de la madre. También se ha
comprobado aprendizaje posterior al período crítico.
Factores La oportunidad de interaccionar socialmente con otro ejemplarde la misma especie constituye un factor importante
sociales en el aprendizaje del canto, y puede permitir superar los déficit creados por el aislamiento.
Impronta
Es razonable suponer que la capacidad de un animal recién nacido para reconocer a un miembro de su propia
especie es innata. Pero en muchos animales se aprende por medio del aprendizaje específico de fase llamado
impronta.
La impronta se observa más fácilmente en ejemplares que se encuentran relativamente bien desarrollados en el
momento de su nacimiento, como en el caso de los patos, que siguen a su madre.
Los polluelos no sólo siguen a su madre, sino prácticamente cualquier objeto en movimiento poco después de
su nacimiento. Presentan una preferencia intensa y duradera por el objeto de impronta frente a la madre biológica.
La impronta es una forma única de aprendizaje completamente distinta al CC e instrumental.

Período
En principio se pensaba que era irreversible y que sólo podía originarse en un período crítico (13-16 horas de
crítico
edad). Sin embargo, se ha encontrado impronta en crías de pato de 5 a 10 días de edad, aunque con mayor
exposición; y en algunos casos es reversible: mediante una exposición lo suficientemente larga a un segundo
objeto de impronta, los sujetos cambian su apego, a pesar de que la presentación ocasional del primer objeto de
impronta retarda el cambio.
Se puede recibir impronta de objetos inanimados, pero se les trata de forma distinta a los miembros de la
Caracterís-
propia nidada, quizá porque los congéneres vivos son más reforzantes que los objetos inanimados (más contacto
ticas críticas
social o calor).
de los E de
Los bloques de goma-espuma estáticos resultaron mucho menos eficaces en la producción de impronta que los
impronta
bloques móviles. Tanto el movimiento del objeto como del sujeto son factores críticos.
Muchas crías de patos reales parecen tener una preferencia innata por la llamada materna; la exposición a
sus propias vocalizaciones, las cuales se asemejan a esa llamada, resultan críticas para la impronta. La respuesta
apropiada a la llamada materna tras el nacimiento depende de haber experimentado el patrón altamente específico
de la llamada durante el desarrollo embrionario. La llamada materna característica de la especie resulta
sumamente importante para dar lugar a la conducta filial; aunque las jóvenes crías de patos siguen a los objetos
en movimiento, la llamada materna asegura prácticamente que se producirá la respuesta filial.
Teorías de la Un planteamiento es que la impronta se basa en el aprendizaje perceptivo. La mera exposición al E de impronta
impronta crea familiaridad y preferencia.
Una segunda opción es la Tª del condicionamiento de la impronta:
1. Las aves jóvenes están preparadas de forma innata para responder a ciertas clases de E (objetos en
movimiento). Los animales encuentras esta estimulación reforzante y, por tanto, muestran una
conducta filial hacia el objeto.
2. Las aves jóvenes desarrollan miedo a los objetos nuevos a medida que crecen. En un principio no los
temen, pero a partir del 2º día aumenta el temor. Un sujeto de mayor edad requiere un período más
amplio de exposición para que un E de impronta resulte reforzante.
3. La conducta constituye una solución de dos tendencias competidoras suscitadas por el E: la
tendencia filial o de aproximación y la reacción de miedo.
Se explica así que la conducta filial se limite al E expuesto, ya que resulta conocido y reforzante. Sin embargo, este
modelo establece varias predicciones que no han sido respaldadas, como la ausencia de extinción. En algunas
condiciones, los pájaros jóvenes reciben la impronta de claves ambientales u objetos estáticos.
Defensa de los predadores y aprendizaje de evitación

RDEE
Para BOLLES, las conductas de evitación son reacciones defensivas innatas y específicas de una especie dada. Por
tanto, son reacciones de defensa específicas de la especie (RDEE). Sobrevivir a los depredadores es algo
demasiado importante para depender de un proceso de aprendizaje gradual, por lo que la evitación eficaz debe
haber evolucionado como una capacidad conductual innata.
Cada especie poseería una jerarquía de RDEE. Cuando se enfrenta a una amenaza, el animal efectúa primero su
RDEE preferida. Si esa R no es eficaz, el sujeto pone en práctica la siguiente RDEE más probable.
Conducta de evitación
Evitación La Tª de las RDEE es respaldada por el hallazgo de que pueden criarse las ratas de forma selectiva respecto a
activa conductas de evitación eficaces o deficientes. La raza con evitación alta actúa mejor que aquélla con evitación
baja independientemente de la condición de entrenamiento.
Según la Tª RDEE, el EC pavloviano induce una reacción de tipo reflejo. Diversos estudios respaldan la Tª RDEE
al mostrar que los sujetos efectúan una R natural sin enseñarles a hacerlo, y que esta R puede consistir en huir o
inmovilizarse, dependiendo de las circunstancias. En presencia de un depredador, cuando las contingencias
impiden la huida, las ratas se inmovilizan.
La Tª fue cuestionada al mostrar que la evitación mediante presión de palanca puede aprenderse con bastante
facilidad, siempre que se utilice el reforzador adecuado. El acceso a un área segura, se permita o no al sujeto
correr hacia ella por sí mismo, refuerza intensamente la presión de la palanca.
Cuando la R de la palanca es compatible con, y de hecho forma parte de, la RDEE de huida, el aprendizaje es
mejor que cuando la tarea de evitación es incompatible con la tendencia de la RDEE. La presión de la palanca se
adquiere fácilmente como una reacción de evitación, siempre que sea congruente con la estrategia de defensa
natural de la rata, y que se refuerce adecuadamente ofreciendo al sujeto acceso a un área segura.
Evitación La tigmotaxis (tendencia a correr hasta la periferia y permanecer cerca de las paredes) resultaba incompatible con
pasiva la R de evitación pasiva en un grupo, por lo que su conducta de evitación fue menor: las tareas de evitación
compatibles con la RDEE de un sujeto se aprenden con mayor facilidad que aquéllas que no lo son.
Reacciones defensivas
Las ratas y otras respecies recurren también al enterramiento y la agresión cuando se engfrentan a E aversivos.
Enterra- Enterrar un objeto constituye una R defensiva. En el experimento de PINEL, los sujetos que no recibieron
miento ninguna descarga eléctrica dedicaron poco tiempo a enterrar la vara; los que recibieron descarga dedicaron
bastante tiempo a enterrar la vara, y acumularon un montículo de material bastante mayor, tratándola como un
objeto aversivo. Esta R ocurre incluso cuando los sujetos son puestos a prueba en un entorno distinto; cuando la
descarga se administra desde el suelo de parrilla; cuando la vara produce descarga frente a otra que no lo hace. El
enterramiento defensivo se ha probado incluso con soluciones venenosas.
No se produce R de enterramiento si existe la posibilidad de escapar. Escaparse e inmovilizarse
constituyen las primeras líneas de defensa, pero cuando esas reacciones no suprimen la fuente de aversión, se
produce el enterramiento defensivo.
Muchas especies no presentan conducta de enterramiento. Puede que se haya desarrollado en las ratas como una
forma de altruismo heredado: las ratas entierran los objetos aversivos de modo que los miembros de su colonia
no los encuentren, pero este acto altruista no ha evolucionado en un animal asocial como el hámster.
Agresión Las conductas agresivas son otra forma de defensa instrumental. En ratas sometidas a descarga, tanto las ratas
macho como las hembras mordieron el hocico del animal diana, y los mordiscos aumentaron de forma acusada en
función de la intensidad de la descarga.
Un ataque constituye una estrategia defensiva sólo en ciertas circunstancias. Para las hembras, el ataque
preventivo está dirigido a proteger a los cachorros, y sólo se produce cuando aparece un enemigo peligroso.
Al igual que el enterramiento, las conductas de ataque pueden ser sólo una entre una serie de reacciones
defensivas efectuadas por una rata, dependiendo de las circunstancias. La huida suele ser la estrategia preferida, y
la inmovilización a continuación. Si éstas no logran poner fina a la amenaza, el ataque pasa a ser una opción.
Enfoque de los sistemas de conducta
Aproximación tradicional
La tª de que el reforzamiento produce el aprendizaje y da lugar a la ejecución es causal, en tanto que el

reforzamiento se considera la causa o explicación de la conducta.
En el modelo causal, el reforzamiento se representa mediante un vínculo de retroalimentación que fortalece la

conducta, o el vínculo R-C.
Sin embargo, para TIMBERLAKE es preferible considerar la conducta del animal como parte de un sistema de
conducta funcional integrado, que posee:
1. Un valor de comienzo inicial (entrada del E).
2. Conductas adecuadas para esos valores iniciales (R).
3. La propiedad de modificarse por medio de la consecuencia (retroalimentación).
Sistemas de conducta y aprendizaje
Sistemas de Según el enfoque de los sistemas de conducta, las R y los E parecen ser arbitrarios para el experimentador, pero
conducta no para el sujeto. Las conductas del sujeto, y sus reacciones perceptivas ante los E, se encuentran pre-
organizadas en unidades funcionales. Aunque el E no fuera conocido en el pasado, el sujeto reacciona según una
estructura existente, organizada de antemano. El acto de presionar la palanca se integra en un conjunto
existente de capacidades conductuales.
Por tanto, la conducta aprendida se halla pre-organizada, integrada respecto a una única función (como la
alimentación, reproducción, defensa, cuidado corporal...). Las características críticas de un sistema de conducta
son:
 Procesos motivacionales que desencadenan otras estructuras y ayudan a organizar y mantener la
secuencia de su expresión.
 Estructuras perceptivo-motoras que relacionan afinidades específicas de los E con componentes de
R particulares.
Evolución y Un animal nacería con ciertos repertorios conductuales, y la capacidad para aprender evolucionaría con respecto a
aprendizaje esos sistemas conductuales. Estas líneas de conducta han perdurado porque aumentaban la probabilidad de
supervivencia y reproducción. El aprendizaje modifica estas líneas adaptándolas a nuevos ambientes o
reorganizándolas para afrontar nuevos retos ambientales.
Componentes de los sistemas de conducta
Sistema El nivel más inclusivo es el del sistema: es la función general que realiza el sistema. Éste identifica una serie de
unidades perceptivas y conductuales motoras que contribuyen a una función particular de forma integrada.
Subsistema El susbsistema hace referencia a estrategias coherentes que sirven a la función general del sistema. Siempre que
se pone en funcionamiento un subsistema dado, se vuelven salientes para el animal una serie de E particulares y
se inician ciertas líneas de conducta.
El subsistema controla distintas estrategias globales o patrones motores y perceptivos relacionados con la
función general.
Modo Un modo es un sustrato motivacional relacionado con la organización secuencial y temporal de los
patrones de acción respecto a los E terminales del sistema.
Se trata de una unidad motivacional que coordina líneas de conducta específicas. Refleja distintas estrategias de
motivación y conducta.
Módulo Los módulos son predisposiciones a responder a E particulares con componentes de R particulares.
No se encuentran localizados fisiológicamente en ninguna área específica del cerebro, sino que más bien
constituyen unidades funcionales de la conducta, o secuencias conductuales.
Las modificaciones de los sistemas conductuales producidas como consecuencia de los procedimientos de
aprendizaje pavloviano o instrumental se producen entre y dentro de los módulos.
Patrón de La unidad más básica de salida es el patrón de acción. Se trata de movimientos específicos y reacciones
acción motoras ejecutados de forma estereotipada. Los patrones de acción específicos pueden formar parte de más
de un módulo.
Los sistemas de conducta y la conducta integrada
Las conducta inadecuadas plantean un serio problema a la tª del reforzamiento, porque los animales efectúan las
Conductas reacciones de alimentación específicas de la especie en lugar de las simples conductas criterio para las que se
inadecuadas proporciona el reforzamiento. Sin embargo, el enfoque de los sistemas de conducta proporciona una explicación
coherente: la conducta inadecuada se produce porque el sistema de alimentación natural del sujeto es
activado por los E; los patrones de acción asociados con la alimentación son desencadenados automáticamente
por estos E, haciendo irrelevante el reforzamiento.
Según TIMBERLAKE, la acción de correr hasta el final del laberinto no está regida por la consecuencia instrumental
Recorrido de porque los animales se desplazan por corredores aun cuando no se proporciona ninguna recompensa. La conducta
laberintos de correr se asemeja a patrones de acción característicos de animales que viven en madrigueras.
El moldeamiento consiste en el proceso de fortalecimiento de una R mediante aproximaciones sucesivas. El

Moldea- reforzamiento fortalecería cada conducta componente individual hasta que se efectuara la R final.
miento Para el enfoque de los sistemas de conducta, las conductas efectuadas por una rata durante el procedimiento de
moldeamiento reflejan reacciones apetitivas elicitadas, específicas de la especie, que forman parte del
sistema de alimentación general.
El moldeamiento es similar al automoldeamiento, la entrega de comida activa automáticamente partes del sistema
de alimentación. promueve una combinación de modos de búsqueda general y focal centrados principalmente en el
área del comedero y asocia módulos relacionados con la consecución o manejo de la comida con el movimiento de
la palanca.
La tª de RDEE del aprendizaje de evitación sostiene que los organismos están dotados genéticamente de
Conductas conductas apropiadas para hacer frente a depredadores y otras amenazas aversivas. El enfoque de los sistemas de
defensivas conducta argumenta que las conductas efectuadas en situaciones amenazantes implican secuencias
conductuales que son provocadas por el E ambiental relevante.
Según FANSELOW, la estrategia defensiva de una rata posee tres modos: pre-encuentro, post-encuentro y
próximo a la lucha. La secuencia de conducta natural de la rata, que es una consecuencia de estos distintos
modos de acción, depende de los E ambientales encontrados.

13. Generalización y discriminación 13
Generali- Estímulos similares a la clave original pueden producir también reacciones, fenómeno que se conoce como
zación generalización del E. Cuanto más semejantes son las claves, mayor es la reacción condicionada en la prueba de
generalización. Por lo general, la semejanza del E se basa en una característica de tipo físico, como la intensidad,
la longitud de onda o el tamaño.
Discrimi- La discriminación es el proceso contrario: responder de forma distinta a dos E basándonos en sus diferencias
nación aparentes.
Control por Se puede concebir la generalización y la discriminación en términos de control por el E. Se dice que la R
el E producida por un EC, o en presencia de un Ed, está controlada por uno o más atributos de la clave. Algunas
dimensiones de un E son relevantes (y producen la conducta) mientras que otras no.
Gradientes de generalización
Se da una relación sistemática entre la fuerza de la R a los E generalizados y la similitud de esos E con el EC o Ed
original, denominada gradiente de generalización.
Medidas de la generalización
La técnica de los E múltiples consiste en condicionar un E+ criterio y después, durante una sesión de extinción,
E múltiples presentar el E original junto a otros muchos semejantes (en orden aleatorio). Cada sujeto experimenta todos
los E generalizados, pero tiene el inconveniente de que responder a un E puede afectar la reacción a otros.
Consiste en entrenar a los sujetos con el E original y después ponerlos a prueba con sólo una clave generalizada.
E único Se comparan los grupos. Requiere más tiempo y es más costosa, pero la reacción del sujeto a un E generalizado
no se ve afectada por la exposición a otros E.
Se refuerza a un sujeto de forma continua por responder a un E+ original (programa intermitente) administrando
Generali- periódicamente ensayos de prueba en los que se presenta un E generalizado sin reforzamiento. Los sujetos
zación experimentan todos los E y la fuerza de la R se mantiene a lo largo de la prueba, pero los sujetos discriminan
mantenida eventualmente el E+ original de los generalizados, y puede salir un gradiente artificialmente pronunciado.
Tipos de gradientes de generalización
E excitato- Los E generalizados excitatorios producen la conducta, y la magnitud de la R es función directa de la similitud entre
rios e inhi- los E de entrenamiento y de la prueba. También en los E inhibitorios se da inhibición condicionada, y el grado de
bitorios supresión está relacionado con la semejanza entre el E– y las claves generalizadas.
Interacción Cuando el entrenamiento inicial implica la discriminación entre una clave E– y otra E+, y se evalúa después la
generalización en una fase de prueba, se produce el efecto de desplazamiento del máximo.
Consiste en un alejamiento del máximo del gradiente excitatorio respecto al E+ original, en dirección opuesta a la
del E–. El máximo de la curva no se encuentra en el E+ original, sino desplazado del E+ en dirección contraria al
E–. Cuanto más próximos se hallan el E– del E+, mayor es el desplazamiento del máximo.
Según SPENCE, los gradientes de generalización post-discriminación se derivan de la interacción entre los
gradientes de excitación e inhibición. Si los gradientes excitatorio e inhibitorio se miden separadamente y se
calculan las sumas algebraicas, el gradiente resultante muestra un desplazamiento del máximo que lo aleja del E+.
Sustrayendo cada valor del gradiente inhibitorio al valor correspondiente en el excitatorio se obtiene el gradiente
combinado o neto.
Teorías de la generalización
Como proceso primario
La generalización es un proceso neurológico primario. Cuando se activa un área cerebral mediante un EC+, la
PAVLOV
actividad eléctrica se extiende a otras áreas cercanas del cerebro, excitando así también los centros neurológicos
de otros E.
Una R se condiciona respecto a una región de valores del E, no a un único valor. El sistema nervioso que percibe
HULL
un E, a diferencia de un instrumento científico, se encuentra en un estado constante de oscilación o flujo; el
cerebro registra varios valores del E cuando percibe una clave, no un único valor.
Como un fallo de diferenciación
Tª Lashley- Con respaldo más amplio, la Tª de Lashley-Wade indica que la generalización es una consecuencia de la
Wade incapacidad del sujeto para diferenciar los E:
 Los sujetos se confunden durante la prueba de generalización.
 El sujeto aprende sobre la dimensión en la que se produce la generalización.
Hipótesis La afirmación de que la generalización consiste en un fallo de discriminación se conoce por el nombre de hipótesis
inversa inversa. Si los sujetos no pueden discriminar, generalizan. Si discriminan, la generalización es mínima y el
gradiente pronunciado. Los gradientes de generalización reflejan la capacidad del sujeto para discriminar.
Factores El entrenamiento de discriminación previo afecta a la generalización, ya que atrae la atención del sujeto
atencionales hacia la dimensión pertinente del E. En algunos casos, la atención se debe a la saliencia de las claves; en otros, los
efectos atencionales se transfieren a E no utilizados en la discriminación.
Modelos de procesamiento de la información de la generalización
Varios modelos indican que la generalización implica también el procesamiento de información.
El modelo de BLOUGH es similar al de RESCORLA-WAGNER del condicionamiento pavloviano. Afirma que la

Modelo de
presentación de un reforzador modifica la probabilidad de una R en presencia del EC de entrenamiento y de
BLOUGH
otros EC generalizados que tienen elementos comunes con él.
Cada elemento o característica posee capacidad para obtener fuerza asociativa mediante su emparejamiento con
un EI. Esta fuerza se suma a través de todos los elementos, creando la fuerza asociativa total del E.
La fuerza de un E equivale a la suma de la fuerza de los elementos individuales ponderada mediante un factor de
generalización, que aumenta con la semejanza física entre los E. [Ecuación]
PEARCE desarrolló un modelo que supone que los animales poseen un almacén breve de memoria (buffer)
Modelo de
que contiene el patrón de estimulación experimentado. Al aparecer un EI a continuación, todas las
PEARCE
representaciones del EC en la memoria obtienen fuerza asociativa. Sin embargo, los contenidos del almacén breve
de memoria cambian cuando se presenta un nuevo E generalizado: éste produce una R en la medida en que los
elementos que activa poseen ya fuerza asociativa derivada del entrenamiento inicial. El entorno del E se
representa como un conjunto de elementos en la memoria.
La magnitud de la R generalizada viene determinada por la proporción de elementos comunes tanto a las claves
original como generalizada. Si dos estímulos son similares, ASA (grado de similitud de los contenidos del buffer
para 2 E distintos) se aproxima a 1; si no, su valor se aproxima a 0. [Ecuación]
Generalización como R relacional
La R generalizada no se basa en las diferencias físicas absolutas entre E, sino en sus diferencias relativas.
Efecto de THOMAS y JONES comprobaron que en un grupo de sujetos, en lugar de mostrar la misma reacción de
tendencia generalización a dos E semejantes físicamente en el mismo grado al original, el máximo de los gradientes se
central desplazó respecto al valor original en dirección hacia los E de prueba.
Modelo del Para explicar este fenómeno, THOMAS propuso que los sujetos juzgan sus E respecto a un referente ya
efecto del almacenado, o representación subjetiva del valor medio con el que se encuentran. Si los sujetos experi-
nivel de mentan sólo un valor de E, este valor se convierte en referente. Si experimentan valores múltiples, adquieren un
adaptación referente del nivel de adaptación, o representación de memoria, correspondiente al valor medio de todos los E. Su
R se basa en este valor medio. [Ecuación]
Factores que afectan al gradiente de generalización

Un gradiente de generalización pronunciado refleja escasa generalización, al contrario de los más planos.
Grado de La cantidad de entrenamiento administrado con el E+ influye en la generalización. Cuanto más extenso es el
entrena- entrenamiento, menor es la generalización. Estos hallazgos respaldan la concepción de Lashley-Wade: a medida
miento que los sujetos se familiarizan con la dimensión en la que difieren los E, la discriminación cobra mayor fuerza y,
por consiguiente, la generalización es más débil.
Intervalo La generalización aumenta con el tiempo, no porque el sujeto responda menos a la clave E+ original, sino
entrena- porque los E generalizados más discrepantes, los cuales no produjeron al principio una R de generalización fuerte,
miento- ejercen un mayor control a medida que transcurre el tiempo.
prueba Los detalles de un E particular se olvidan con el tiempo.
Contexto Aunque el transcurso del tiempo hace más plano el gradiente de generalización, un cambio en el contexto
general disminuye la generalización. Parece que se distorsionan los detalles del contexto de entrenamiento
original, provocándose así un fallo de recuperación de memoria. Los sujetos generalizan menos cuando se cambia
el contexto pero generalizan más a medida que transcurre el tiempo.
Entrena- Cuando el sujeto recibe un entrenamiento de discriminación seguido de una prueba de generalización, el
miento de gradiente es más pronunciado que si el sujeto no recibe dicho entrenamiento. Es un respaldo para la Tª de
discrimin. Lashley-Wade: para discriminar entre 2 E, un sujeto debe aprender las dimensiones relevantes del E
previo implicadas en la discriminación. Al hacerlo, confunde menos el E y muestra menos generalización.
Entrenamiento de discriminación: tipos de discriminación

El entrenamiento de discriminación comporta la presentación de reforzamiento tras una R a un E+, pero la omisión
de reforzamiento tras una R a un E–. El hecho de que el animal responda de forma distinta a los dos E indica que
ciertas propiedades salientes del E controlan la conducta.
Simultánea En la técnica simultánea, E+ y E– se presentan a un tiempo, y se utilizan dos teclas de R distintas.
Sucesiva Consiste en presentar el E+ y el E– sucesivamente. La medida de la discriminación depende de que el sujeto

responda de forma distinta. Una versión especial es la de discriminación respuesta/no respuesta, en la que el
E+ es la presencia de una clave, y el E– su ausencia. Las discriminaciones sucesivas son más difíciles de resolver
que las simultáneas.
Discrimin. de Las técnicas de discriminación simultánea y sucesiva establecen un contraste entre una condición reforzada y otra
programas no reforzada. El programa de recompensa puede variar también durante las presentaciones del E+ y el E–.
de reforza- Un ejemplo de simultánea es el programa concurrente, en el que el sujeto escoge entre 2 opciones de R.
miento Un ejemplo de discrimnación entre programas de reforzamiento que utiliza una aproximación sucesiva es el
programa múltiple. Los sujetos obtendrían una recompensa, por ejemplo, durante la presentación de una tecla
verde según un programa de IV de un minuto, pero cuando el Ed se volviese rojo, la recompensa se obtendría con
un programa de reforzamiento distinto, como un IV de 2 minutos. Los componentes se dan de forma secuencial.
La evidencia de la discrimnación es la tasa diferencial de R a cada componente.
Discrimin. Una discriminación condicional se produce cuando el sujeto efectúa la R1 en presencia del E1, pero una R2
condicional ante E2. La R correcta depende del E presentado. La discriminación condicional es esencialmente lo mismo que la
inhibición condicionada y la modulación en el CC.
Teorías de la discriminación
HULL-SPENCE
Establece 3 supuestos:
 El reforzamiento da lugar a la excitación condicionada al E+.
 La ausencia de reforzamiento produce la inhibición condicionada al E–.
 La excitación y la inhibición se generalizan a otros E, y estas tendencias contradictorias se suman
algebraicamente para cualquier E dado.
Que un sujeto tenga una reacción cuando se le presenta un E dado depende de la fuerza relativa de las tendencias
excitatoria e inhibitoria generalizadas a ese E. La ejecución se hace patente cuando la tendencia excitatoria es
superior a la inhibitoria. Viene respaldado por el desplazamiento del máximo.
Tª atencional de la discriminación de SUTHERLAND y MACKINTOSH
El aprendizaje de discriminación consta de 2 procesos diferenciados:

 La propia atención resulta afectada cuando se refuerza al sujeto. El cerebro posee analizadores que
reciben y procesan información sensorial; cada dimensión de un E se representa mediante un analizador
distinto. Si un E posee un rasgo saliente, como el brillo o el color, la atención del sujeto resulta
atraída por esa dimensión, y la fuerza del analizador se relaciona con la de la señal entrante. Esto
explica el que los E más fuertes susciten una mayor atención y se condicionen con mayor facilidad.
 El segundo proceso consiste en la adquisición de una R. Se desarrolla un vínculo o unión entre una R
específica y un analizador.
Factores que afectan a la discriminación

Dificultad El aprendizaje de discriminación es más rápido cuando los E+ y E– se distinguen con facilidad.
Discrimin. La experiencia previa con un problema de discriminación influye en cómo el sujeto aprende el segundo problema.
previa Es el efecto de fácil a difícil. La explicación de LAWRENCE fue que los animales atienden mejor a la dimensión
relevante del E con una tarea fácil, y que esta reacción de atención facilita la discriminación difícil en la misma
dimensión. Otra Tª sostiene que la facilitación de la discriminación procede de una mejora en la capacidad
general del sujeto para resolver problemas de discriminación.
Información El valor informativo de un Ed afecta al aprendizaje de discriminación. Cuando los sujetos cuentan con
del E buenos E predictores, si se añade un elemento redundante al compuesto, adquiere escasa fuerza. El Ed adquiere
fuerza como consecuencia de su validez relativa. Estos resultados respaldan la Tª de la atención de discriminación,
los sujetos prestan atención a los E relevantes o predictivos para resolver la discriminación.
Efecto de la Se trata de en qué medida la R da lugar a una única consecuencia. Se responde de forma distinta a E1 con
consecuen- R1 y a E2 con R2 cuando R1 produce una consecuencia C1 y R2 otra C2. La discriminación es más eficaz en la
cia condición de consistencia. Se ha explicado la facilitación del aprendizaje de discriminación en términos de la
diferencial representación del reforzador: las distintas consecuencias facilitan que el sujeto adquiera una expectativa de lo que
viene a continuación de la secuencia E-R.
Fenómenos de discriminación
Efecto del sobreaprendizaje en la inversión
Contradiciendo la Tª de discriminación de SPENCE, los animales que recibieron entrenamiento extra

aprendieron la discriminación inversa con mayor facilidad que el grupo de control. Este efecto se obtiene
sólo cuando se emplea un problema de discriminación relativamente difícil y se administra una recompensa grande
por la R correcta.
Tª de la La Tª más exitosa del efecto del sobreaprendizaje de la inversión es la Tª de la atención, según la cual la
atención atención a la dimensión relevante, de la que depende la discriminación, fortalece la R de atención o analizador. La
tª supone también que la discriminación se produce sin que el sujeto atienda de forma exclusiva a la dimensión
relevante del E. El sobreentrenamiento sigue fortaleciendo el analizador respecto a la dimensión
pertinente mientras reduce la fuerza de los analizadores de la atención para las dimensiones no
pertinentes. Durante el aprendizaje de inversión, los animales que han sido entrenados sólo con el criterio
normal no están prestando su máxima atención a la dimensión relevante, a diferencia de los sobreentrenados, en
los que los otros analizadores se han debilitado durante los ensayos de sobreentrenamiento.
La Tª de la atención ha sido cuestionada. Se sugiere que los animales son más eficaces resolviendo problemas en
general, no porque su atención a una dimensión específica haya aumentado.
Disposiciones de aprendizaje
La discriminación de nuevos objetos mejora si se administra de antemano un entrenamiento de

discriminación con otros E. La exposición a muchos problema de discriminación distintos produce un aumento
espectacular de la capacidad para aprender nuevos problemas.
Un trabajo de HARLOW con monos rhesus demostró un principio importante del aprendizaje: que las experiencias
de aprendizaje previas pueden influir en la capacidad para resolver problemas, la capacidad para aprender en sí.
Resulta muy relevante para los organismos en su medio natural, más expuestos a problemas de discriminación que
los animales de laboratorio.
La ejecución de disposiciones de aprendizaje puede diferir según las especies (aunque está poco probado). Está
clara la variación en función de los E: las ratas son ineficaces ante E visuales, pero muy eficaces con olores, a un
nivel comparable a la ejecución de los primates. Por tanto, la formación de disposiciones de aprendizaje no parece
ofrecer una medida simple de la inteligencia general.
Desarrollo La Tª de la formación de las disposiciones de aprendizaje de HARLOW afirmaba que un sujeto aprende lo que no
de hipótesis ha de hacer. La tendencia a realizar una elección incorrecta se inhibiría gradualmente. LEVINE propuso que los
animales desarrollan, y ponen después a prueba, hipótesis sobre los problemas de discriminación; éstas son
confirmadas o rechazadas según el resultado. La estrategia más habitual es ganar-continuar con el objeto;
perder-cambiar a otro objeto. La investigación respalda la Tª de LEVINE.
Transferencia después de la discriminación
Transfer. La experiencia con problemas de discriminación se transfiere a nuevos problemas. ¿Se produce la facilitación sólo
intra y cuando se utiliza la misma dimensión estimular (cambio intradimensional) u ocurre también con una nueva
extradimen- dimensión del E (cambio extradimensional)?
sional La experimentación sugiere que se dan ambos cambios, pero resulta más fácil cuando el problema inicial implica
la misma dimensión del E que cuando comporta una nueva dimensión.
La Tª de la atención explica esta diferencia: una vez se produce el cambio en fase 2, los sujetos
intradimensionales poseen ya una fuerte R de atención a la dimensión apropiada; los extradimensionales han de
suprimir la atención a la dimensión anteriormente relevante y aprender a prestar atención a la nueva dimensión.
Aprendizaje del rasgo
Efecto del Añadir un rasgo distintivo a la tecla E+ produce un mejor aprendizaje de discriminación que incluir ese
rasgo rasgo en la presentación del E–.
positivo Un fenómeno relacionado es el efecto del rasgo positivo, cuando el rasgo predictivo simple que distingue al E+
del E– forma parte físicamente de la presentación del E+. El aprendizaje de discriminación era más eficaz cuando
la característica distintiva se encontraba en la tecla E+ que cuando formaba parte del E–.
Estos resultados se explican recurriendo a 2 conceptos:

 La R está relacionada con la atención. Para efectuar la R correcta, los animales han de prestar
atención al elemento distintivo; cuando forma parte del E+ se refuerza de forma inmediata, lo cual
fortalece más la R de atención.
 La ejecución puede estar relacionada con el seguimiento del signo, reacciones motoras dirigidas hacia
los E asociados con la recompensa, y de alejamiento de claves asociadas con ausencia de recompensa.
Cuando el rasgo forma parte de la presentación del E+, se facilita el aprendizaje de discriminación
porque la reacción es recompensada inmediatamente.

Sintesis de TARPY R Aprendizaje. Teoria PDF

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Sintesis de TARPY R Aprendizaje. Teoria PDF

Enviado por

Direitos autorais:

Formatos disponíveis

Esquema-síntesis de

TARPY, ROGER M.:

Se han omitido algunos contenidos.

This work is licensed under a Creative Commons Attribution-NonCommercial 4.0 International

8. Procedimientos básicos del condicionamiento operante 8

Condicionamiento instrumental (operante)

Definición del condicionamiento instrumental

Fases del aprendizaje instrumental

La fuerza de R se mide en función de:

Implica omitir la consecuencia que sigue a la R.

Los procedimientos difieren en 2 dimensiones: positivo-negativo (apetitivo-aversivo) y consecuencia o

Una R produce un resultado deseable. La probabilidad de R aumenta.

El resultado que sigue a la R es la ausencia de un EI+. Su efecto es la supresión de la R.

La R instrumental va seguida de un EI–.

Implica la terminación o no-ocurrencia de un EI aversivo.

Técnicas de  Caja de lanzadera de dos compartimentos (evitación de descarga saltando al 2º compartimento).

Históricamente, el paradigma de aprendizaje escape/evitación se ha denominado reforzamiento negativo.

Especificidad del reforzador y de la respuesta

El principio Incluye 2 supuestos:

Clase de R Aparte de las reacciones motoras voluntarias, se utilizan respuestas como:

Topografía El reforzamiento puede afectar a:

Creación de unidades conductuales mediante reforzamiento

Principios del Condicionamiento Instrumental

Inmediatez del reforzador tras la R.

9. Variables que afectan al aprendizaje instrumental 9

Programas de reforzamiento intermitente

Razón fija El sujeto recibe una recompensa por realizar un nº determinado de R.

Ejecución en programas con humanos o animales

Características de los reforzadores

En general, la demora interfiere en el aprendizaje de nuevas conductas, además de en la ejecución de R muy

Entrena- La ejecución disminuye gradualmente con el aumento de la demora.

¿Afecta el reforzamiento al aprendizaje o a la ejecución?

Naturaleza del reforzador

Un reforzador es cualquier acontecimiento que incrementa la probabilidad de una R contingente.

Patrón de la magnitud de la recompensa

Características de la respuesta: relevancia ecológica

10. Fenómenos del condicionamiento instrumental 10

Durante el entrenamiento, un sujeto experimenta 2 clases de consecuencias tras su conducta:

Tas. del reforzamiento secundario

Según la hipótesis del E discriminativo, un E secundario actúa principalmente como Ed.

Mejora Mejorar se entiende en el sentido de hacer algo más ventajoso.

Efecto del reforzamiento parcial

Factores que afectan a la persistencia

Tas. del efecto de reforzamiento parcial

Se ha observado el mismo tipo de transferencia negativa en situación de condicionamiento apetitivo, llamada

Principios de la indefensión aprendida

Tas. de la indefensión aprendida

11. Perspectivas teóricas en el condicionamiento instrumental 11

Mecanismos fisiológicos del aprendizaje

Sustratos biológicos de la memoria

Mecanismos neurológicos del reforzamiento

Teorías mecanicistas (E-R) del aprendizaje

Su sistema es hipotético-deductivo porque incluye postulados y teoremas formales. Si el resultado de la prueba es

Postulado IV: reducción del impulso.

Postulado VII: potencial de reacción

Inhibición Postulados VIII-IX: inhibición reactiva y condicionada

 Muchos encontraron fallos en la concepción molecular de la conducta propuesta.

Tas. cognitivas (R-E) del aprendizaje

Conductismo cognitivo de TOLMAN

Las asociaciones en el aprendizaje instrumental

La fuerza y el significado de un EC depende, entre otras cosas, de su valor informativo. El C instrumental se ve

Tas. de la regulación conductual

Análisis conductual de SKINNER