El efecto del reforzamiento parcial en la extinción del aprendizaje predictivo: una evaluación del modo de respuesta

Alvarado García, Angélica Serena; Vila, Javier; López Romero, Luis J.

Servicios Personalizados

Revista

Articulo

Indicadores

Citado por SciELO
Accesos

Links relacionados

Citado por Google
Similares en SciELO
Similares en Google

Otros
Otros

Permalink

Avances en Psicología Latinoamericana

versión impresa ISSN 1794-4724

Av. Psicol. Latinoam. vol.31 no.3 Bogotá sep./dic. 2013

El efecto del reforzamiento parcial en la extinción del aprendizaje predictivo:
una evaluación del modo de respuesta*

Partial reinforcement effect in the extinction of the predictive learning:
An evaluation of the response mode

O efeito do reforçamento parcial na extinção da aprendizagem preditiva:
uma avaliação do modo de resposta

Angélica Serena Alvarado García**
Javier Vila***
Luis J. López Romero****
Facultad de Estudios Superiores Iztacala, Universidad Nacional Autónoma de México

* División de Investigación y Posgrado, Facultad de Estudios Superiores Iztacala, Universidad Nacional Autónoma de México. Tlalnepantla, Edo. Mex. 54096, México. Teléfono: +52 55 56 23 12 96 ext. 133.
Correo electrónico: javila@campus.iztacala.unam.mx

** Psicóloga. Doctora en psicología experimental, FES Iztalala, Universidad Autónoma de México.
Correo electrónico: aserena77@hotmail.com

*** Psicólogo. Doctor en psicología, FES Iztacala, Universidad Autónoma de México.
Correo electrónico: javila@cablevision.net.mx

**** Psicólogo. FES Iztacala, Universidad Autónoma de México.
Correo electrónico: luis.lopez@ired.unam.mx

Para citar este artículo: Alvarado, A., Vila, J. & López-Romero, L. (2013). El efecto del reforzamiento parcial en la extinción del aprendizaje predictivo: una evaluación del modo de respuesta, Avances en Psicología Latinoamericana, 31 (3), 453-466

Fecha de recepción: 8 de octubre de 2012
Fecha de aceptación: 26 de febrero de 2013

Resumen

El efecto de reforzamiento parcial (ERP) se observa cuando una señal reforzada parcialmente muestra una mayor resistencia a la extinción que una clave reforzada continuamente. En dos experimentos se estudió el efecto del modo de respuesta en el ERP, empleando una tarea de aprendizaje predictivo. Participantes humanos fueron entrenados en un modo de respuesta ensayo por ensayo, por fase o global en una tarea en la que tenían que predecir la ocurrencia de una consecuencia (aparición de un conejo) después de diferentes claves (palabras mágicas). Durante una fase de adquisición, una señal EC25 fue apareada con la consecuencia en no 25% de los ensayos (reforzamiento parcial), mientras que las claves EC100 y ECcont se reforzaron en todos los ensayos (reforzamiento continuo). Durante una fase de extinción, las señales EC25 y EC100 se extinguieron, pero no la clave ECcont. Se solicitaron juicios predictivos para cada señal en el grupo global, no final del entrenamiento, en el grupo por fase al final de cada fase y en el grupo por ensayos, cada tres ensayos. Los resultados mostraron el ERP para la clave EC25 en todos los grupos y no pueden ser explicados totalmente ni por los modelos asociativos ni por los estadísticos.

Palabras clave: efecto de reforzamiento parcial, humanos, aprendizaje predictivo, frecuencia de los juicios, teoría asociativa

Abstract

The partial reinforcement effect (PRE) is observed when a partially reinforced cue shows more extinction resistance than a continuous reinforced cue. In two experiments using a predictive learning task the effect of response mode in PRE was studied. Human participants were trained in a trial-by-trial, phase or global response mode in a predictive task in which they had to predict the probability of an outcome (appearance of a rabbit) following different cues (magic words). During an acquisition phase a cue EC25 was paired with the outcome on 25% of the trials (partial reinforcement), while cues EC100 and ECcont were paired with the outcome on all the trials (continuous reinforcement) During an extinction phase, cues EC25 and EC100 were extinguished but cue ECcont not. Judgments were required for each cue in the Global group at the end of training, in the Phase group at the end of each phase and in the Trial group, each 3 trials. These results showed PRE for cue EC25 in all groups and can not be explained by associative or probabilistic models.

Keywords: Partial reinforcement effect, humans, predictive learning, judgment frequency effect, associative theory

Resumo

O efeito do reforçamento parcial (EPR) se observa quando um sinal reforçado parcialmente mostra uma maior resistência a extinção que um sinal reforçado continuamente. Em dois experimentos se estudou o efeito do modo de resposta no ERP, utilizando uma tarefa de aprendizagem preditiva. Participantes humanos foram treinados em um modo de resposta ensaio por ensaio, por fase ou global em uma tarefa na qual tinham que predizer a ocorrência de uma consequência (aparição de um coelho) depois de diferentes sinais (palavras mágicas). Durante uma fase de aquisição, um sinal EC25 foi emparelhado com uma consequência em 25% dos ensaios (reforçamento parcial), enquanto que os sinais EC100 e ECcont se reforçaram em todos os ensaios (reforçamento continuo). Durante uma fase de extinção, os sinais EC25 e EC100 se extinguiram, porém não o sinal ECcont. Solicitaram-se juízos preditivos para cada sinal no grupo global al final do treinamento, no grupo por fase no final de cada fase e no grupo por ensaios, a cada três ensaios. Os resultados mostraram o ERP para o sinal EC25 em todos os grupos e não podem ser explicados totalmente nem pelos modelos associativos e nem pelos estatísticos

Palavras-chave: efeito de reforçamento parcial, humanos, aprendizagem preditivo, frequência dos juízos, teoria associativa.

El efecto de reforzamiento parcial (ERP) se refiere a la resistencia a la extinción de una clave o respuesta durante una segunda fase, que en una primera fase fue reforzada parcialmente en relación con una segunda clave, reforzada continuamente durante dicha fase. Esto es, la respuesta condicionada (RC) a una clave reforzada en todos los ensayos se extinguirá más rápido que la RC a una clave reforzada parcialmente durante una fase de adquisición previa a una de extinción. Este efecto fue inicialmente observado por Humphreys (1939) y en la actualidad ha sido observado tanto en condicionamiento pavloviano (Pearce, Redhead & Aydin, 1997) como en reforzamiento instrumental u operante (Jenkins, McFann & Clayton, 1950).

Para la aproximación operante, el ERP es considerado como la resistencia a la extinción de una R operante, lo que a su vez es un índice de la fuerza de la respuesta (R) (Skinner, 1938). Para esta aproximación, el incremento de la R observado durante una fase de extinción es producido por un fallo en la discriminación entre las condiciones de reforzamiento parcial y extinción, ya que la discriminación entre una condición de reforzamiento parcial y la extinción es más difícil de detectar que la discriminación entre una condición de reforzamiento continuo y la extinción. Sin embargo, esta explicación ha sido cuestionada por un experimento de Jenkins (1962), en el cual a un grupo de sujetos se les entrenó inicialmente con una fase de reforzamiento continuo, y a un segundo grupo con reforzamiento parcial. En una segunda fase ambos grupos recibieron reforzamiento continuo, para finalmente ambos recibir una fase de extinción. Los resultados mostraron que sólo en el grupo con reforzamiento parcial hubo mayor persistencia de la respuesta durante la fase de extinción mostrando un ERP.

Las teorías del condicionamiento pavloviano, como la de Rescorla y Wagner (1972), suponen que una clave condicionada de manera continua tendrá una mayor fuerza asociativa que una clave reforzada parcialmente, por lo que se predice que en una fase posterior de extinción la clave reforzada continuamente tendrá una mayor resistencia a la extinción. Sin embargo, en un estudio reciente Pearce et ál. (1997) observaron en una preparación de condicionamiento pavloviano apetitivo con ratas, que un estímulo condicionado (EC) reforzado continuamente se extingue más rápido que un EC reforzado parcialmente al 50%. Por otro lado, Weinstock (1954) obtuvo resultados similares en el condicionamiento instrumental de la respuesta de carrera en ratas. De esta forma, una clave o respuesta reforzada parcialmente durante la adquisición tardara más tiempo en extinguirse que aquella que fue reforzada continuamente (para un revisión ver Mackintosh, 1974).

Este efecto contradictorio del ERP ha sido interpretado desde dos puntos de vista: la teoría secuencial, la cual asume que la existencia de una memoria de los ensayos no reforzados es una clave adicional durante la extinción que promueve el responder persistentemente durante la extinción (Capaldi, 1967, 1994; ver Capaldi & Martins, 2010 para su aplicación reciente al condicionamiento pavloviano). Y por otro lado, por la teoría de la frustración propuesta por Amsel (1958, 1992) que supone que el ERP es el resultado del efecto de un estado emocional de frustración producido por el no refuerzo, que induce la resistencia de la respuesta durante la extinción. De tal modo, este estado emocional o memoria constituye una clave adicional al contexto presente durante la adquisición, haciéndolo más saliente, lo que debilitaría la respuesta reforzada continuamente ante el cambio del contexto experimental que ocurre durante la extinción. Así, la extinción después de un programa de refuerzo continuo ocurrirá rápidamente. En primer lugar, porque los ensayos no reforzados debilitan la asociación establecida (pavloviana o instrumental) durante la adquisición y, posteriormente, porque el cambio del contexto producido por la no presentación del reforzador afectará de manera indirecta la respuesta (decremento por generalización). En contraste, durante el reforzamiento parcial los ensayos no reforzados producen un cambio menor del contexto cuando la extinción debilita la respuesta debido al no refuerzo (Bouton & Sunsay, 2001).

Esta idea ha sido observada por Abad, Ramos-Álvarez y Rosas (2009), quienes han observado el ERP en humanos en una tarea de aprendizaje predictivo, en la cual los participantes aprendían a predecir un malestar ante la presencia de varios alimentos o claves. Sus resultados mostraron que los juicios predictivos para una clave reforzada continuamente son afectados por un cambio de contexto, mientras que los juicios para una clave reforzada parcialmente no lo son. Lo que sugiere que durante el reforzamiento continuo existe una mayor dependencia al contexto que en el reforzamiento parcial, tal y como lo sugieren Bouton y Sunsay (2001).

El aprendizaje predictivo y causal se ve afectado por el momento en el que los participantes emiten su juicio predictivo, el cual producirá una actualización de las predicciones o creencias causales si es solicitado después de cada ensayo presentado, o una integración de la información presentada en todos los ensayos, si se solicita a los participantes un solo juicio al final del entrenamiento (Catena, Maldonado & Cándido, 1998; Hogarth & Einhorn, 1992). El efecto de la frecuencia del juicio o modo de respuesta en la extinción ha sido demostrado por Matute, Vegas y De Marez (2002), en una tarea diagnóstica con una medicina como clave y una alergia como resultado, en un estudio en el cual en un grupo los participantes emitieron sus juicios al final de cada ensayo (adquisición y extinción) y en otro grupo los participantes lo hacían de manera global, es decir, al final de todo el entrenamiento. La prueba consistió en preguntar a los participantes que tanto creían que la clave presentada causaba el resultado, en una escala de 0 a 100, donde 0 significó que nunca la causó y 100 que siempre la causó. En el primer grupo, los valores de los juicios fueron cercanos a 100 durante la fase de adquisición y cercanos a 0 en la fase de extinción, mientras que los valores de los juicios en el segundo grupo fueron cercanos a 50. De este modo, cuando el juicio se solicitó en un modo de respuesta ensayo a ensayo, los participantes emitieron sus juicios con base en los ensayos más recientes (extinción), dando un valor cercano a cero, pero cuando se les pidió un solo juicio al final de ambas fases, integraron la información adquirida durante la adquisición y la extinción y dieron sus juicios en un valor intermedio, que sería el cómputo de la contingencia de ambas fases (ver también Alvarado-García, Vila & López-Romero, 2009). En otro estudio similar (Vila, 2000), la extinción de los juicios causales se observó cuando a los participantes se les solicitó un solo juicio causal al final de la fase de adquisición y otro juicio al final de la fase de extinción. Lo que es coherente con el efecto de la frecuencia del juicio (Catena et ál., 1998), en el que la información observada en los ensayos anteriores es integrada después del último juicio emitido.

El presente trabajo estudió el ERP en una tarea de aprendizaje predictivo, comparando los modos de respuesta: global, por fase y ensayo a ensayo, ya que resulta de interés suponer que de acuerdo al efecto de frecuencia del juicio (Catena et ál., 1998), el ERP sólo se observará gradualmente en el modo de respuesta ensayo a ensayo, donde una clave reforzada parcialmente en la adquisición tendrá una mayor resistencia a extinguirse debido a la actualización que ocurre después de cada juicio. En el modo de respuesta global debido a la integración de los ensayos reforzados y no reforzados, en un único juicio posterior a la extinción, el ERP para una clave reforzada parcialmente será observado como un juicio predictivo menor a 0.5, ya que el número de ensayos no reforzados es mayor que el de ensayos reforzados. Finalmente, de acuerdo al efecto de frecuencia del juicio en el modo de respuesta por fases, el ERP no debería ocurrir, debido a que el juicio de la fase de extinción para una clave reforzada parcialmente sólo tomaría en cuenta los ensayos no reforzados de la fase de extinción, por lo que será cercano a un valor de cero.

Un segundo propósito del presente estudio fue demostrar el ERP en participantes humanos en una tarea de aprendizaje predictivo, empleando un diseño intrasujeto similar al empleado por Rescorla (1999), quién realizó una demostración del ERP con pichones, para lo cual usó una preparación de automoldeamiento con tres teclas iluminadas; dos de ellas fueron reforzadas el 100% de los ensayos y una tercera fue reforzada el 25% de las veces durante la fase de adquisición. En la fase posterior de extinción, una de las claves continuó siendo reforzada durante todos los ensayos, mientras que la clave reforzada el 25% y la otra reforzada el 100% de las veces eran extinguidas. En sus resultados se observó el ERP, ya que la clave reforzada parcialmente presentó una resistencia a la extinción mayor que la clave reforzada continuamente.

Un primer experimento fue diseñado para observar si el ERP es sensible al efecto de modo de respuesta ensayo a ensayo, propuesto inicialmente por Catena et ál. (1998), de manera que a un grupo de participantes se le presentó una tarea predictiva con tres claves, dos de ellas reforzadas el 100% y una el 25% de los ensayos durante la fase de adquisición; posteriormente, para ambos grupos fueron extinguidas dos claves y una permaneció reforzada el 100% de los ensayos durante una fase posterior de extinción. A los participantes se les solicitaba un juicio predictivo para cada clave, cada tres ensayos, replicando así el estudio con pichones de Rescorla (1999). En el segundo experimento se empleó un diseño similar, pero se compararon dos grupos, que replicaban las condiciones del experimento anterior. En un grupo por fases los participantes emitieron su juicio después de cada fase adquisición-extinción y en un segundo grupo global los participantes emitieron un solo juicio al final de ambas fases. Por lo que el ERP, de acuerdo a la propuesta de Catena et ál. (1998), sólo ocurrirá en el grupo global en el que se emite únicamente un juicio al final del entrenamiento, al considerarse todos los ensayos reforzados y no reforzados de cada clave. Pero no será observado en el grupo en el que el juicio se emita después de cada fase, ya que el último juicio sólo considera los ensayos de extinción. Sin embargo, de acuerdo a la propuesta de Capaldi (1967, 1994), el ERP se observará en ambos grupos al disminuir el decremento por generalización y reforzar una clave parcialmente.

Método general

Participantes

Participaron de manera voluntaria e informada veinticuatro estudiantes universitarios, de entre dieciocho y veintitrés años de edad, con consentimiento informado, seleccionados y asignados al azar en grupos de ocho participantes, de acuerdo a los criterios éticos del código ético del psicólogo (2007, pp. 69-71).

Aparatos

Se utilizaron seis computadoras compatibles PC, ubicadas en un cubículo de 3 x 4 m, en el que sólo había las sillas y mesas respectivas para cada computadora. Para la programación de la tarea se empleó el programa informático para diseño de experimentos SuperLab Pro v 2.01 (Cedrus Co.).

Procedimiento

Una vez que todos los participantes tomaron su lugar frente a la computadora, se les indicó que su tarea consistía en descubrir cuál era la palabra mágica que utilizaba un mago para que apareciera un conejo en su sombrero (ver tarea original en Myers, Oliver, Ermita, Warren & Gluck, 2000). Así, cada palabra funcionaba como clave o EC y la aparición del conejo como consecuencia o EI. La tarea constó de doce ensayos para cada una de las claves (palabras mágicas), en cada una de las dos fases. Esta tarea se diseñó en la computadora, utilizando el programa antes señalado. En la pantalla del monitor se presentaron a los participantes las siguientes instrucciones:

Tú verás a un mago usar palabras mágicas, intentando hacer que aparezca un conejo en el sombrero. Algunas de las palabras mágicas funcionan y otras no. Presiona cualquier tecla para continuar.

Después de presentarles las instrucciones, a los participantes se les preguntó verbalmente si tenían duda sobre lo que tenían que hacer. Si la respuesta del participante era que sí, se daban las instrucciones verbalmente, y si la respuesta era negativa se continuaba con el experimento. La siguiente pantalla contenía el dibujo de un mago (imagen del programa Power Point 98 modificada con el programa Paint de Windows 98) diciendo una palabra mágica, con la instrucción "presiona cualquier tecla para continuar". La pantalla que seguía a ésta contenía la consecuencia y consistió en el dibujo del mago con el conejo en el sombrero o sin él, dependiendo del arreglo de contingencias para cada clave (palabra mágica). Esta pantalla duró 1000 ms. El intervalo entre ensayos se presentó como una pantalla en blanco que tuvo la duración de 1000 ms.

Después de cierto número de ensayos, que dependían del diseño, aparecía una pantalla con el mago diciendo la palabra mágica y la siguiente pregunta debajo de la imagen: "¿Esta el conejo en el sombrero?", además de la escala siguiente debajo de ésta: nunca, presiona la tecla 1; casi nunca, presiona la tecla 2; a veces, presiona la tecla 3; casi siempre, presiona la tecla 4, y siempre, presiona la tecla 5. Las opciones de respuesta se presentaron en forma de lista del lado derecho y la escala del lado izquierdo, ambas enmarcadas en un recuadro con fondo gris de las siguientes medidas. Para pasar al siguiente ensayo se les pidió a los participantes que presionaran cualquier tecla. Al final de la sesión se les agradeció su participación. La figura 1 presenta las imágenes de los ensayos, la consecuencia y la prueba presentada.

Análisis de resultados

Como variable dependiente se tomó en cuenta el valor del juicio predictivo emitido entre valores de 0 y 100 de la posible relación entre la señal (palabra mágica) y la consecuencia (el conejo en el sombrero). Dada la naturaleza de los datos, se usaron pruebas no paramétricas (Friedman), debido a que las varianzas de los datos obtenidos no fueron homogéneas y al nivel ordinal de la variable dependiente. Las comparaciones post hoc se realizaron con pruebas U de Mann-Whitney y Wilcoxon con ajuste de Bonferroni, p < .05 (Aickin & Gensler, 1996).

Experimento 1

Actualmente, la extinción ha sido observada con humanos en tareas de juicios causales o predictivos, solicitados ensayo a ensayo (Paredes-Olay & Rosas, 1999) o al final de las fases de adquisición y extinción (Vila, 2000), en situaciones de aprendizaje causal, empleando medicinas y enfermedades como claves y consecuencias, respectivamente. Sin embargo, los resultados obtenidos han mostrado que la extinción de los juicios causales depende en gran medida de la frecuencia con la que los participantes emiten sus juicios (Alvarado et ál., 2009; Matute et ál., 2003).

Por otro lado, de acuerdo a los resultados obtenidos por Rescorla (1999), es posible observar el ERP en una tarea de condicionamiento pavloviano, empleando un diseño intrasujeto. Así, el objetivo del presente experimento fue demostrar el ERP en una tarea con juicios predictivos solicitados cada tres ensayos, haciendo uso de un diseño intrasujeto similar al de Rescorla (1999), con tres claves. En éste, fueron reforzadas dos claves en la fase de adquisición, el 100% de los ensayos y una tercera el 25%; posteriormente, en una fase de extinción, la clave de 100% y la de 25% no fueron reforzadas, mientras que la otra clave de 100% permanecía reforzada y la respuesta de predicción del participante fue independiente de la consecuencia.

Método

Participantes

Participaron de manera voluntaria e informada ocho estudiantes universitarios hombres (3) y mujeres (5) entre dieciocho y veintitrés años, seleccionados aleatoriamente de acuerdo a los criterios éticos indicados con anterioridad.

Procedimiento

Los participantes se sentaron frente a la computadora, y el investigador les indicó verbalmente que las instrucciones específicas del experimento se les mostrarían en el monitor. También se les puntualizó que si les surgía alguna duda, podían preguntar al investigador.

A continuación se presentó la tarea en la computadora y se les dejó solos para que la desarrollarán. Una vez que terminaron se les agradeció su participación.

La tabla 1 muestra el diseño empleado en este experimento. En la primera fase se condicionaron tres claves (palabras mágicas), una de ellas recibió reforzamiento durante el 100% de los ensayos, la segunda el 25% de los ensayos y la tercera fungió como clave de control y fue reforzada el 100% de los ensayos en ambas fases (EC100, EC25, ECcont, respectivamente). Durante la segunda fase, las claves EC100 y el EC25 se extinguieron mientras que ECcont continuó con la misma contingencia de reforzamiento de la primera fase. Los juicios predictivos de la aparición del conejo fueron solicitados a los participantes cada tres ensayos para cada una de las claves. En total se presentaron doce ensayos para cada una de las claves, tanto en la fase de adquisición como en la de extinción.

La variable dependiente fueron los juicios predictivos de qué tanto creía cada participante que la palabra produciría la aparición del conejo, transformados numéricamente a una escala de 0 a 100, considerados como nunca=0, casi nunca=25, a veces = 50, casi siempre = 75 y siempre = 100. El análisis de datos realizado fue de tipo no paramétrico, dado que la varianza observada no fue homogénea, el tipo de escala empleado y el número de participantes en cada grupo del estudio.

Resultados y discusión

La figura 2 muestra los juicios predictivos promedio de cada clave emitidos cada tres ensayos.

Los datos de adquisición se presentan en el panel izquierdo, donde los juicios predictivos de los sujetos para las claves EC100 y ECcont reforzadas el 100% de los ensayos incrementaron gradualmente, para la clave ECcont desde 59.3 hasta un valor de 84.3 y para la clave EC100 desde 65.6 hasta 87.5 en promedio, en el último bloque de tres ensayos. Por su parte, los juicios promedio para la clave EC25 reforzada el 25% de los ensayos se mantuvieron desde el primer bloque hasta el último bloque en un valor aproximado de 31.2 hasta el último bloque de ensayos. Los datos de extinción se muestran en el panel derecho de la figura 2, donde los juicios promedio de la extinción para la clave EC100 fueron en el primer bloque de 28.1 y en los bloques siguientes disminuyeron gradualmente hasta 3.1, a partir del tercer bloque de ensayos. A su vez, el promedio de juicios para la clave EC25 en el primer ensayo de extinción fue de 21.8 y llegó a un valor de 3.1 en el último bloque de ensayos, es decir, fue más resistente a extinguirse en comparación con la clave EC100. Por otro lado, la clave ECcont mantuvo juicios promedio de entre 62.5 y 87.5 durante los ensayos de extinción, ya que continuó siendo reforzada durante toda la fase.

Las diferencias en los juicios para las claves EC100 y EC25, tanto en la fase de adquisición como en la fase de extinción, fueron confirmadas con una F de Friedman. Ésta mostró diferencias significativas para los juicios de los ensayos entre las claves durante la fase de adquisición: X²_F (11) = 38.243, p < .01, y durante la fase de extinción X²_F (11) = 61.907, p < .01. Así, los juicios para las claves EC100 y EC25 muestran en la figura 2 una curva adquisición-extinción. Comparaciones posteriores (Wilcoxon, p <.05 con ajuste Bonferroni) revelaron diferencias significativas entre los diferentes bloques de las clave EC100 y ECcont en relación con los bloques de la clave EC25, durante las fases de adquisición y de extinción, y diferencias entre las claves EC100 y ECcont durante la extinción. Lo que muestra que los juicios para la clave EC25 son diferentes de los juicios a las otras claves durante ambas fases, tal y como lo muestra la figura 2, y sugieren que los juicios predictivos a la clave EC100 se extinguieron más rápidamente que los de la clave EC25.

Los resultados anteriores muestran una curva adquisición-extinción similar a la observada en estudios anteriores con humanos (Abad et ál., 2009) para las claves EC100 y EC25, y comprueban además la posibilidad de observar el ERP empleando un diseño intrasujeto en una tarea de juicios predictivos, de manera similar a las preparaciones con animales (Rescorla, 1999), ya que los juicios durante la fase de extinción de una señal reforzada el 100% de los ensayos de adquisición llegan a valores cercanos a cero, mientras que los valores de los juicios de la fase de extinción de una clave reforzada el 25% de los ensayos de adquisición, se mantienen constantes en los primeros bloques de ensayos de extinción, llegando a valores cercanos a cero sólo en los últimos bloques de ensayos de extinción. Por tal motivo, estos resultados replican el aumento de la resistencia a la extinción de una clave reforzada parcialmente (Pearce et ál., 1997; Rescorla, 1999; para un revisión ver, Mackintosh, 1974) en una tarea predictiva.

Los resultados observados no pueden ser explicados completamente por el efecto de frecuencia de los juicios, en el cual los juicios para cada clave se van actualizando cada tres ensayos. Así, los juicios predictivos para las claves EC100 y EC25, en el segundo ensayo de extinción, deberían ser similares ya que ambas claves tienen el mismo número de ensayos no reforzados. Sin embargo, los juicios para la clave EC25 son mayores en los ensayos 3 y 6. Por otro lado, estos resultados son coherentes con el supuesto de que la clave EC100 es más dependiente del contexto de la fase de adquisición que la clave EC25, ya que al ocurrir el cambio de contexto en la fase de extinción, la clave EC100 se extingue más rápidamente (Bouton & Sunsay, 2001).

Experimento 2

De acuerdo con la propuesta de Catena et ál. (1998) sobre la frecuencia del juicio o modo de respuesta, la extinción de los juicios dependerá de la frecuencia en la que éstos se soliciten. Así, teniendo en cuenta los resultados obtenidos por Matute et ál. (2002), los juicios predictivos son sensibles al modo de respuesta propuesto por Catena et ál. (1998), en el que el valor del último juicio dependerá del juicio emitido anteriormente en el último ensayo presentado. De esta manera, los valores de los juicios emitidos son acordes a los arreglos de reforzamiento de cada fase (adquisición y extinción) cuando se solicitan en cada ensayo (Paredes-Olay & Rosas, 1999), o cada tres, como en el experimento anterior, o al final de cada fase (Vila, 2000). Esto difiere del modo de respuesta global, donde el juicio es requerido al final de las fases de adquisición-extinción y los participantes consideran ambas fases con base en un cómputo de la presencia y la ausencia de la consecuencia, dando un solo juicio al final, cercano a 0.5 (Alvarado et ál., 2009). Por lo tanto, el objetivo del experimento fue observar si el ERP es sensible a los modos de respuesta global y por fases, en los cuales se solicita un solo juicio al final de ambas fases, o un juicio después de cada fase, respectivamente. De acuerdo a la propuesta de Catena et ál. (1998), el ERP en un grupo con el modo de respuesta global, con un solo juicio al final que integra los ensayos reforzados y no reforzados debe de reflejar el promedio de ambas fases. Se puede suponer que los juicios predictivos para la clave EC25 deberán ser menores que los de la clave EC100, ya que el cómputo de ensayos reforzados y no reforzados para la clave EC25 es de 0.125 y el de la clave EC100 es de 0.5. Sin embargo, esta diferencia entre EC25 y EC100 en el último juicio puede ser explicada también como efecto del menor número de ensayos reforzados. Ciertamente, el ERP es un efecto que implica orden, ya que es observado al inicio de la fase de extinción posterior a la adquisición y el modo de respuesta global produce una integración de los ensayos de las fases de adquisición y extinción, sin importar el orden. Por otro lado, en el grupo con el modo de respuesta por fases, los juicios de la fase de extinción sólo incluyen los ensayos no reforzados de la última fase de extinción y, por ende, los juicios serán cercanos a cero tanto para la clave EC25 como para la clave EC100, dado que en esta fase el número de ensayos no reforzados en ambas claves es igual.

Desde un punto de vista asociativo y de acuerdo a los datos de Bouton y Sunsay (2001) y de Abad et ál. (2009), independientemente del modo de respuesta, la clave EC25 en ambos grupos tendría un menor efecto del cambio de contexto de la extinción que la clave EC100 y, en consecuencia, un mayor juicio después de la extinción, debido a que el decremento por generalización en este grupo producido por el contexto de extinción es mayor.

Método

Participantes

Participaron voluntariamente dieciséis estudiantes universitarios hombres (5) y mujeres (11) entre dieciocho y veintitrés años, seleccionados y asignados a dos grupos de ocho participantes de manera aleatoria, de acuerdo a los criterios éticos indicados anteriormente.

Procedimiento

Para cada grupo se empleó el mismo procedimiento que en el primer experimento, sólo que la presentación de la escala en la que los participantes emitieron sus juicios dependió del arreglo experimental para cada uno de los grupos (global o fases).

La tabla 2 muestra el diseño experimental empleado en el presente experimento. En el grupo fases se condicionaron tres claves. Dos de ellas se reforzaron el 100% de los ensayos, una de ellas fungió como control (EC100 y ECcont, respectivamente), y la tercera se reforzó el 25% de los ensayos (EC25) durante la fase de adquisición. Al final de esta fase se realizó una prueba donde se solicitaron a los participantes los juicios predictivos para cada una de las claves. Posteriormente, se realizó la fase de extinción, en donde sólo la clave ECcont continuó con la misma contingencia de reforzamiento. Al final de esta fase se realizó una fase de prueba donde nuevamente se solicitó a los participantes que emitieran su juicio para cada una de las claves. En el grupo global se realizó el mismo procedimiento de adquisición y extinción que en el grupo fases, pero con la diferencia de que únicamente se solicitó un juicio al final del entrenamiento de ambas fases.

En ambos grupos se presentaron doce ensayos de cada una de las claves en ambas fases. Se midió la misma variable dependiente del experimento 1 y se realizó un análisis de datos similar.

Resultados y discusión

El panel superior de la figura 3 muestra los juicios predictivos promedio para las claves EC100, EC25 y ECcont del grupo fases. Las barras de la izquierda muestran los valores promedio para los juicios durante la fase de adquisición y las barras de la izquierda los juicios de la fase de extinción. Como se puede observar, los valores de los juicios predictivos de las claves EC100 y ECcont, con juicios predictivos de 81.25 y 84.37, respectivamente, son mayores en relación con los juicios de la clave EC25, de 37.5 durante la fase de adquisición. En la fase de extinción los juicios para la clave EC100, de 6.25, son menores que los de la clave EC25, de 21.87, lo que indica una mayor resistencia a la extinción para la clave reforzada parcialmente durante la adquisición. La clave ECcont, que continuó siendo reforzada continuamente durante la extinción, obtuvo juicios más altos, con un valor promedio de 90.62.

Las diferencias de los juicios para las claves EC100, EC25 y ECcont en el grupo fases, tanto en la fase de adquisición como en la fase de extinción, fueron confirmadas con una F de Friedman. Ésta mostró diferencias significativas de los juicios a las tres claves durante ambas fases, X²_F (5) = 34.322 p <.01 en cada grupo. Comparaciones posteriores (T Wilcoxon, p < .05 con ajuste Bonferroni) mostraron diferencias significativas entre los valores de los juicios a las tres claves, en ambas fases de las claves EC100 y EC25. No hay diferencias entre los juicios de adquisición y extinción para la clave ECcont, ya que en ambas fases se reforzaron todos los ensayos, así como tampoco existen diferencias entre los juicios de adquisición de la clave Ec100 y los juicios de la clave ECcont. Resumiendo, la mayor extinción se observó en la clave EC100, reforzada en todos los ensayos de adquisición, pero para la clave EC25, reforzada sólo el 25% de los ensayos de adquisición, la extinción fue parcial. Esto sugiere la ocurrencia del ERP.

El panel inferior de la figura 3 muestra los promedios de los juicios predictivos del grupo global en la prueba al final del entrenamiento adquisición-extinción. Como puede observarse, los valores de los juicios predictivos a las claves EC100 y ECcont fueron 59.37 y 56.25, respectivamente, por lo que son similares, lo que sugiere que los participantes emitieron su juicio con base en todos los ensayos presentados en ambas fases. Sin embargo, los juicios emitidos para la clave EC25 fueron menores (18.75)

La prueba F de Friedman, mostró que existen diferencias entre los valores para cada clave, X²_F(2) = 11.793, p=0.02. Sin embargo, comparaciones posteriores (T Wilcoxon, p < .05 con ajuste Bonferroni) mostraron diferencias significativas entre las claves ECcont y EC100 con la clave EC25, lo que sugiere que los juicios predictivos de los participantes en el grupo global se realizaron integrando los ensayos reforzados y no reforzados de cada clave en ambas fases de entrenamiento.

Comparaciones posteriores entre grupos (U de Mann-Whitney p <.05) entre los valores de los juicios a las claves EC100 y EC25 durante la fase de extinción del grupo fases y los valores de los juicios de EC100 y EC25 del grupo global, mostraron diferencias significativas para la clave EC100 de ambos grupos (U = 42.00, p <.05). Por otro lado, no se observaron diferencias significativas entre la clave EC25 de ambos grupos.

Los presentes resultados replican los resultados obtenidos por Matute et ál. (2002) y por Alvarado et ál. (2009), quienes mostraron que los juicios predictivos son sensibles al modo de respuesta. El presente experimento mostró que la ocurrencia del ERP es independiente del modo de respuesta propuesto por Catena et ál. (1998), ya que en ambos grupos, global y por fases, los juicios predictivos para una clave reforzada parcialmente durante la adquisición son significativamente mayores en una fase posterior de extinción que los juicios a una clave reforzada continuamente durante la adquisición. Así, los participantes del grupo fases emitieron su juicio de acuerdo al número de ensayos no reforzados en la última fase presentada para las claves EC100 y ECcont, pero no para la clave EC25 reforzada el 25% de los ensayos durante la fase de adquisición, ya que sus juicios son mayores que los de la clave EC100 en la fase de extinción, aun cuando el número de ensayos no reforzados fue el mismo en ambos grupos. Esto puede interpretarse como una mayor resistencia a la extinción y, por lo tanto, a la ocurrencia del ERP. Asimismo, en el grupo global la diferencia entre los juicios a las claves EC100, ECcont y EC25 sugiere que los participantes emitieron su juicio tomando en cuenta todos los ensayos presentados durante el entrenamiento de ambas fases, lo que es coherente con el efecto de frecuencia del juicio (Catena et ál., 1998). Sin embargo, el que los juicios predictivos para la clave EC25 en el grupo fases sean mayores que los de la clave EC100 en la fase de extinción, es contrario a la predicción del efecto de frecuencia de los juicios, pues de acuerdo a esta propuesta, el último juicio a la clave EC25 sólo debe comprender los ensayos de extinción y, en consecuencia, tienen que ser similar al juicio de la clave EC100. El que la clave EC25 después de la extinción tenga un juicio promedio de 18.75, mayor que el de la clave EC100 de 6.25, sugiere una resistencia de esa clave a la extinción y, por lo tanto, a la ocurrencia del ERP. Esto, a su vez, puede ser interpretado como un menor efecto del contexto de extinción para esa clave (Bouton & Sunsay, 2001).

Discusión general

En el primer experimento se mostró que una clave reforzada el 25% de los ensayos durante la fase de adquisición es más resistente a la extinción en comparación con una clave reforzada el 100% de los ensayos de adquisición en un diseño intrasujeto con humanos, empleando una tarea de juicios predictivos con un modo de respuesta cada tres ensayos, y que estos datos son similares a los resultados obtenidos por Rescorla (1999) en animales con un procedimiento pavloviano. Por consiguiente, el ERP puede ser observado en humanos con una tarea de condicionamiento pavloviano, independiente de la respuesta de los sujetos, y son coherentes con la aproximación teórica de ERP para este tipo de condicionamiento (Capaldi & Martins, 2010).

Por otro lado, el segundo experimento mostró que la ocurrencia del ERP es independiente del efecto de frecuencia del juicio propuesto por Catena et ál. (1998), ya que se observó en grupos con modos de respuesta diferentes (fases y global). Así, los valores de los juicios predictivos para la clave EC25 muestran que dicha clave presenta juicios predictivos mayores a la extinción que la clave EC100, tanto en el grupo fases como en el grupo global. Por lo tanto, se puede suponer que el ERP se observa en ambos modos de respuesta global y por fases comparados en el segundo experimento. Sin embargo, los juicios de la clave EC25 observados en el grupo global, al ser independientes del orden de las fases, pueden ser interpretados también como un efecto del menor número de ensayos reforzados.

De acuerdo al efecto de frecuencia del juicio (Catena et ál.,1998), los participantes emiten su juicio basándose en el número de ensayos reforzados y no reforzados presentados desde el último juicio emitido. Este supuesto se observó en el grupo global, donde los participantes emiten un solo juicio al final del entrenamiento, basado en el cómputo total de los ensayos reforzados y no reforzados. Así, la clave ECcont tuvo un juicio predictivo mayor (todos los ensayos reforzados), seguida de la clave EC100 (la mitad de los ensayos reforzados), y finalmente, por los juicios de la clave EC25 (25% de todos los ensayos reforzados).

Sin embargo, en el grupo que emitió su juicio cada tres ensayos del experimento 1, así como en el grupo fases, hubo una diferencia en los juicios de las claves EC25 y EC100 posteriores a la fase de extinción que es independiente de la información de los ensayos no reforzados de ambas claves en esta fase. De esta manera, el que los juicios sean mayores para la clave EC25 que para la clave EC100 en ambos grupos, sugiere que una clave reforzada parcialmente es más resistente a la extinción que una clave reforzada el 100% de las veces. Lo cual implica que el ERP en el aprendizaje predictivo no es sensible al efecto de frecuencia de los juicios propuesto por Catena et ál. (1998).

Así, el ERP se observó en los modos de respuesta cada tres ensayos y por fases, pero no en el modo global, debido a que el juicio predictivo para la clave EC25 observado puede haber sido resultado del menor número de ensayos reforzados de esa clave. Sin embargo, la ocurrencia de un juicio más alto para la clave EC25 que para la clave EC100 en la fase de extinción de los grupos del modo de respuesta por ensayos y por fases no puede ser explicado por el efecto de frecuencia de los juicios (Catena et ál., 1998). No obstante, el ERP en los modos de respuesta por fases y por ensayos puede ser explicado a partir del supuesto de que la clave EC25, al ser reforzada parcialmente, tuviese una menor dependencia al cambio de contexto y, por lo tanto, una extinción más lenta (Abad et ál., 2009; Bouton & Sunsay, 2001).

Varios experimentos han mostrado que el cambio de contexto puede afectar la tasa de extinción de un estímulo condicionado (EC). Por ejemplo, en un estudio realizado por Hall y Honey (1989), un grupo de ratas recibió comida después de un EC₁ en el contexto 1 y después de otro EC₂ en un contexto diferente (contexto 2). Cuando recibieron los ensayos no reforzados presentados en sus contextos de entrenamiento, la respuesta se extinguió más lentamente que cuando fueron presentados los ensayos no reforzados en un contexto novedoso. Esta demostración de contexto específico de condicionamiento depende de cambios en las características del ambiente en el cual tiene lugar el condicionamiento.

De acuerdo a las ideas de Capaldi (ver también, Capaldi & Martins, 2010), después de un condicionamiento instrumental con un programa de reforzamiento continuo, el lugar del procedimiento de extinción hace un cambio en el estímulo que acompañaba a la respuesta. La respuesta es acompañada por la memoria de los ensayos no reforzados (v. g. Capaldi, 1967, 1994) o por un estado de frustración (v. g. Amsel, 1958). Este nuevo estado interno, que es referido como "N", puede debilitar la respuesta por un cambio en la estimulación proveniente del contexto experimental (Capaldi, 1994). De acuerdo a este supuesto, la extinción después del reforzamiento continuo ocurrirá rápidamente, primero, porque los ensayos no reforzados tienen un efecto directo en la asociación instrumental establecida y, segundo, porque el cambio de contexto afecta indirectamente a la respuesta. En contraste, en un programa de reforzamiento parcial usado en condicionamiento instrumental, los ensayos no reforzados toman un lugar en la presencia de N.

Esto significa un cambio pequeño en el contexto cuando la extinción inicia, debilitando la asociación instrumental más lentamente.

Tomando en cuenta el supuesto anterior, Pearce et ál. (1997) encontraron que un cambio de contexto físico facilita la extinción después del reforzamiento continuo, y no afecta el reforzamiento parcial. La conclusión a la que estos autores llegaron fue que los ensayos no reforzados del programa de reforzamiento parcial ocasionan un estado interno en el sujeto que actúa como una clave contextual. Datos similares han confirmado que un cambio de contexto durante la extinción produce un decremento por generalización de una clave reforzada continuamente, pero no de una clave reforzada parcialmente (Abad et ál., 2009; Bouton & Sunsay, 2001), tanto en animales como en humanos.

Sin embargo, siendo el fenómeno de reforzamiento parcial en la extinción uno de los más recurridos en la investigación experimental de la Psicología, y aun cuando se han mejorado las teorías desde la teoría de la discriminación (Humphreys, 1939), pasando por la teoría de la frustración (Amsel, 1958) y la teoría secuencial (Capaldi, 1967; Capaldi & Martins, 2010). Al presente no existe una teoría que explique ampliamente qué es lo que ocurre durante la extinción y que nos permita comprender con mayor exactitud el por qué una clave reforzada parcialmente se extingue más lentamente que una reforzada continuamente.

Los resultados de ambos experimentos, vistos en conjunto, apoyan los resultados de Alvarado et ál. (2009), quienes mostraron que los juicios causales son sensibles al efecto de la frecuencia del juicio. Asimismo, estos resultados observaron el ERP en el aprendizaje predictivo y mostraron su independencia del modo de respuesta. Sin embargo, al presente éste no puede ser explicado completamente ni por los modelos asociativos ni por los estadísticos.

Referencias

Abad, M. J. F., Ramos-Álvarez, M. M. & Rosas, J. M. (2009). Partial reinforcement and context-switch effects in human predictive learning. Quarterly Journal of Experimental Psychology, 62, 174-188. doi: 10.1080/17470210701855561 [ Links ]

Aickin, M. & Gensler, H. (1996). Adjusting for multiple testing when reporting research results: the Bonferroni vs. Holm methods. American Journal of Public Health, 86, 726-728. [ Links ]

Alvarado-García, A., Vila, J. & López-Romero, L. (2009). Las instrucciones modulan el efecto del modo de respuesta en el aprendizaje causal. Revista Mexicana de Investigación en Psicología, 1 (1), 31-40. [ Links ]

Amsel, A. (1958). The role of frustrative nonreward in noncontinuous reward situations. Psychological Bulletin, 55, 102-119. doi:10.1037/h0043125 [ Links ]

Amsel, A. (1992). Frustration theory. Cambridge, UK: Cambridge University Press. [ Links ]

Bouton, M. E. & Sunsay, C. (2001). Contextual control of appetitive conditioning: Influence of a contextual stimulus generated by a partial reinforcement procedure. Quarterly Journal of Experimental Psychology, 54b, 109-125. doi:10.1080/713932752 [ Links ]

Capaldi, E. J. (1967). A sequential hypothesis of instrumental learning. En K. W. Spence & J. T. Spence (Eds.), The psychology of learning and motivation (vol. 1, pp. 67-156). New York: Academic Press. doi: doi.org/10.1016/S0079-7421(08)60513-7 [ Links ]

Capaldi, E. J. (1994). The sequential view: From rapidly fading stimulus traces to the organization of memory and the abstract concept of number. Psychonomic Bulletin & Review, 1, 156-181. doi:10.3758/BF03200771 [ Links ]

Capaldi E. J. & Martins A. P. G. (2010). Applying memories of reinforcement outcomes maninly to Pavlovian conditioning. Learning and Motivation, 41 (3), 187-201. doi:dx.doi.org/10.1016/j.lmot.2010.04.004 [ Links ]

Catena, A., Maldonado, A. & Cándido, A. (1998). The effect of frequency of judgementand the type of trials on covariation learning. Journal of Experimental Psychology: Human Perception and Performance, 24 (2), 481-495. doi: 10.1037/00961523.24.2.481 [ Links ]

Hall, G. & Honey, R. C. (1989). Contextual effects in conditioning, latent inhibition and habituation: Associative and retrieval functions of contextual cues. Journal of Experimental Psychology: Animal Behavior Processes, 16, 271-278. doi:10.1037/0097-7403.15.3.232 [ Links ]

Hogarth, R. M. & Einhorn, H. J. (1992). Order effects in belief updating: The belief- adjustment model. Cognitive Psychology, 24, 1-55. doi: dx.doi.org/10.1016/0010-0285(92)90002-J [ Links ]

Humphreys, L. G. (1939). The effect of random alternation of reinforcement on the acquisition and extinction of conditioned eyelid reactions. Journal of Experimental Psychology, 25 (2), 141-158. doi:10.1037/h0058138. [ Links ]

Jenkins, H. M. (1962). Resistance to extinction when partial reinforcement is followed by regular reinforcement. Journal of Experimental Psychology, 64 (5), 441-450. doi:10.1037/h0048700. [ Links ]

Jenkins, W. O., McFann, H. & Clayton, F. L. (1950). A methodological study of extinction following aperiodic and continuous reinforcement. Journal of Comparative and Physiological Psychology, 43 (3), 155-167. doi: 10.1037/h0058733. [ Links ]

Mackintosh, N. J. (1974). The psychology of animal learning. London: Academic Press. [ Links ]

Matute, H., Vegas, S. & De Marez, P. J. (2002). Flexible use of recent information in causal and predictive judgments. Journal of Experimental Psychology: Learning, Memory, and Cognition, 28 (4), 714-725. doi: 10.1037/0278-7393.28.4.714. [ Links ]

Myers, C., Oliver, L., Ermita, B., Warren, S. & Gluck, M. (2000). Stimulus exposure effects in human associative learning. Quarterly Journal of Experimental Psychology B: Comparative and Physiological Psychology, 53B, 173-187. doi:10.1080/027249900392959 [ Links ]

Paredes-Olay M. J. & Rosas, J. M. (1999). Within- subjects extinction and renewal in predictive judgments. Psicológica, 20, 195-210. [ Links ]

Pearce, J. M., Redhead, E. S. & Aydin, A. (1997). Partial reinforcement inappetitive Pavlovian conditioning with rats. Quarterly Journal of Experimental Psychology, 50 (B), 274-294. doi:10.1080/713932660 [ Links ]

Rescorla, R. A. (1999). Whitin-subject partial reinforcement extinction in autoshaping. The Quarterly Journal of Experimental Psychology, 52b, 75-87. doi:10.1080/713932693 [ Links ]

Rescorla, R.A. & Wagner, A.R. (1972) A theory of Pavlovian conditioning: Variations in the effectiveness of reinforcement and nonreinforcement. En A. H. Black & W. F. Prokasy (Eds.), Classical conditioning II (pp. 64-99). New York: Appleton-Century-Crofts. [ Links ]

Skinner, B. F. (1938). The behavior of organisms: an experimental analysis. New York: Appleton-Century-Crofts. [ Links ]

Vila, N. J. (2000). Extinción e inhibición en juicios de causalidad. Psicológica, 21 (3), 257-273. [ Links ]

Weinstock, S. (1954). Resistance to extinction of a running response following partial reinforcement under widely spaced trials. Journal of Comparative Physiological Psychology, 47 (4), 318-322. doi:10.1037/h0054129 [ Links ]

Servicios Personalizados

Revista

Articulo

Indicadores

Links relacionados

Compartir

Avances en Psicología Latinoamericana

versión impresa ISSN 1794-4724

Av. Psicol. Latinoam. vol.31 no.3 Bogotá sep./dic. 2013