Où le conditionnement opérant s'est mal passé

Le conditionnement opérant est le nom de BF Skinner pour l'apprentissage instrumental: apprendre par les conséquences. Pas une nouvelle idée, bien sûr. L'humanité a toujours su enseigner les enfants et les animaux au moyen de la récompense et de la punition. Ce qui a donné à l'étiquette de Skinner le bord était son invention d'une méthode brillante d'étudier ce genre d'étude dans les organismes individuels. La boîte Skinner et l'enregistreur cumulatif étaient un duo imbattable.

JS image
Source: image JS

Le conditionnement opérant a progressé rapidement au début. La découverte d'horaires de renforcement a révélé des régularités insoupçonnées. Chaque nouvelle planification de renforcement donnait lieu à un nouveau modèle d'enregistrement cumulatif: le «pétoncle» à intervalle fixe, la réponse régulière sur un intervalle variable et le «break-and-run» sur les plannings à ratio fixe. Les modèles étaient fiables et pouvaient être récupérés après que l'organisme ait été remplacé par une nouvelle procédure. Les données ont permis une exploitation complète de la méthode expérimentale intra-organisme: comparer le comportement d'un seul animal réversiblement exposé à deux procédures différentes, plutôt que de comparer deux groupes d'animaux. Les résultats du groupe s'appliquent aux groupes; ils peuvent ou non s'appliquer aux individus qui composent un groupe. En 2016, 52% des Britanniques ont approuvé le Brexit; mais chaque individu était soit 100% pour ou 100% contre. Trop souvent, les chercheurs ont supposé que les données de groupe montrant une courbe d'apprentissage lisse signifie que les sujets individuels apprennent aussi progressivement. Ils ne.

La prochaine étape naturelle aurait été de démêler les processus derrière l'ordre révélé par les enregistrements cumulatifs. Que se passe-t-il dans cette interaction entre la procédure de planification et l'organisme individuel qui donne lieu à ces régularités frappantes? En d'autres termes, qu'est-ce que l'organisme apprend et comment apprend-il? Quel est le processus?

Le domaine n'a pas pris cette mesure. Dans cette note, je vais essayer d'expliquer pourquoi.

Trois choses ont empêché le conditionnement opérant de se développer en tant que science: une limitation de la méthode, une surévaluation de l'ordre et une méfiance de la théorie.

La méthode. Le bilan cumulatif a été une percée fantastique sur un point: il a permis d'étudier en temps réel l'étude du comportement d'un seul animal. Jusqu'à Skinner, les données de la psychologie animale consistaient en grande partie en moyennes de groupe: combien d'animaux du groupe X ou Y tournaient-ils à gauche ou à droite dans le labyrinthe, par exemple? Non seulement les animaux individuels étaient-ils perdus dans le groupe, mais aussi le temps réel – combien de temps le rat dans le labyrinthe a-t-il pris pour décider, à quelle vitesse a-t-il couru? Qu'a-t-il exploré avant de décider?

Mais la configuration de Skinner-box est également limitée à une ou quelques réponses prédéfinies et aux changements de leur taux d'occurrence. Le conditionnement opérant implique en fait une sélection à partir d'un répertoire d'activités: le procès d'essai et d'erreur. La méthode Skinner-box encourage l'étude de seulement une ou deux réponses déjà apprises. Du répertoire, cet ensemble de réponses possibles émis (selon les mots de Skinner) "pour d'autres raisons" – de tous les modes possibles de comportement cachés sous le seuil mais disponibles pour être choisis – de ces réponses secrètes , si essentielles à l'apprentissage instrumental, aucune mention.

    Trop d'ordre? Le deuxième problème est un respect non examiné pour les données ordonnées: courbes lisses qui pourraient mesurer des propriétés simples, athéoriques du comportement. Fred Skinner a souvent cité Pavlov: "contrôlez vos conditions et vous verrez l'ordre." Mais l'ordre dans quoi? Est-ce que n'importe quel ordre mérite d'être obtenu? Ou est-ce que certains résultats ordonnés sont peut-être plus informatifs que d'autres?

    Le moyen le plus simple d'obtenir un ordre, de réduire la variation, est de prendre une moyenne . Les expériences de Skinnerian impliquent des animaux uniques, ainsi la méthode décourage la moyenne à travers les animaux. Mais pourquoi ne pas faire la moyenne de tous ces coups de bec ou presses à levier? Skinner lui-même semblait fournir une justification. Dans l'une de ses rares excursions théoriques, il a proposé que les réponses aient une force équivalente à la probabilité de réponse . Il n'a jamais vraiment justifié l'idée, mais il est si plausible qu'une petite justification semble s'imposer.

    L'étape suivante était cruciale: comment mesurer la probabilité de réponse? Le taux de réponse est un candidat évident. Mais les enregistrements cumulatifs montrent que le taux de réponse varie d'un moment à l'autre sur la plupart des programmes de renforcement. Sur un intervalle fixe, par exemple, les sujets cessent de répondre juste après chaque renforcement, puis accélèrent lentement jusqu'à un maximum à l'approche du prochain renforcement. Un programme à intervalles fixes (FI) fait en sorte que la première réponse après un temps fixe, appelez-le I , soit renforcée. Le temps de post-renforcement est un indice fiable pour savoir quand la prochaine récompense sera disponible. Les organismes s'adaptent en conséquence, en attendant une fraction fixe de temps avant de commencer à répondre.

    Mais sur un autre calendrier, variable-intervalle (VI), l'heure est variable. Si elle est complètement aléatoire d'un moment à l'autre et que l'organisme réagit à un rythme constant, le temps de post-consolidation ne donne aucune information sur la probabilité que la réponse suivante soit récompensée. Les organismes s'adaptent au manque d'information en répondant à un rythme constant sur les horaires à intervalles variables. Cette propriété de VI en a fait un outil évident. Le taux de réponse stable qu'il produit semble fournir un moyen simple de mesurer la force de réponse de Skinner. Par conséquent, la donnée la plus largement utilisée en psychologie opérante est le taux de réponse soutenu par un calendrier VI. Le taux est habituellement mesuré par le nombre de réponses qui se produisent sur une période de minutes ou d'heures.

    Une autre façon de réduire la variabilité est la rétroaction négative. Un système CVC à commande thermostatique chauffe lorsque la température intérieure descend en dessous d'un niveau prédéfini et refroidit lorsqu'il monte au-dessus. De cette façon, il réduit la variation de la température de la maison qui se produirait autrement lorsque la température extérieure varie. Tout type de rétroaction négative réduira la variation de la variable contrôlée. Malheureusement, plus la rétroaction est efficace, moins la variation de la variable dépendante est importante et moins nous pouvons en apprendre davantage sur le mécanisme de rétroaction lui-même. Un processus de rétroaction négative parfaite est invisible.

    Le conditionnement opérant, par définition, implique un retour d'information puisque la récompense reçue dépend des réponses apportées. Plus l'organisme réagit, plus il reçoit de récompenses – sous réserve des contraintes du calendrier de renforcement en vigueur. C'est une rétroaction positive. Mais la procédure de choix opérant la plus étudiée – la planification d'intervalle variable simultanée – implique également une rétroaction négative . Lorsque le choix se situe entre deux plannings à intervalles variables, plus le temps consacré à un choix est long, plus la probabilité de gain pour passer à l'autre est élevée. Donc, peu importe la différence dans les taux de rentabilité pour les choix, l'organisme ne se limitera jamais à un seul. Le résultat est une relation très régulière entre la préférence de choix et la récompense relative – la loi d'appariement . (Pour l'histoire technique complète, consultez Adaptive Behavior and Learning, 2016)

    Au fur et à mesure que la technologie évoluait, ces deux éléments convergeaient: le désir d'ordre, rendu possible par la moyenne et la rétroaction négative, et l'idée de Skinner selon laquelle la probabilité de réponse est une variable dépendante appropriée – la appropriée. Les horaires à intervalles variables, soit seuls soit dans des situations à deux choix, sont devenus une sorte de dispositif de mesure. Le taux de réponse sur VI est stable – pas d'attentes, de pauses ou de pics soudains. Il semblait offrir un moyen simple et direct de mesurer la probabilité de réponse. Du taux de réponse en tant que probabilité de réponse à l'idée théorique de taux comme étant en quelque sorte équivalent à la force de réponse n'était qu'un petit pas. La loi correspondante a donc été considérée comme un principe général. Les chercheurs ont commencé à voir cela comme sous-tendant non seulement le choix des animaux mais aussi le comportement de choix des êtres humains dans des situations réelles.

    La force de réponse théorique est une construction théorique. Cela va bien au-delà du taux de réponse ou de toute autre quantité directement mesurable. Malheureusement, la plupart des gens pensent qu'ils savent ce qu'ils entendent par "force". La tradition Skinnerian a rendu difficile de voir que plus est nécessaire.

    Une étude historique réalisée en 1961 par George Reynolds illustre le problème (bien que George ne l'ait jamais vu de cette manière). Voici une version simplifiée: Imaginez deux conditions expérimentales et deux pigeons identiques. Chaque condition s'exécute pour plusieurs sessions quotidiennes. Dans la Condition A, le pigeon A pique une clé rouge pour la récompense de nourriture livrée selon un calendrier VI 30-s. Dans la Condition B, le pigeon B pique une clé verte pour la récompense alimentaire livrée selon un calendrier VI 15-s. Parce que les deux taux de nourriture sont relativement élevés, après une longue exposition à la procédure, les pigeons picoreront à un taux élevé dans les deux cas: les taux de réponse – donc «forces» – seront à peu près les mêmes. Maintenant, changez la procédure pour les deux pigeons. Au lieu d'un seul horaire, deux horaires alternent, pour une minute ou deux, sur une session expérimentale d'une heure. Le deuxième horaire ajouté est le même pour les deux pigeons: VI 15 s, signalé par une touche jaune (l'alternance de deux horaires ainsi signifiés s'appelle un horaire multiple). Ainsi, le pigeon A est sur un mult VI 30 VI 15 (stimuli rouge et jaune) et le pigeon B sur un mult VI 15 VI 15 (stimuli vert et jaune). En résumé, les deux conditions expérimentales sont (couleurs de stimulus dans ()):

    Expérience A: VI 30 (rouge); mult VI 30 (Rouge) VI 15 (Jaune)

    Expérience B: VI 15 (vert); mult VI 15 (vert) VI 15 (jaune)

    Maintenant, regardez la deuxième condition pour chaque pigeon. Sans surprise, le taux de réponse de B en vert ne changera pas. Tout ce qui a changé pour lui est la couleur clé – du vert tout le temps à l'alternance verte et jaune, les deux avec le même gain. Mais le taux de réponse de A en rouge, le stimulus VI 30, sera beaucoup plus faible et le taux de réponse en jaune pour A sera considérablement plus élevé que le taux de réponse jaune de B, même si le calendrier VI 15 est le même. L'effet sur la réponse dans le stimulus jaune par le pigeon A, une augmentation du taux de réponse lorsqu'un horaire donné est alterné avec un programme plus maigre, est appelé contraste comportemental positif et la diminution du taux d'appauvrissement du pigeon A est un contraste négatif.

    La réponse de And B en présence des stimuli rouge et vert dans la première condition est sensiblement la même et devrait donc être la force des deux réponses. Mais l'effet très différent d'ajouter le stimulus jaune alternatif, payé sur l'annexe plus riche, sur les deux animaux dans la deuxième condition montre que ce n'est pas le cas.

    Le consensus que le taux de réponse est une mesure adéquate de la «force» d'une réponse opérante est faux Le taux constant maintenu par les horaires d'IV est trompeur. Cela ressemble à une simple mesure de force. En raison de l'accent mis par Skinner sur l'ordre, parce que le plan d'intervalle variable concurrent à réponse moyenne et à rétroaction riche semblait le fournir et parce qu'il était facile d'assimiler la probabilité de réponse au taux de réponse, l'idée a pris racine. Pourtant, même dans les années 1950, il était bien connu que le taux de réponse peut lui-même être manipulé – par exemple par des programmes dits de renforcement différentiel de taux (DRL).

    Conclusion Deux facteurs – la méthode du simple organisme de Skinner et le désir d'ordre – ont conspiré pour donner au taux de réponse un rôle primordial dans le conditionnement opérant. Le taux était supposé être une mesure de la force de réponse. Mais un troisième facteur, le mépris de la théorie, signifiait que ce lien n'était jamais très étudié. C'est bien sûr faux: le taux de réponse n'égale pas la force de réponse. En effet, le concept de résistance est lui-même mal défini. Par conséquent, l'accent mis par le domaine sur le taux de réponse en tant que variable dépendante est probablement une erreur. Si l'idée de force est de survivre à la disparition du taux comme sa meilleure mesure, quelque chose de plus est nécessaire: une théorie sur les facteurs qui contrôlent une réponse opérante. Mais parce que Skinner avait réussi à proclamer que les théories de l'apprentissage ne sont pas nécessaires , une théorie adéquate ne s'est pas présentée pendant de nombreuses années (voir The New Behaviorism, 2014, pour plus d'informations sur l'histoire de la théorie Skinnerian).