Je trouve votre manque de théorie (et de réplications) dérangeant

Disons que vous vous trouvez en charge d'un groupe d'enfants. Puisque vous êtes un psychologue relativement moyen, vous avez une hypothèse relativement étrange que vous voulez tester: vous voulez voir si le port d'une chemise rouge rendra les enfants meilleurs au ballon d'esquive. Vous arrivez à penser que ça va. Je dis cette hypothèse est étrange parce que vous l'avez dérivé, fondamentalement, rien; c'est juste une intuition. Un peu plus qu'un "ça ne serait pas cool si c'était vrai?" Idée. En tout cas, vous voulez tester votre hypothèse. Vous commencez par aligner les élèves, puis vous passez devant eux et comptez à haute voix: "1, 2, 1, 2, 1 …". Tous les enfants avec un "1" vont mettre une chemise rouge et font équipe ensemble; tous les enfants avec un "2" vont chercher une nouvelle chemise à mettre à partir d'une pile de chemises non-rouges. Ils servent de groupe de contrôle. Les deux équipes s'affrontent ensuite dans une ronde de ballon d'esquive. L'équipe portant les chemises rouges sort victorieuse. En fait, ils gagnent par une marge substantielle. Cela doit signifier que le port des chemises rouges a rendu les étudiants meilleurs au ballon d'esquive, non? Eh bien, puisque vous êtes un psychologue relativement moyen, vous concluriez probablement que, oui, les chemises rouges ont clairement un effet. Bien sûr, votre conclusion est, à tout le moins, hâtive et probablement fausse, mais vous n'êtes qu'un psychologue moyen: nous ne pouvons pas placer la barre trop haut.

"Le saut a réussi (p <0.05)"

Une évaluation critique de la recherche pourrait indiquer que, même si les enfants ont été assignés au hasard à des groupes, cela ne signifie pas que les deux groupes étaient également appariés pour commencer. Si les enfants du groupe des chemises rouges étaient juste meilleurs auparavant, cela pourrait entraîner l'effet. Il est également probable que les maillots rouges aient eu très peu à voir avec l'équipe qui a fini par gagner. La question pressante qui se pose ici semble être pourquoi nous attendrions-nous à ce que les chemises rouges aient un effet? Ce n'est pas comme si une chemise rouge rendait un enfant plus rapide, plus fort ou mieux capable d'attraper ou de lancer qu'avant; du moins pas pour une raison théorique qui me vient à l'esprit. Encore une fois, cette hypothèse est étrange quand on considère sa base. Supposons cependant que le fait de porter des chemises rouges ait effectivement amélioré le rendement des enfants, car cela a aidé les enfants à puiser dans certaines compétences préexistantes. Cela soulève la question quelque peu évidente: pourquoi les enfants auraient-ils besoin d'une chemise rouge pour puiser dans cette ressource inexploitée? Si être bon dans le jeu est socialement important – après tout, vous ne voulez pas être taquiné par les autres enfants pour votre mauvaise performance – et les enfants pourraient faire mieux, il semble, bien, étrange qu'ils feraient pire. Il faudrait poser une sorte de compromis effectué par la couleur de la chemise, ce qui semble une sorte de variable étrange à prendre en compte pour un mécanisme cognitif.

Néanmoins, comme tout psychologue espérant poursuivre sa carrière universitaire, vous publiez vos résultats dans le Journal of Inexplicable Findings. L'effet "chemise rouge" devient un classique, rapporté dans les manuels d'introduction à la psychologie. Rapports publiés commencent à surgir de différentes personnes qui ont eu d'autres enfants portent des chemises rouges et effectuent diverses tâches d'athlétisme relativement mieux. Bien qu'aucun de ces articles ne soit une réplique directe de votre étude initiale, ils ont aussi des enfants portant des chemises rouges qui surpassent leurs pairs, alors ils sont étiquetés «réplications conceptuelles». Après tout, puisque les concepts semblent être dans l'ordre, ils sont susceptibles de toucher le même mécanisme sous-jacent. Bien sûr, ces réplications ne traitent toujours pas des préoccupations théoriques discutées précédemment, alors certains autres chercheurs commencent à se méfier de savoir si l '«effet chemise rouge» est tout ce qu'il a été fait pour être. Une partie de ces préoccupations est basée sur une facette étrange du fonctionnement de la publication: les résultats positifs – ceux qui trouvent des effets – ont tendance à être préférés pour la publication par rapport aux études qui ne trouvent pas d'effets. Cela signifie qu'il pourrait bien y avoir d'autres chercheurs qui ont essayé de faire usage de l'effet chemise rouge, n'ont rien trouvé et, en raison de leurs résultats nuls ou contradictoires, ont également échoué à publier quoi que ce soit.

Finalement, le mot vous parvient d'une équipe de recherche qui a tenté de reproduire l'effet chemise rouge une douzaine de fois dans le même document et n'a rien trouvé. Plus troublant encore, pour votre carrière académique, de toute façon, leurs résultats ont vu le jour. Naturellement, vous vous sentez plutôt contrarié par cela. Clairement, l'équipe de recherche faisait quelque chose de mal: peut-être qu'ils n'utilisaient pas la bonne teinte de chemise rouge; Peut-être qu'ils ont utilisé une marque différente de balles d'esquive dans leur étude; Peut-être que les expérimentateurs se sont comportés d'une manière subtile qui a suffi à contrecarrer l'effet de chemisier rouge entièrement. Encore une fois, peut-être que le journal dans lequel les résultats ont été publiés n'a pas assez de normes pour leurs réviseurs. Quelque chose doit être faux ici; Vous en savez autant parce que votre Red Shirt Effect a été conceptuellement reproduit plusieurs fois par d'autres laboratoires. L'effet chemise rouge doit juste être là; vous avez compté fidèlement les succès dans la littérature. Bien sûr, vous n'avez pas non plus compté les échecs qui n'ont jamais été publiés. De plus, vous étiez en train de compter les frappes légèrement modifiées comme étant des «réplications conceptuelles», mais pas des «ratés» légèrement modifiés comme des «disconfirmations conceptuelles». Vous n'avez toujours pas réussi à expliquer, théoriquement, pourquoi nous devrions nous attendre à voir l'effet chemise rouge de toute façon, soit. Encore une fois, pourquoi est-ce que cela vous importait? Une partie de votre réputation est en jeu.

Et ces couleurs ne fonctionnent pas! (p <0,05)

Dans des nouvelles quelque peu liées, il y a eu quelques commentaires salés du psychologue social Ap Dijksterhuis visant une étude récente (et la couverture de l'étude, et le journal dans lequel il a été publié) concernant neuf échecs pour reproduire certains travaux qu'Ap a faits sur l'amorçage d'intelligence, ainsi que le travail effectué par d'autres sur l'amorçage de l'intelligence (Shanks et al, 2013). L'idée initiale de l'initiation à l'intelligence, apparemment, était que l'amorçage des sujets avec des indices liés au professeur les rendait meilleurs pour répondre aux questions à choix multiple, alors que les sujets avec des indices liés au hooligan les rendaient moins performants (et non Je ne plaisante pas, c'était vraiment bizarre). L'intelligence elle-même est un concept plutôt flou, et il semble que le fait d'inciter les gens à penser aux professeurs – des gens généralement considérés comme supérieurs dans certains domaines de ce concept flou – est une mauvaise façon de les améliorer. Autant que je sache, il n'y avait pas de théorie sur la raison pour laquelle les nombres premiers devraient fonctionner de cette façon ou, plus précisément, pourquoi les gens devraient manquer d'accès à de telles connaissances en l'absence d'un premier vague vague et indépendant. À tout le moins, aucun n'a été discuté.

Ce n'était pas seulement que les échecs de réplication rapportés par Shanks et al (2013) étaient non significatifs mais dans la bonne direction, remarquez; ils semblaient souvent aller dans la mauvaise direction. Shanks et al (2013) ont même cherché explicitement les caractéristiques de la demande, mais ils ne les ont pas non plus trouvées. Neuf échecs consécutifs sont surprenants à la lumière du fait que les effets d'amorçage de l'intelligence ont déjà été rapportés comme étant plutôt importants. Il semble plutôt étrange que de grands effets puissent disparaître si rapidement; ils auraient dû avoir de très bonnes chances de se reproduire, s'ils étaient réels. Shanks et al (2013) suggèrent à juste titre que de nombreuses études de confirmation de l'amorçage de l'intelligence pourraient alors représenter un biais de publication, des degrés de liberté du chercheur dans l'analyse des données, ou les deux. Heureusement, les commentaires salés de Ap rappelaient aux lecteurs que: "la découverte que l'on peut avoir l'intelligence a été obtenue dans 25 études dans 10 laboratoires différents". Sûr; et quand un frappeur de la MLB ne compte que les temps où il frappe le ballon alors qu'il est au bâton, sa moyenne au bâton serait de 1.000. Compter seulement les coups et non les échecs fera en sorte que les coups soient communs, peu importe leur rareté. Peut-être qu'Ap aurait dû penser davantage aux professeurs avant d'écrire ses commentaires (bien que l'on me dise que penser aux nombres premiers les ruine aussi, alors peut-être qu'il n'a pas de chance).

J'ajouterai qu'il y a eu des commentaires salés similaires de la part d'un autre psychologue social, John Bargh, quand son travail sur l'amorçage des vieux stéréotypes sur la vitesse de marche n'a pas réussi à se reproduire (bien que John ait supprimé ses messages). Les deux cas présentent des similitudes frappantes: les prétentions à d'autres «réplications conceptuelles», mais aucune prétention à des «échecs conceptuels à reproduire»; attaques personnelles sur la crédibilité de la revue publiant les résultats; attaques personnelles contre les chercheurs qui n'ont pas réussi à reproduire la découverte; même des attaques personnelles sur les personnes signalant les échecs de réplication. Plus intéressant, John a également suggéré que l'effet d'amorçage était apparemment si fragile que même des écarts mineurs par rapport à l'expérience initiale pouvaient jeter le tout en désarroi. Maintenant, il me semble que si votre "effet" est si éphémère que même des ajustements mineurs au protocole de recherche peuvent l'annuler complètement, alors vous n'avez vraiment pas beaucoup d'importance en ce qui concerne l'effet, même s'il était réel . C'est précisément le genre de tirs dans le pied qu'une personne «plus intelligente» aurait pu envisager de sortir de sa crise autrement persuasive.

"J'ai géré l'échec de bien reproduire (p <0,05)"

J'ajouterais, par souci d'exhaustivité, que les effets d'amorçage de la menace de stéréotype ne se sont pas bien reproduits non plus. Oh, et les effets du réalisme dépressif ne montrent pas beaucoup de promesses. Cela m'amène à mon dernier point sur le sujet: étant donné les risques posés par les degrés de liberté de la recherche et les biais de publication, il serait judicieux d'adopter de meilleures garanties contre ce genre de problème. Les réplications, cependant, ne vont que très loin. Les réplications nécessitent des chercheurs prêts à les faire (et ils peuvent être des activités à faible récompense, découragées) et des revues désireuses de les publier avec une fréquence suffisante (ce que beaucoup ne font pas, actuellement). En conséquence, je pense que les répétitions ne peuvent nous aider qu'à résoudre le problème. J'estime qu'un remède simple – bien que partiel – à la question exige l'inclusion de la théorie actuelle dans la recherche psychologique; théorie de l'évolution en particulier. Bien que cela n'empêche pas la publication de faux positifs, cela permet au moins à d'autres chercheurs et examinateurs d'évaluer de manière plus approfondie les allégations présentées dans les journaux. Cela permet de mieux éliminer les mauvaises hypothèses et de concevoir de meilleurs projets de recherche pour les résoudre directement. De plus, mettre à jour la vieille théorie et fournir de nouveaux documents est une entreprise qui a une valeur personnelle. Sans théorie, tout ce que vous avez est un sac fourre-tout de résultats, certains positifs, certains négatifs, et aucune idée de ce qu'il faut faire avec eux ou comment ils doivent être compris. Sans théorie, des choses comme l'amorçage de l'intelligence – ou Red Shirt Effects – sonnent bien.

Références : Shanks, D., Newell, B., Lee, E., Balakrishnan, D., Ekelund, L., Cenac, Z., Kavvadia, F., et Moore, C. (2013). Comportement intelligent d'amorçage: un phénomène insaisissable PLoS ONE, 8 (4) DOI: 10.1371 / journal.pone.0056515

Droit d'auteur Jesse Marczyk