Les conclusions de psychologie sociale les plus publiées sont-elles fausses?

La psychologie sociale est en crise parce que personne ne sait plus quoi croire. Les journaux sont maintenant remplis avec une réplication d'amorçage échouée après échec de la réplication d'amorçage. (Pour les lecteurs profanes, l'amorçage fait référence à l'idée que si vous faites une idée, un concept, une croyance, des attitudes ou une valeur saillante d'une manière ou d'une autre, cela peut influencer vos perceptions et comportements ultérieurs. comme "automaticité" dans le langage social psychique). Les études d'amorçage ont jadis exercé une grande influence en psychologie sociale, car les études publiées ont montré des effets pervers incroyablement changeants sur le monde de l'amorçage. L'amorçage a souvent lieu en dehors de la prise de conscience, de sorte que les choses semblaient montrer que les gens ne savent pas pourquoi ils font ce qu'ils font la plupart du temps. Incroyable! Et si vous pensez que c'est une affirmation de la paille, repensez à l'automatisme insupportable de l'être (si vous êtes un lecteur profane, regardez-le sur Google Scholar).

L'amorçage des stéréotypes des personnes âgées aurait conduit les gens à marcher lentement. Amorcer l'argent supposément conduit les gens à être moins disposés à aider. Exposer les hommes à des femmes attirantes aurait conduit à une augmentation de la prise de risque et de la consommation ostentatoire. Les gens étaient hors de leur contrôle! Adopter de fortes positions non verbales assertives («poses de pouvoir») pourrait soi-disant améliorer votre vie en améliorant votre confiance et la façon dont les gens vous traitent. Mais toutes ces découvertes, et beaucoup plus, se sont révélées suffisamment difficiles à reproduire que beaucoup de scientifiques les considèrent maintenant douteuses au mieux.

Create Meme
Source: Créer Meme

Et les problèmes vont bien au-delà des réplications ratées des études d'amorçage. La recherche sur les menaces stéréotypées, qui est largement interprétée comme montrant que «supprimer la menace, et les résultats des tests en noir et blanc sont égaux» n'a jamais montré une telle chose. La recherche sur les préjugés implicites, largement interprétée comme démontrant l'existence de préjugés raciaux omniprésents, n'a jamais montré que, par exemple, les résultats implicites des tests d'association reflétant des préjugés (scores supérieurs à 0) correspondent généralement à beaucoup de comportements discriminatoires (au moins une étude correspondent à un comportement égalitaire). Ou, en d'autres termes, certains des effets les plus célèbres et les plus influents en psychologie sociale, en particulier les effets obtenus au cours des 20 dernières années, ont été remis en question par une réplication échouée après une réplication échouée et par des révélations méthodologiques, statistiques et interprétatives douteuses. les pratiques.

Et ça empire avant que ça ne s'améliore.

Partie I: La reproductibilité (Ir?) De la psychologie sociale

Certaines des preuves les plus solides de l'affirmation que «la plupart des psychosociaux est fausse» viennent d'un seul article (Open Science Collaboration, 2015 publié dans Science) qui a examiné la recherche publiée en 2008 dans plusieurs domaines de la psychologie, y compris la psychologie sociale.

Ce document était une collaboration multi-laboratoire qui tentait de reproduire 52 études publiées dans deux revues de psychologie sociale de premier plan (Journal of Personality and Social Psychology and Psychological Science). Ce qui "compte" comme "réplication réussie" n'est pas en soi une science établie. Ce qui compte comme «preuve que l'effet est réel» n'est pas une science établie. Donc, ils ont utilisé plusieurs mesures. Selon les critères, ils ont trouvé qu'entre 25 et 43% des études ont reproduit ou révélé un effet réel.

Jusqu'à présent, cela ressemble à "La plupart des conclusions psychologiques sociales sont fausses" est sur des motifs assez sûrs. Et ça pourrait être. Mais je ne pense pas que cette conclusion générale soit justifiée par cette étude de réplication à grande échelle.

Partie II: OSC 2015 est une excellente étude, mais n'interprétons pas

Voici la chose clé que l'OSC n'a PAS faite qui rend infère l'inférence "la plupart des découvertes psychologiques sociales" sont injustifiées:

Ils n'ont pas identifié une population d'études en psychologie sociale (disons, depuis 1950, 1970 ou même 1990), en sélectionnent au hasard, puis tentent de les reproduire.

Au lieu de cela, ils ont d'abord restreint les tentatives de réplication à 2008. Ensuite, ils ont créé des sous-échantillons d'études (par exemple, les 20 premiers articles publiés dans Psychological Science). Ils ont ensuite permis à leurs équipes de réplication de sélectionner les documents à partir desquels tenter une réplication. En général, de par leur conception, les dernières études des rapports multi-études ont été sélectionnées pour des tentatives de réplication. Au-delà de cela, cependant, d'après le rapport publié dans Science, il est impossible de savoir comment les équipes de réplication ont choisi le document à reproduire. Il est possible que, de manière disproportionnée, les équipes aient sélectionné des articles rapportant des études qu'ils pensaient peu susceptibles de reproduire (il n'y a aucun moyen de savoir si plus de 100 coauteurs de ces réplications ont été interrogés, ce que je n'ai pas fait). Au minimum, cela ne peut pas être exclu.

Quoi qu'il en soit, en l'absence d'un échantillonnage aléatoire de bonne foi des études sur une longue période, aucune conclusion générale sur la reproductibilité de la psychologie sociale ne peut être tirée sur la base de cet article. Enfer, on ne peut même pas arriver à des conclusions claires sur la reproductibilité de la psychologie sociale publiée en 2008 à partir de cet article.

Bien sûr, ces limitations ne signifient pas que le psychopathe est sur des bases sûres. Ils ne signifient pas que l'étude est définitivement connue pour avoir fourni des résultats non représentatifs de la psychologie sociale. Cela signifie certainement que beaucoup de choses sont publiées, ce qui est difficile à reproduire.

Partie III: La réplication en psychologie sociale est difficile même lorsque l'effet est connu pour être vrai

Jon Krosnick est un psychologue social / politologue à Stanford qui est également reconnu internationalement comme l'un des premiers chercheurs en sciences sociales. Il a dirigé une fois l'American National Election Study, un sondage national représentatif des opinions politiques qui dure depuis des décennies, apparaît régulièrement dans les NYTimes, et a reçu de nombreux prix pour son travail.

Il y a quelques années, il a recueilli des données d'enquête sur près de 10 000 personnes. Une série d'effets de sondage bien connus ont été identifiés comme statistiquement significatifs dans ce grand échantillon (p. Ex. Effets d'ordre, acquiescement, etc.). Des sous-échantillons d'environ 500 à 1 000 personnes ont ensuite été examinés pour déterminer la fréquence à laquelle les sous-échantillons statistiquement significatifs montreraient les mêmes effets.

Malgré le fait que les phénomènes étudiés étaient généralement significatifs dans le grand échantillon, les sous-échantillons ont trouvé des preuves significatives de l'effet seulement la moitié du temps (les analyses sont toujours en cours et le nombre exact de réplications pour chaque phénomène est sujet à changement). Même si le nombre de «réplication» de 50% n'est que très approximatif en attendant les analyses finales, cela montre les difficultés de réplication, même avec de grands échantillons, et même sans pratiques de recherche douteuses.

C'est, à certains égards, de bonnes nouvelles. Cela signifie que, par exemple, lorsque de plus petites études sur échantillon ne reproduisent que 30% ou 40% du temps, cela ne constitue pas nécessairement une preuve de pratiques problématiques rampantes. Cela peut simplement témoigner des effets importants de la variabilité d'échantillonnage et des changements mineurs dans le contexte (p. Ex. Dans un État ou un pays différent) ou dans une procédure. Et il y a plus de bonnes nouvelles. Au moins avec leurs grands échantillons, les résultats préliminaires de l'équipe de Krosnick suggèrent que, s'ils ont trouvé des preuves significatives de l'effet ou non, environ 80% des études ne sont pas significativement différents les uns des autres. Encore une fois, si le décompte final est de 71%, 93% ou 80%, c'est un niveau relativement élevé de réplication.

Pourquoi est-ce important? Il montre comment les aléas de la variabilité d'échantillonnage peuvent rendre assez difficile la détection même d'un effet réel. Cela signifie également que, peut-être, nous devons reconsidérer notre compréhension de la fréquence à laquelle une constatation doit être répétée pour qu'elle soit crédible, et comment nous pouvons jamais distinguer une conclusion crédible d'une conclusion incroyable. Beaucoup de scientifiques travaillent sur ce problème et ont développé de nouveaux outils statistiques pour déterminer ce qui est crédible (courbes p, indices de réplication, tests statistiques pour identifier et contrôler les biais de publication, etc.). Cependant, la plupart de ces méthodes sont suffisamment nouvelles pour que nous puissions savoir quel sera le meilleur moment.

Partie IV: La reproductibilité de la psychologie sociale

Certains domaines de la psychologie sociale sont un gâchis, en particulier ceux qui impliquent «amorçage social» (voir les références pour les liens vers des articles de discussion les différentes crises d'amorçage et les échecs à reproduire). Je ne dis pas que tout est faux, mais, à de rares exceptions près, je ne sais pas quels effets sociaux sont crédibles et lesquels ne le sont pas. L'amorçage cognitif n'est pas un gâchis. Il existe depuis longtemps un travail excellent et facilement reproductible sur l'amorçage cognitif en psychologie cognitive. Après l'exposition au mot «noir», les gens reconnaissent plus rapidement les présentations ultérieures du mot «noir» (comparées, par exemple, à d'autres mots, tels que «vert» ou «blasphème»).

Dans mon laboratoire, plus de 30 ans, j'ai reproduit chacun des phénomènes suivants:

  • Les stéréotypes biaisent la façon dont les gens jugent un individu quand les gens manquent d'informations sur cette personne (autre que l'appartenance à une catégorie stéréotypée)
  • Les gens jugent massivement les individus en fonction de leurs caractéristiques personnelles et rarement sur des stéréotypes, si les gens ont des informations pertinentes sur les caractéristiques personnelles de cet individu – par exemple, leur personnalité, leurs accomplissements, leurs comportements, etc.
  • Des niveaux de précision modérés à élevés dans de nombreux stéréotypes démographiques
  • L'imprécision omniprésente dans les stéréotypes nationaux lorsqu'elle est évaluée par rapport aux critères d'auto-évaluation des cinq grands personnages
  • Les attentes des enseignants produisent des prophéties auto-réalisatrices en classe – mais ces effets ont tendance à être faibles, fragiles et éphémères (peu d'autres chercheurs les décriraient de cette façon, mais quand vous regardez les résultats, c'est à peu près ce que tout le monde a effectivement trouvé).
  • Les attentes des enseignants prédisent surtout le rendement des élèves parce que ces attentes sont exactes et ne sont pas auto-réalisatrices.
  • Néanmoins, les attentes des enseignants biaisent aussi légèrement leurs propres évaluations des étudiants.
  • La saillance de la mortalité augmente l'antisémitisme.
  • L'auto-cohérence domine les réactions cognitives à la rétroaction de performance; l'auto-amélioration domine les réactions affectives au feedback de performance
  • L'erreur d'attribution fondamentale
  • Préjugés égoïstes
  • Biais de confirmation motivés par des raisons politiques

Je n'ai pas découvert ces phénomènes. Donc mes réplications constituent une preuve indépendante que les phénomènes sont réels. Cependant, aucun d'entre eux n'étaient des réplications directes. Dans le langage moderne, tous étaient des réplications conceptuelles. En fait, cette distinction ne me préoccupait pas moi-même lorsque j'ai mené ces études. Il y a 25 ans (ou 15 ou même 5), personne ne parlait de réplications directes ou conceptuelles, et je tenais pour acquis que d'autres recherches avaient trouvé un phénomène, et je voyais si je pouvais, aussi, au service de certaines Rosenthal & Jacobson, 1968 ont démontré des prophéties auto-réalisatrices induites expérimentalement, je voulais voir si les attentes des enseignants se développaient d'elles-mêmes, sans être trompées par les chercheurs, étaient aussi auto-réalisatrices – elles l'étaient). J'ai souvent reproduit le phénomène des autres (plus récemment, nous avons réussi une réplication conceptuelle réussie de l'étude pro / anti-castriste du discours et de la correspondance de Jones et Harris) mais avec des stéréotypes sexuels qui contraignent le comportement plutôt que les demandes des chercheurs. Maintenant, la plupart de ceux-ci ne sont pas les «sujets chauds flashy» des 20 dernières années. Pas d'amorçage, pas de préjugé implicite, pas de pose de pouvoir, pas de menace de stéréotype. Beaucoup de ces résultats, mais pas tous, s'accompagnent d'effets de taille assez importante (ce qui était l'un des prédicteurs du succès de la réplication dans le document de 2015 de la CVMO).

C'est juste dans mon laboratoire. Ne compter que les données que je connais d'autres personnes, qui ont été reproduites dans plus d'un laboratoire indépendant:

  • Les fondements moraux de Jon Haidt se répliquent.
  • La similarité-attraction est très puissante.
  • Les préjugés de droite contre les groupes de gauche et les préjugés de gauche contre les groupes de droite se multiplient à répétition.
  • L'exagération des stéréotypes politiques se répète.
  • Les préjugés (ne pas aimer / aimer un groupe) prédisent généralement toutes sortes de préjugés plus fortement que les stéréotypes (croyances sur les groupes).
  • Exactitude au-dessus de la chance dans la perception de la personne basée sur de fines tranches de comportement reproduit.
  • Les heuristiques Kahneman et Tversky se répliquent principalement.
  • Les biais d'Ingroup se répliquent la plupart du temps.
  • Des auto-évaluations de la compétence, de la moralité et de la santé qui se prêtent à des auto-évaluations.
  • Dans la perception de la personne, les gens recherchent davantage d'informations diagnostiques que d'informations de confirmation dans à peu près toutes les études qui ont donné aux gens la possibilité de rechercher des informations diagnostiques.

Tant que l'on parle de résultats techniques, plutôt que de surinterprétations généralisées de tels résultats:

  • les scores IAT raciaux supérieurs à zéro se répliquent largement;
  • les conservateurs obtiennent régulièrement des notes plus élevées sur les mesures communes de rigidité et de dogmatisme que les libéraux
  • les différences de race / d'ethnicité et de classe dans la réussite scolaire abondent.

Je suis sûr qu'il y en a beaucoup d'autres que je n'ai pas énumérés.

De nombreuses conclusions sont faciles à reproduire.

D'un autre côté, ce n'est pas non plus un échantillon aléatoire de sujets. Il ne serait pas justifié de conclure de mon expérience personnelle ou de cette liste hors-liste que, en fait, le psychopathe est très bien, merci beaucoup. Et les problèmes vont bien au-delà de la réplication, mais c'est une missive pour un autre jour.

Comment allons-nous savoir ce qui, dans le vaste entrepôt de près d'un siècle de recherche en psychologie sociale, est réellement valide et crédible? Comment pouvons-nous distinguer des résultats spectaculaires et changeants qui ne sont que du battage médiatique, des récits formidables, des résultats biaisés, des vœux pieux et, finalement, de l'huile de serpent, des résultats dramatiques qui changent le monde? changer le monde avec? Personne ne sait vraiment encore, et toute personne qui prétend qu'ils le font, sans avoir soumis leurs revendications à des tests sceptiques tels que les pcurves, les indices de réplication, et les tentatives de réplication pré-enregistrées ne vend que l'huile de serpent reconditionnée.

Pour moi, il y a un ingrédient unique et crucial pour le comprendre: Diversité des points de vue et profond scepticisme des revendications des uns et des autres. Quand les réponses ne sont pas arrêtées, la science – et une grande partie de notre science est actuellement instable – la diversité et le scepticisme sont des outils essentiels pour extraire la vérité du battage publicitaire, le signal du bruit, les résultats réels de l'huile de serpent.

La pensée de groupe et la déférence envers les «autorités» scientifiques et les récits «scientifiques» répétés reposant sur des bases empiriques d'une fermeté imprécise constituent une menace importante pour la validité de la psychologie sociale. De grandes doses d'humilité et d'incertitude, du moins en ce qui concerne nos affirmations sur la psychologie sociale, semblent être en ordre. Dans cet esprit, il est probablement préférable d'éviter les affirmations extrêmes, y compris «la plupart des conclusions de la psychologie sociale sont fausses», à moins que nous sachions qu'ils ont des bases extrêmement solides de soutien scientifique.

Qui savait que Mark Twain était un scientifique? "Ce n'est pas ce que vous ne savez pas qui vous met en difficulté. C'est ce que tu sais à coup sûr, ce n'est pas le cas. "

Les références

Jones, EE et Harris, VA (1967). L'attribution des attitudes. Journal of Experimental Social Psychology, 3, 1-24.

Krosnick, réplication de JA. Discours présenté à la réunion 2015 de la Société pour la personnalité et la psychologie sociale.

Loeb, A. (2014). Avantages de la diversité. Nature: Physique, 10, 616-617.

Collaboration scientifique ouverte. (2015). Estimer la reproductibilité de la science psychologique. Science, 349, aac4716. doi: 10.1126 / science.aac4716

Rosenthal, R., et Jacobson, L. (1968a). Pygmalion dans la salle de classe: les attentes des enseignants et le développement intellectuel des élèves. New York: Holt, Rinehart et Winston.

Facile d'accès en ligne Ressources sur l'amorçage problématique et d'autres difficiles à reproduire des études

Échecs d'amorçage récents

Effets d'amorçage valides et invalides

Une réplication d'amorçage échouée au début

Licornes de psychologie sociale

Les licornes psychologiques sociales: échouer les réplications Dissiper les mythes scientifiques>

Le pouvoir pose-t-il juste le battage?