Répliques impures

La réplication est l'épine dorsale de la vraie science. Alors que les sciences dures comme la physique et la chimie connaissent depuis longtemps la valeur de la réplication et la pratiquent, les psychologues n'ont soulevé cette question que récemment. Auparavant, les chercheurs savaient par "bouche-à-oreille" dont les résultats étaient reproductibles et ceux qui ne l'étaient pas. Il est donc louable que cette question importante soit mise en évidence.

Au cours des quelques années qui ont suivi la réplication, il y a eu beaucoup de progrès. Par exemple, les premières réplications publiées (et échouées pour la plupart) étaient des études uniques, alors que de récents travaux collaboratifs ont rapporté plusieurs études expérimentales pour les rendre plus représentatives car une seule expérience de réplication échouée a pu être faite par hasard.

Il y a quelques jours, un nouvel échec de réplication a été publié, ainsi qu'une réponse du premier auteur de l'étude originale, qui soulève des questions sur la valeur des études de réplication (voir le rapport et la réponse de Strack ici).

L'étude au crayon et sa réplication

Flickr/CC 2.0
Source: Flickr / CC 2.0

Cependant, les problèmes restants qui ont à faire avec un manque de sophistication théorique peuvent être illustrés par la réplication d'une expérience sur la rétroaction corporelle de l'expression émotionnelle sur les jugements affectifs.

Dans cette expérience de Fritz Strack, Leonard Martin et Sabine Stepper, les participants doivent tenir un stylo dans l'une des deux positions, soit entre les dents (côté gauche de l'image) ou entre les lèvres (côté droit).

Tout en tenant le stylo entre les dents active les muscles liés à l'affect positif, en tenant le stylo entre les lèvres active les muscles liés aux sentiments négatifs. L'avantage de cette procédure est que les participants ne remarquent pas qu'ils sourient ou font la moue. Les participants ont dû noter la drôlerie des dessins animés de Gary Larson The Far Side .

Strack et ses collègues ont constaté que les participants qui tenaient le crayon entre les dents et donc souriaient, jugeaient les dessins animés plus amusants que les participants qui tenaient le crayon entre les lèvres, ce qui les faisait faire la moue. Cette découverte apporte un soutien à une théorie de l'émotion du feedback facial en ce qu'elle montre que la simulation d'une expression émotionnelle dans votre visage vous fait ressentir l'émotion. L'étude est devenue un classique de la citation et a été présentée il y a quelques années sur la première page de Science .

Un groupe de chercheurs s'est lancé dans une tentative de réplication massive. Dix-sept laboratoires différents ont répété cette expérience et ont cherché à savoir s'ils pouvaient reproduire l'effet. Le verdict était clair: ils ne pouvaient pas. Aucune des expériences n'a atteint la taille de l'effet de l'étude originale et, en moyenne, l'effet était proche de zéro. Sur Twitter, un chercheur a remarqué: "Une autre découverte classique de psychologie sociale mord la poussière".

La polémique sur Twitter m'a incité à répondre, et une discussion s'est ensuivie qui était aussi bonne que possible quand votre argument ne peut pas dépasser 140 caractères. Comme j'ai besoin de plus d'espace pour faire valoir mon point de vue, j'ai décidé d'écrire ce billet, notamment parce que cette étude et d'autres études examinées sont pertinentes pour le sentiment critique.

Je vais me concentrer sur l'impact théorique des échecs de réplication et sur la façon de gérer les impuretés qui menacent la validité d'une étude de réplication.

La question est de savoir si cet effet classique "mord la poussière"? Dans sa réponse, Fritz Strack a énuméré plusieurs points qui rendent la réplication douteuse.

Par exemple, 14 des 17 études ont été réalisées avec des étudiants de premier cycle, même si l'étude est largement citée dans les manuels pour ce public précis. Contrairement aux étudiants qui ont participé à l'étude de Strack pour qui il était impossible de connaître le résultat, les étudiants ont peut-être lu l'étude, même s'ils ne s'en souviennent peut-être pas lorsqu'ils ont participé à l'expérience.

En effet, les 14 études réalisées avec des étudiants ont montré un effet nul alors que les trois études avec d'autres participants ont montré un effet global dans le sens de l'étude originale. En outre, une caméra a été dirigée vers les participants pour surveiller leur expression faciale. Des résultats de recherche ont montré que pointer une caméra sur des personnes ou les regarder par d'autres moyens change leur façon de penser et leur comportement; pourquoi pas leurs jugements de la drôlerie des caricatures? Comme l'effet crayon est subtil, de petites "impuretés" dans l'expérience peuvent masquer l'effet.

En ce qui concerne les impuretés, je pense que les psychologues pourraient bénéficier de la pensée scientifique en chimie. Le grand problème des chimistes est la pureté de leurs substances. Même de petites impuretés peuvent empêcher les réactions ou changer les résultats. La principale chose que les chimistes doivent souvent faire est de purifier leurs substances afin d'assurer le succès de leurs expériences.

Le travail des chercheurs en psychologie est encore plus difficile car ils ne mènent pas leurs recherches dans des systèmes fermés avec des conditions standard clairement définies. Les systèmes en psychologie sont des résultats ouverts et expérimentaux sensibles à des effets contextuels subtils.

Cela signifie que des changements minuscules peuvent modifier un effet, un fait reconnu par les chercheurs en réplication. Par exemple, les participants d'une culture différente peuvent interpréter les instructions différemment et l'expérience peut donc produire des résultats différents.

Il n'est pas étonnant que les échecs de la réplication dans le grand projet Open Science Framework aient été liés à la question de savoir à quel point un sujet dépendait de la culture. Plus l'effet était spécifique à la culture, plus ses chances d'être répliquées dans l'étude scientifique ouverte étaient mauvaises (voir Van Bavela et al, 2016).

L'étude au crayon fait-elle partie d'un programme de recherche dégénératif?

Revenons à l'étude au crayon. Strack a fourni quelques arguments qui soulèvent un doute raisonnable quant à la «pureté» des études de réplication. Certains psychologues ont fait valoir que cela est "SNARKing – spartiates spéculation après que les résultats sont connus." Un autre commentateur signifiait, "Nous appelons cela" critiquer après que les résultats sont connus. "Lakatos appelle une ligne de recherche dégénérative.

Ces commentateurs font valoir que si vous essayez de reproduire un effet et que vous ne le comprenez pas, il n'est pas utile de proposer des explications post hoc. D'abord, vous pouvez toujours trouver des excuses pour lesquelles une expérience n'a pas fonctionné. Deuxièmement, et plus important encore, un effet ne semble pas robuste lorsque des changements subtils suppriment l'effet. Les commentateurs sur Twitter ont cité Lakatos qu'une telle ligne de recherche est sur la retraite, elle est dégénérative.

L'utilisation de la ligne de recherche dégénérative de Lakatos est erronée dans le cas des échecs de réplication. Lakatos ne pensait pas à des échecs de réplication mais à de nouvelles expériences qui contredisent une théorie. Trouver des explications pour défendre votre théorie – souvent sous la forme d'hypothèses auxiliaires qui compliquent votre théorie – est improductif et indique que votre programme de recherche est en déclin.

Pourtant, ce n'est pas ce qui est arrivé à la théorie de la rétroaction faciale qui a été soutenue par l'expérience de Strack. Personne n'a présenté de données contredisant la théorie de la rétroaction faciale. Les auteurs de l'étude de réplication n'ont tout simplement pas pu reproduire les résultats de l'une des études de démonstration qui a soutenu la théorie. Cependant, il existe d'autres expériences qui soutiennent la théorie de la rétroaction faciale. L'échec de reproduire une étude – même si elle est la plus connue – ne change pas beaucoup en ce qui concerne la théorie. Aucun signe d'un programme de recherche dégénératif.

Pourquoi l'échec de la réplication ne menace pas la théorie du retour facial

Il y a une autre distinction à laquelle les psychologues doivent faire attention lorsqu'ils parlent d'échec de la réplication. Supposons que vous étudiez une intervention pour rendre les gens heureux grâce à une rétroaction faciale, par exemple en tenant un stylo entre les dents. Vous publiez une étude et recommandez cette intervention pour l'utilisation dans les écoles, au travail et à la maison. Vous faites l'argument universel que cette intervention sera efficace dans la plupart des circonstances.

Venez 17 réplicateurs qui ne peuvent pas reproduire les résultats. Comme vous avez fait un argument universel, l'échec de répliquer est un coup mortel parce qu'il n'y a pas un tel effet global et robuste. Même la réplication de l'effet avec une taille d'effet plus petite nuirait à la pertinence de l'étude originale si elle faisait de la revendication un effet universel.

Cependant, ce n'est pas ce que Strack et ses collègues avaient en tête. Ils n'ont jamais revendiqué l'universalité de l'effet, mais ont fait l'argument existentiel qu'il existe des exemples de l'expérience des états affectifs à travers la rétroaction faciale.

Venez 17 réplicateurs qui ne peuvent pas reproduire les résultats. Comme Strack et ses collègues ont fait un argument existentiel un échec de répliquer menace la fiabilité de l'étude et la validité de la théorie (si c'était la seule étude à l'appuyer) seulement quand il n'y a aucune explication pourquoi l'étude de réplication a échoué.

Ceci est similaire aux chimistes qui cherchent d'abord des impuretés dans leur expérience avant de douter qu'ils pourraient reproduire un résultat. Une telle discussion n'a rien à voir avec des programmes de recherche nitpicking et dégénératifs mais avec un discours scientifique pour trouver la méthode qui fonctionne, s'il y en a une.

Comme nous l'avons vu, il y a deux explications qui soulèvent des doutes quant à la validité de l'étude de réplication, du corps étudiant et de la caméra devant le visage des participants.

L'échec de la réplication est instructif car il montre que c'est un effet subtil – rendant explicite un fait que les initiés connaissaient depuis toujours, et c'est une bonne chose.

Cependant, l'échec de reproduire cette expérience ne menace pas la théorie, pour les raisons décrites ci-dessus. Il doit être pris en compte qu'il est probablement beaucoup plus facile d'obtenir un échec de réplication qu'un effet original stable qui est souvent obtenu après beaucoup de tests pilotes et de réglages fins.

Enfin, trouver un effet est une bonne nouvelle pour un argument existentiel, même si la taille de l'effet est beaucoup plus faible que l'étude originale. Du point de vue d'une théorie, les tailles d'effet sont seulement informatives quand les scientifiques font un argument universel ou quand ils veulent tirer des implications pratiques d'une étude.

Tant que l'argument se rapporte à la simple existence d'un mécanisme ou d'un effet, les tailles d'effet n'ont pas d'importance.

Conclusion

L'échec de la réplication menace seulement une théorie (1) quand c'est la seule étude qui soutient la théorie; (2) s'il fait une réclamation universelle. Les réplications courantes choisissent souvent une étude de plusieurs qui soutiennent une théorie, et ils choisissent des études qui soutiennent un argument existentiel.

De nombreux échecs de réplication ne sont que des échecs de réplication d'études uniques. Ils n'ont pas beaucoup d'impact sur la théorie, et les discussions sur les impuretés qui menacent la validité d'une étude de réplication ne doivent pas être considérées comme de faibles excuses mais comme un point de départ pour de nouvelles et meilleures tentatives de réplication.

Le message à retenir est que les psychologues doivent faire la distinction entre la réplication d'études qui prétendent montrer un effet universel avec des implications pratiques et des études qui font l'argument existentiel d'un certain mécanisme.

La plupart des études expérimentales sur l'affect, l'amorçage ou le mode de réalisation qui n'ont pas été répliqués sont de ce dernier type. Comme la théorie est principalement soutenue par d'autres preuves, l'échec à reproduire leurs résultats n'a pas beaucoup de pertinence pour la théorie que ces études étaient censées soutenir.

L'article du blog a suscité beaucoup de débats sur les médias sociaux. Voir la discussion sur Facebook ici (Psychological Methods Discussion Group) et ici (PsychMAP).

Pour la conclusion que la reproductibilité est sensible au contexte:

Van Bavela, JJ, Mende-Siedleckia, P, J. Bradya, W., et Reinero, DA (2016). Sensibilité contextuelle dans la reproductibilité scientifique. PNAS, 113, 6454-6459.

L'hypothèse de la rétroaction faciale est décrite au chapitre 5 de:

Reber, R. (2016). Sentiment critique. Comment utiliser les sentiments de façon stratégique. Cambridge: Cambridge University Press.

Plus de références peuvent être trouvées dans les liens ou références ci-dessus.

Crédit d'image: Chiffre disponible sur http://tinyurl.com/zm7p9l7 sous licence CC
https://creativecommons.org/licenses/by/2.0/.