Problème de réplication de la recherche en psychologie

À l'heure actuelle, beaucoup d'entre vous ont sans doute entendu parler du projet de reproductibilité, où 100 découvertes psychologiques ont été soumises à des tentatives de réplication. Au cas où vous ne le sauriez pas, les résultats de ce projet ont été moins qu'une approbation retentissante de la recherche sur le terrain: sur les 89 répétitions attendues, seulement 37 ont été obtenues et la taille moyenne des effets a chuté de façon spectaculaire; en particulier, la recherche en psychologie sociale semblait particulièrement mauvaise à cet égard. Cela suggère que, dans de nombreux cas, on serait bien servi en prenant de nombreuses découvertes psychologiques avec quelques grains de sel.

Naturellement, cela amène beaucoup de gens à se demander s'il existe un moyen de croire qu'un effet est réel , pour ainsi dire. Un moyen possible par lequel votre confiance pourrait être renforcée est de savoir si la recherche en question contient des réplications conceptuelles.

Ce à quoi il est fait référence sont des cas où les auteurs d'un manuscrit rapportent les résultats de plusieurs études différentes censées mesurer la même chose sous-jacente avec des méthodes différentes; c'est-à-dire qu'ils étudient le sujet A avec les méthodes X, Y et Z. Si tout cela est positif, vous devriez être plus confiant qu'un effet est réel. En effet, j'ai eu un papier rejeté plus d'une fois pour ne contenir qu'une seule expérience. Les revues veulent souvent voir plusieurs études dans un article, et cela fait probablement partie de la raison pour laquelle: une seule expérience est sûrement moins fiable que plusieurs expériences.

Flickr/Michael Caroe Andersen
Il ne va nulle part, mais au moins il le fait de manière fiable
Source: Flickr / Michael Caroe Andersen

Selon le compte rendu modérateur inconnu de l'échec de la réplication, les résultats de la recherche psychologique sont, par essence, souvent volage. Certains résultats peuvent dépendre du moment de la journée où les mesures ont été prises, du pays de l'échantillon, de certains détails particuliers du matériel de stimulation, si l'expérimentateur est un homme ou une femme; tu le nomme. En d'autres termes, il est possible que ces effets publiés soient réels, mais ne se produisent que dans des contextes plutôt spécifiques dont nous ne sommes pas suffisamment conscients; c'est-à-dire qu'ils sont modérés par des variables inconnues. Si tel est le cas, il est peu probable que certains efforts de réplication aboutissent, car il est peu probable que tous les modérateurs uniques, inconnus et non appréciés soient également répliqués. C'est là qu'interviennent les répétitions conceptuelles: si un article contient deux, trois ou plusieurs tentatives différentes d'étudier le même sujet, nous devrions nous attendre à ce que l'effet qu'il produit soit plus susceptible de s'étendre au-delà d'un ensemble très limité de contextes et de reproduire plus facilement.

C'est une hypothèse flatteuse pour expliquer ces échecs de réplication; il n'y a tout simplement pas assez de réplication en cours de prépublication, de sorte que les résultats limités sont publiés comme s'ils étaient plus généralisables. L'hypothèse la moins flatteuse est que de nombreux chercheurs, à défaut d'un meilleur mot, trichent en employant des tactiques de recherche malhonnêtes. Ces tactiques peuvent inclure l'hypothèse après la collecte des données, la collecte des participants seulement jusqu'à ce que les données indiquent ce que les chercheurs veulent et s'arrêtent, divisant les échantillons en différents groupes jusqu'à ce que les différences soient découvertes, et ainsi de suite.

Il y a aussi le fameux problème des revues qui ne publient que des résultats positifs plutôt que négatifs (créant une forte incitation à tricher, car la punition pour le faire est presque inexistante tant que vous ne faites pas que reconstituer les données). C'est pour ces raisons qu'exiger le pré-enregistrement de la recherche – indiquant explicitement ce que vous allez regarder à l'avance – laisse tomber les résultats positifs de façon marquée. Si la recherche échoue à se répliquer parce que le système est trompé, plus de réplications internes (celles des mêmes auteurs) n'aident pas vraiment à prédire les réplications externes (celles effectuées par des tiers). Les réplications internes offrent aux chercheurs la possibilité de signaler plusieurs tentatives de tricherie.

Ces deux hypothèses font des prédictions différentes concernant les données du projet de reproductibilité susmentionné: en particulier, la recherche contenant des réplications internes devrait être plus susceptible de se reproduire avec succès si l'hypothèse du modérateur inconnu est exacte. Ce serait certainement un état de choses étrange à partir d'une perspective «cette constatation est vraie» si plusieurs réplications conceptuelles n'étaient pas plus susceptibles de se reproduire que des articles à étude unique. Cela reviendrait à dire que les effets qui ont été répliqués ne sont pas plus susceptibles de se répliquer que les effets qui ne l'ont pas été. En revanche, l'hypothèse de tricherie (ou, plus poliment, l'hypothèse des pratiques de recherche discutables) ne pose aucun problème avec l'idée que les réplications internes pourraient se révéler aussi extériorisables à l'extérieur que les articles à étude unique; Tricher une découverte trois fois ne signifie pas qu'il est plus susceptible d'être vrai que de le tromper une fois.

Flickr/vozach1234
Ce n'est pas de la triche; c'est juste une "stratégie de test discutable"
Source: Flickr / vozach1234

Ceci m'amène à un nouvel article de Kunert (2016) qui a réexaminé certaines des données du projet de reproductibilité. Sur les 100 documents originaux, 44 contenaient des réplications internes: 20 contenaient une seule réplication, 10 étaient répliquées deux fois, 9 étaient répliquées 3 fois et 5 en contenaient plus de trois. Ceux-ci ont été comparés avec les 56 articles qui ne contenaient pas de répétitions internes pour voir lesquels se répliqueraient ensuite mieux (tel que mesuré en obtenant une signification statistique). Il s'est avéré que des papiers avec des réplications internes répliquaient à l'extérieur environ 30% du temps, alors que les papiers sans répétitions internes se répliquaient à l'extérieur environ 40% du temps. Non seulement les documents reproduits en interne ne sont pas nettement meilleurs, mais ils sont en réalité un peu moins bons à cet égard. Une conclusion similaire a été atteinte en ce qui concerne la taille moyenne de l'effet: les papiers ayant des réplications internes n'étaient pas plus susceptibles de contenir par la suite une taille d'effet plus importante, par rapport aux papiers sans répétitions.

Il est bien sûr possible que les papiers contenant des réplications internes soient différents des papiers qui ne contiennent pas de telles réplications. Cela signifie qu'il peut être possible que les réplications internes soient en fait une bonne chose, mais leurs effets positifs sont compensés par d'autres facteurs négatifs. Par exemple, une personne qui propose une hypothèse particulièrement nouvelle pourrait être encline à inclure plus de répétitions internes dans son document que quelqu'un qui étudie une hypothèse établie; le dernier chercheur n'a pas besoin de plus de répétitions dans son article pour le publier parce que l'effet a déjà été reproduit dans d'autres travaux.

Pour examiner ce point, Kunert (2016) a utilisé les 7 prédicteurs de reproductibilité identifiés de l'Open Science Collaboration – champ d'étude, type d'effet, valeur P originale, taille de l'effet original, pouvoir de réplication, effet de surprise surprenant et défi de mener la réplication – pour évaluer si le travail reproduit en interne différait de manière notable de l'échantillon non reproduit en interne. En fin de compte, les deux échantillons étaient assez similaires sur l'ensemble des facteurs sauf un: domaine d'étude. Les effets reproduits en interne provenaient plus souvent de la psychologie sociale (70%) que de la psychologie cognitive (54%). Comme je l'ai déjà mentionné, les articles de psychologie sociale avaient tendance à se reproduire moins souvent. Cependant, l'effet modérateur inconnu n'a pas été particulièrement bien supporté pour l'un ou l'autre champ lorsqu'il est examiné individuellement.

En résumé, alors, les articles contenant des répétitions internes n'étaient pas plus susceptibles de bien faire quand il s'agissait de réplications externes , ce qui, à mon avis, suggère que quelque chose va très mal dans le processus quelque part. Peut-être que les chercheurs utilisent leur liberté d'analyser et de collecter des données comme ils l'entendent pour donner les conclusions qu'ils veulent voir; peut-être que les revues publient préférentiellement les résultats des personnes qui ont eu de la chance, par rapport à ceux qui ont eu raison. Évidemment, ces possibilités ne s'excluent pas mutuellement. Maintenant, je suppose que l'on pourrait continuer à argumenter que «les articles qui contiennent des réplications conceptuelles sont plus susceptibles de faire autre chose, par rapport aux articles avec une seule étude», ce qui pourrait expliquer le manque de force fourni par des réplications internes, et quoi que ce "quelque chose" ne soit pas directement exploité par les variables considérées dans le document actuel. En substance, un tel argument suggère qu'il existe des modérateurs inconnus.

Flickr/ynnil
"… et cette tortue se tient sur la carapace d'une tortue encore plus grande …"
Source: Flickr / ynnil

Bien qu'il soit vrai qu'une telle explication n'est pas exclue par les résultats actuels, elle ne devrait pas être considérée comme une sorte de position par défaut sur les raisons pour lesquelles cette recherche échoue à se reproduire. L'explication des «chercheurs tricheurs» me semble un peu plus plausible à ce stade, étant donné qu'il n'y a pas beaucoup d'autres explications évidentes pour expliquer pourquoi les journaux ostensiblement reproduits ne sont pas mieux reproduits. Comme le dit clairement Kunert (2016):

Ce rapport suggère que, sans changements généralisés de la science psychologique, il deviendra difficile de le distinguer des observations informelles, des anecdotes et des devinettes.

Cela nous amène à la question de ce qui pourrait être fait à ce sujet. Il y a des moyens procéduraux de s'attaquer au problème – comme la recommandation de Kunert (2016) pour que les revues publient des articles indépendamment de leurs résultats – mais je me concentre sur les aspects théoriques de la publication. Trop de publications en psychologie sont publiées sans que les chercheurs aient besoin d'expliquer leurs résultats de façon significative. Au lieu de cela, ils ne font que reformuler et étiqueter leurs découvertes, ou ils posent une fonction biologiquement invraisemblable pour ce qu'ils ont trouvé (par exemple, «X fait que les gens se sentent bien» ou «les tâches de contrôle sont des drains métaboliques lourds»). Sans l'application sérieuse et cohérente de la théorie de l'évolution à la recherche psychologique, des effets invraisemblables continueront d'être publiés et, par la suite, ne se reproduiront pas parce qu'il n'y a pas moyen de savoir si une conclusion est logique. En revanche, je trouve plausible que les effets improbables puissent être plus clairement repérés – par les examinateurs, les lecteurs et les réplicateurs – s'ils sont tous formulés dans le même cadre théorique; mieux encore, les problèmes de conception peuvent être plus facilement identifiés et rectifiés en considérant la logique fonctionnelle sous-jacente, conduisant à des recherches futures productives.

Références: Kunert, R. (2016). Les réplications conceptuelles internes n'augmentent pas le succès de la réplication indépendante. Revue du Bulletin psychologique , DOI 10.3758 / s13423-016-1030-9