Compter les coups; Pas les misses

À divers moments de notre vie, nous avons tous lu ou raconté des anecdotes sur la façon dont quelqu'un a transformé un peu de sa vie. Certains d'entre eux (ou du moins leurs variantes) semblent familiers: «J'ai coupé le pain de mon alimentation et tout à coup je me sentais tellement mieux»; "Amy a fait fortune en travaillant chez elle en vendant des pilules amaigrissantes en ligne"; "Après que les médecins ne pouvaient pas comprendre ce qui n'allait pas avec moi, j'ai commencé à boire ce thé et mon infection a soudainement disparu". Le but de ces histoires est d'essayer de dessiner un lien occasionnel, dans ces cas: (1) manger du pain vous rend malade, (2) vendre des pilules amaigrissantes est un bon moyen de gagner de l'argent, et (3) le thé est utile pour lutter contre les infections. Certaines ou toutes ces déclarations peuvent être vraies, mais le vrai problème avec ces histoires est le manque de données sur lesquelles elles sont basées. Si vous voulez être plus sûr de ces déclarations, vous voulez plus d'informations. Sûr; vous auriez pu vous sentir mieux après avoir bu ce thé, mais qu'en est-il des 10 autres personnes qui ont bu du thé similaire et n'ont vu aucun résultat? Que diriez-vous de toutes les autres personnes qui vendent des pilules pour maigrir qui étaient dans le trou financier depuis le premier jour et qui n'ont jamais rampé parce que c'est en fait une arnaque? Si vous voulez vous rapprocher de la compréhension de la valeur de vérité de ces énoncés, vous devez considérer les données dans leur ensemble; les deux histoires de succès et les histoires d'échec. Cependant, les histoires de quelqu'un qui ne s'enrichit pas en vendant des pilules pour maigrir ne sont pas aussi émouvantes, et ne voient donc pas la lumière du jour; au moins pas initialement. Cette facette d'anecdotes a été faite par l'Oignon il y a quelques années (et Clickhole a eu sa propre prise plus récemment).

Flickr/Lloyd Morgan
"Au début, il a échoué, mais avec une pensée positive, il a continué à échouer encore et encore"
Source: Flickr / Lloyd Morgan

Ces anecdotes tentent souvent de mettre en lumière des cas réussis (coups) tout en ignorant ceux qui échouent (échecs), ce qui donne une image biaisée de la façon dont les choses vont se dérouler. Ils ne nous rapprochent pas beaucoup de la vérité. La plupart des personnes qui créent et consomment de la recherche en psychologie aimeraient penser que les psychologues vont au-delà de ces anecdotes et donnent des aperçus utiles sur la façon dont fonctionne l'esprit, mais beaucoup de préoccupations ont été soulevées dernièrement. largement dû aux résultats du projet de reproductibilité. De nombreuses questions ont été soulevées sur la manière dont la recherche en psychologie est menée: soit sous la forme de plaidoyer pour des positions politiques et sociales particulières (qui faussent les conceptions expérimentales et les interprétations statistiques), soit de manière sélective. données réussies sans reconnaître les prédictions ratées. Le résultat a été un certain nombre de faux positifs et de réels surévalués dans la littérature.

Bien que ces préoccupations soient justifiées, il est difficile de quantifier l'ampleur des problèmes. Après tout, très peu de chercheurs vont sortir et dire qu'ils ont manipulé leurs expériences ou données pour trouver les résultats qu'ils voulaient parce que (a) cela ne ferait que nuire à leur carrière et (b) dans certains cas, ils ne sont même pas conscients que ils le font, ou que ce qu'ils font est faux. En outre, parce que la plupart des recherches psychologiques ne sont pas préenregistrées et que les découvertes nulles ne sont généralement pas publiées, déterminer ce que les chercheurs espéraient trouver (mais pas) devient une entreprise difficile simplement en lisant la littérature. Heureusement, un nouveau document de Franco et al (2016) apporte des données sur la sous-déclaration. Bien que ces données ne soient pas le dernier mot sur le sujet par tous les moyens (en grande partie en raison de la petite taille de l'échantillon), elles fournissent certains des premiers pas dans la bonne direction.

Franco et al. (2016) font état d'un groupe d'expériences en psychologie dont les questionnaires et les données ont été rendus publics. Plus précisément, ils proviennent des expériences de partage de temps pour les sciences sociales (TESS), un programme NSF dans lequel des expériences en ligne sont intégrées dans des enquêtes de population représentatives à l'échelle nationale. Les chercheurs qui utilisent TESS font face à des limites strictes sur le nombre de questions qu'ils peuvent poser, nous dit-on, ce qui signifie que nous devrions nous attendre à ce qu'ils restreignent leurs questions aux questions les plus théoriquement significatives. En d'autres termes, nous pouvons être assez confiants que les chercheurs avaient des prédictions spécifiques qu'ils espéraient tester pour chaque condition expérimentale et mesure de résultat, et que ces prédictions ont été faites avant d'obtenir réellement les données. Franco et al (2016) ont ensuite été en mesure de suivre les études TESS à travers les versions finales publiées des documents pour voir quelles manipulations expérimentales et les résultats ont été et n'ont pas été signalés. Cela a fourni aux auteurs un ensemble de 32 expériences de psychologie semi-pré-enregistrées pour examiner les biais de reportage.

Flickr/Pat Kight
Un petit échantillon que je vais généraliser imprudemment à l'ensemble de la recherche en psychologie
Source: Flickr / Pat Kight

La première étape consistait à comparer le nombre de conditions expérimentales et de variables de résultats qui étaient présentes dans les études TESS au nombre qui apparaissait finalement dans les manuscrits publiés (les auteurs ont-ils rapporté ce qu'ils ont fait et ce qu'ils ont mesuré?). Globalement, 41% des études TESS n'ont pas rapporté au moins une de leurs conditions expérimentales; alors qu'il y avait en moyenne 2,5 conditions expérimentales dans les études, les articles publiés ne mentionnaient qu'une moyenne de 1,8. En outre, 72% des documents n'ont pas rapporté toutes leurs variables de résultats; alors qu'il y avait en moyenne 15,4 variables de résultats dans les questionnaires, les rapports publiés ne mentionnaient que 10,4. Ensemble, seulement environ une personne sur quatre a rapporté tout ce qu'elle a fait et ce qu'elle a mesuré. Sans surprise, ce modèle s'étend également à la taille des effets rapportés. En termes de signification statistique, la valeur p rapportée médiane était significative (0,02), tandis que la valeur p médiane non déclarée n'était pas (0,32); les deux tiers des tests rapportés étaient significatifs, alors que seulement un sur quatre des tests non déclarés l'étaient. Enfin, les tailles d'effet publiées étaient environ deux fois plus importantes que les tailles non déclarées.

Pris ensemble, le modèle qui a émergé est que la recherche en psychologie a tendance à sous-déclarer les manipulations expérimentales échouées, les mesures qui ne se sont pas déroulées, et les effets plus petits. Cela ne devrait pas surprendre presque tous ceux qui ont passé beaucoup de temps autour des chercheurs en psychologie ou les chercheurs eux-mêmes qui ont essayé de publier des résultats nuls (ou, en fait, ont essayé de publier presque n'importe quoi). Les données sont souvent désordonnées et peu coopératives, et les gens sont moins intéressés à lire sur les choses qui n'ont pas fonctionné (à moins qu'elles ne soient placées dans les contextes appropriés, où les échecs pour trouver des effets peuvent être considérés significatifs, comme quand vous réessayer de fournir des preuves contre une théorie). Néanmoins, le résultat d'un tel rapport sélectif sur ce qui semble être une échelle assez grande est que la crédibilité globale de la recherche en psychologie rapportée baisse toujours plus, un faux-positif à la fois.

Alors, que peut-on faire à ce sujet? Une suggestion qui est souvent lancée est la perspective que les chercheurs devraient enregistrer leur travail à l'avance, en précisant quelles analyses ils mèneront et quelles prévisions ils ont faites. C'était (en quelque sorte) le cas dans les données actuelles, et Franco et al (2016) approuvent cette option. Cela permet aux gens d'évaluer la recherche plutôt que de s'en remettre aux comptes rendus publiés. Bien que ce soit une bonne suggestion, cela ne sert qu'à améliorer l'état de la littérature. En particulier, cela n'aide pas vraiment le problème des revues qui ne publient pas de constatations nulles en premier lieu, et n'interdit pas nécessairement aux chercheurs de faire des analyses post-hoc de leurs données et d'obtenir des faux positifs supplémentaires. Ce qui est peut-être un moyen plus ambitieux de résoudre ces problèmes, c'est de changer collectivement la façon dont les journaux acceptent les articles à publier. Dans ce système alternatif, les chercheurs soumettraient un aperçu de leur article à un journal avant que la recherche soit menée, en précisant (a) quelles seront leurs manipulations, (b) quelles seront leurs mesures de résultats et (c) quelles analyses statistiques ils vont entreprendre. Ensuite, et cela est important, avant que le chercheur ou les journaux ne sachent quels seront les résultats , il sera décidé de publier le document ou non. Cela permettrait à des résultats nuls de faire leur chemin dans les revues grand public tout en permettant aux chercheurs de construire leurs propres CV si les choses ne fonctionnent pas bien. Essentiellement, cela élimine certaines incitations pour les chercheurs à tricher statistiquement. L'évaluation des revues sera alors basée non pas sur l'émergence de résultats intéressants, mais plutôt sur la question de savoir si une question de recherche suffisamment importante a été posée.

Flickr/Scott
Ce qui est bien, vu la fréquence à laquelle les résultats réels semblent solides
Source: Flickr / Scott

Il y a cependant quelques inconvénients à cette suggestion. Premièrement, le plan prendrait du temps à être adopté même si tout le monde était à bord. Les revues devraient accepter un article pour publication des semaines ou des mois avant que le document ne soit rempli. Cela poserait des complications supplémentaires pour les revues, dans la mesure où les chercheurs ne parviendraient pas du tout à terminer la recherche, en temps opportun, ou soumettraient des sous-articles qui ne méritent pas encore d'être imprimés, laissant ainsi d'éventuelles lacunes de publication. De plus, cela signifiera parfois qu'un numéro de revue sortira sans contenir d'avancées majeures dans le domaine de la recherche psychologique (personne n'a rien trouvé cette fois), ce qui pourrait avoir une incidence négative sur le facteur d'impact des revues en question. En effet, cette dernière partie est probablement le plus grand obstacle à la révision majeure du système de publication actuellement en place: la plupart des recherches en psychologie ne fonctionneront probablement pas très bien, et cela signifiera probablement moins de gens intéressés à lire et à citer. il. Bien qu'il soit possible, je suppose, que des résultats nuls soient effectivement cités à des taux similaires à des résultats positifs, cela reste à voir, et en l'absence de cette information, je ne prévois pas que les revues seraient très intéressées à changer leurs politiques et à prendre ce risque.

Références: Franco, A., Malhotra, N., et Simonovits, G. (2016). Sous-déclaration dans les expériences de psychologie: Preuve d'un registre d'étude. Social Psychological & Personality Science, 7 , 8-12.