Peur des faux positifs

Je suis le seul dieu qui connaisse les clés / à l'armurerie où l'éclair est scellé. / Pas besoin de ça, pas ici. / Laissez-moi vous convaincre. ~ Aischylos: Les Euménides [1]

Dans un article très diffusé paru dans Nature , Benjamin et 71 co-auteurs demandent que les niveaux de signification soient resserrés de la convention actuelle de p <0,05 à 0,005. L'argument est que le dossier publié de la science psychologique contient trop de faux résultats positifs, ce qui nous amène à croire en des choses qui ne le sont pas, comme le Sasquatch ou l'amorçage social. Abaisser le seuil de signification permettrait de réduire l'incidence des faux positifs. En même temps, disent-ils, la nouvelle convention, si elle était adoptée, aiderait à résoudre la crise de réplication. Ou le serait-il? S'il est difficile de reproduire un résultat de 0,05 à un niveau donné de puissance statistique, il sera alors difficile de reproduire un résultat de 0,005 à ce même niveau de puissance. Rappelez-vous que la puissance statistique est la probabilité de trouver une signification [définie par convention] avec une probabilité donnée [conventionnellement 0,8] si la découverte originale est réelle, c'est-à-dire si elle est vraie et non fausse positive. Afin de rendre leur proposition positivement pertinente à la crise de réplication, les auteurs proposent qu'un seuil de signification abaissé soit appliqué uniquement aux nouveaux tests d'hypothèse. En d'autres termes, ils demandent que nous déclarions un nouveau morceau de recherche seulement si p <0,005, tout en nous permettant de le reproduire avec p <0,05. [Cette proposition soulève la question de savoir comment nous savons ce qu'est un nouveau test.]

Cette proposition de resserrement des vis est intéressante mais elle flirte avec l'incohérence. Rappelez-vous le vieux dicton que Dieu aime p = 0,055 pas moins (ou pas beaucoup moins) qu'elle aime p = 0,045 (et la preuve du professeur Gelman). Maintenant, Dieu ne se soucie pas non plus de savoir quelle étude a été menée en premier et doit être considérée comme le nouveau test d'hypothèse et qui a été menée plus tard. L'ordre de ces études est théoriquement et statistiquement non pertinent (Krueger, 2001). Si nous souhaitons mener des première et deuxième études sur différentes normes statistiques, nous pourrions aussi inverser l'argument. Soyons simples sur les premiers tests d'hypothèses car ils ne savent pas encore ce qu'ils sont. Les premiers tests sont exploratoires et non confirmatoires (Sakaluk, 2016). Les premiers tests sont la méthode de recherche du scientifique. Le scientifique comprend que des tests précoces faciles produiront beaucoup de pistes qui s'avéreront plus tard être des impasses, mais il comprend également que de tels tests aboutiront à de nombreuses découvertes qui seront plus tard considérées comme de véritables découvertes.

Benjamin et al. connaître les risques de fausses erreurs négatives, mais ils ne semblent pas très concernés. Ce manque de préoccupation est extra-statistique. C'est un jugement de valeur. S'ils croient que les horreurs des faux positifs sont plus grandes que les horreurs des faux négatifs, ils doivent préconiser un seuil p plus strict. Parce qu'ils préconisent un seuil p plus strict, nous pouvons inverser-inférer qu'ils abhorrent les faux positifs (Krueger, 2017). Mais, comme certains d'entre nous l'ont soutenu, nous devons nous demander quelle direction prendra la science lorsque nous envisagerons des changements dans la pratique conventionnelle (Fiedler, Kutzner et Krueger, 2012). Cependant, il existe des considérations statistiques en ce sens que nous pouvons estimer le taux auquel les faux positifs et les faux négatifs changeront avec les changements du seuil p. Dans les expériences de simulation, nous trouvons que l'abaissement du seuil p dégrade la validité globale des inférences inductives (Krueger & Heck, 2017). C'est parce que la proportion de Misses augmente plus fortement que la proportion de Faux Positifs diminue. Insister pour abaisser le seuil de signification à la lumière de ces résultats, c'est placer une plus grande désutilité sur un faux positif qu'un utilitaire sur un vrai positif.

Et pourquoi .005 et pas .01 ou .001? Benjamin et al. concéder que le choix est aussi arbitraire que pragmatique. Ils se réfèrent à la preuve sociale (beaucoup le favorisent) et le facteur Bayes augmenté qui va avec. Plus la valeur de p est faible, plus le FB est élevé et favorise l'hypothèse alternative. C'est un moment de vérité pour les bayésiens parmi les auteurs. Le BF, comme il s'avère, est une transformation log-linéaire de la valeur de p. Rien de statistique n'est ajouté jusqu'à ce que les prieurs soient inclus, mais c'est une autre histoire.

Le rapport de 72 auteurs provient de la littérature critique sur les tests de signification. Cette littérature se résume à deux revendications:

  1. les valeurs de p sont fatales, c'est-à-dire qu'elles sont incohérentes et peu fiables;
  2. Les valeurs de p ne sont pas assez basses.

Les 72 mettent l'accent sur ce dernier point, mettant ainsi l'accent sur le premier. Sûrement, il serait difficile d'enregistrer les deux plaintes dans le même document. Ce serait un peu comme la vieille chanson juive que "La nourriture était horrible, et les portions étaient si petites!"

Il y a un troisième point, qui ne concerne pas les bases statistiques, mais leur utilisation. Les critiques se plaignent que les chercheurs utilisent aveuglément ou servilement un seuil de signification pour faire des inférences catégoriques sur la présence ou l'absence de «quelque chose». Même Fisher, Neyman et Pearson ne préconisaient pas une prise de décision rigide. Fisher considérait 0,05 comme un seuil raisonnable quand on sait peu de chose, et Neyman et Pearson suggèrent que les chercheurs utilisent 0,05, 0,01 ou 0,001 en fonction des utilités relatives des deux types d'erreur. Maintenant, les 72 se rapprochent d'exiger un changement normatif, un nouveau critère de signification qui serait contraignant par consensus social et fiat éditorial. Avec cela, les 72 commettent ce qui est par ailleurs condamné comme le péché cardinal de ST, le dessin d'une ligne claire entre être et ne pas être.

Il y a en effet une psychologie de la catégorisation lumineuse. Le début de Tajfel (par exemple, 1969) a proposé la théorie de l'accentuation comme un moyen de donner un sens aux diverses conséquences de la catégorisation arbitraire (et non arbitraire). Il a rapporté le résultat reproductible que les valeurs placées sur un continuum sont perçues comme respectivement plus petites et plus grandes si elles tombent à gauche (plus petit) ou à droite (plus grand) d'un point de démarcation (Krueger et Clément, 1994). L'accentuation perceptuelle dans le domaine des indices statistiques et des décisions n'est pas une maladie particulière qui sort de ST.

Une complication finale se cachant dans le rapport 72 est ce qu'il faut faire avec les résultats passés. Peut-être que les 72 signifient impliquer que toutes les découvertes avec .05> p> .005 soient négligées. En effet, cette conclusion découle de leur proposition. Comme indiqué ci-dessus, Dieu (et Fisher) ne se soucient pas de la chronologie relative des résultats. Ici, les 72 peuvent faire la différence. Ils peuvent choisir d'aller sur le disque et désavouer toutes leurs découvertes passées avec .05> p> .005. Toute réplication potentielle ultérieure de ces résultats est sans importance car, selon leur propre logique, ils n'auraient jamais eu lieu.

[1] Aischylos, mettant ces mots dans la bouche d'Athéna, souligne le pouvoir de persuasion sur l'autorité. De même, nos pratiques scientifiques doivent répondre à l'argumentation raisonnée, et non à la proclamation par l'autorité.

Benjamin, DJ, Berger, J., Johannesson, M., Nosek, BA, Wagenmakers, E.-J., Berk, R., … Johnson, V. (2017, 22 juillet). Redéfinir la signification statistique . Récupérée de osf.io/preprints/psyarxiv/mky9j

Fiedler, K., Kutzner, F. et Krueger, JI (2012). Le long chemin de l'a-contrôle à la validité proprement dite: Problèmes avec un débat faussement positif à courte vue. Perspectives on Psychological Science, 7 , 661-669.

Krueger, J. (2001). Essai de signification d'hypothèse nulle: Sur la survie d'une méthode imparfaite. Psychologue américain, 56 , 16-26.

Krueger, JI (2017). Inférence inverse. Dans SO Lilienfeld & ID Waldman (Eds.), Science psychologique sous surveillance: défis récents et solutions proposées (pp. 110-124). New York, NY: Wiley.

Krueger, J., et Clement, RW (1994). Jugements basés sur la mémoire à propos de plusieurs catégories: Une révision et une extension de la théorie de l'accentuation de Tajfel. Journal de la personnalité et de la psychologie sociale, 67 , 35-47

Krueger, JI, & Heck, PR (2017). La valeur heuristique de p dans l'inférence statistique inductive. Frontiers in psychology: Psychologie de l'éducation [Thème de recherche: Aspects épistémologiques et éthiques de la recherche en sciences sociales]. https://doi.org/10.3389/fpsyg.2017.00908

Sakaluk, JK (2016). Explorer petit, confirmant grand: un système alternatif aux nouvelles statistiques pour avancer la recherche psychologique cumulative et reproductible. Journal of Experimental Social Psychology, 66 , 47-54.

Tajfel, H. (1969). Aspects cognitifs des préjugés. Journal of Social Issues, 25 , 79-97.