La vie et les temps de P

Wikipedia; public domain
Source: Wikipedia domaine public

Totgesagte leben länger. ['Ceux qui sont morts morts vivent plus longtemps', ou dans le latin vulgaire: 'Declaravit iam mortuum vivere'] ~ Origine inconnue

J'espère que les valeurs p sont des mesures légitimes. Sinon, je n'ai rien appris dans les statistiques . ~ Lauren Krueger, étudiante en commerce et finance, Université de Maastricht

Les statistiques portent sur la probabilité et aucun indice de probabilité unique n'a vu autant d'utilisation et autant d'abus que la soi-disant p -value (voir ici pour un essai précédent). Little p exprime la probabilité que les données (ou données plus extrêmes) supposent qu'une hypothèse particulière (c.-à-d. Un modèle théorique de la réalité) est correcte. Souvent, ce modèle théorique est théorique dans le sens où il suppose qu'il n'y a rien là. Vous pourriez dire, je ne crois pas que vous puissiez faire la différence – du goût seul – entre le lait ayant été ajouté au thé et le thé ayant été ajouté au lait. Dire que vous ne pouvez pas faire la différence, c'est dire que chaque fois que vous essayez, vous avez une probabilité de 0,5 d'être correct. Si alors vous réussissez 8 tentatives sur 10, p = 0,055 avec un test unilatéral. Par convention, nous serions intrigués par vos succès, mais nous ne déduirions pas que vous aviez une capacité démontrable à l'ordre de verser.

P est partout. Que ce soit l'évaluation des associations entre les variables empiriques ou les différences de moyennes, de médianes, de rangs ou de proportions, p fournit une métrique commune. Les statistiques de test peuvent varier (r, b, t, F, chi-carré, U ou W), mais p les rend comparables. Pourtant, de nombreux statisticiens détestent p à cause de la mauvaise interprétation et de l'abus que nous avons tous vus ou à cause de ce que p ne prétend pas et ne prétend pas être, à savoir la probabilité de l'hypothèse donnée les données. Les premiers motifs de grognements sont une distraction parce qu'ils sont une question de réception de p et non de sa nature. Ces derniers sont théoriques car p , s'il pouvait parler, ne prétendrait pas être égal à sa probabilité conditionnelle inverse. Il est clair que la probabilité que les données donnent l'hypothèse p (D | H) ne peut prétendre être la probabilité de l'hypothèse donnée par les données, p (H | D). Seules les personnes qui ne comprennent pas comment les conditions inverses sont liées peuvent le faire, ce qui nous ramène à la question de l'ignorance et de l'abus.

Souvent, le mépris de p est mêlé ou justifié par le mépris des tests d'hypothèse nulle. L'hypothèse nulle (ou nulle) d'absence d'effet est souvent présentée comme un homme de paille. Nous savons déjà que c'est faux, donc montrer que c'est faux en rapportant une valeur p basse est une charade déguisée en science. Vraiment? Savons-nous déjà que vous avez la capacité de détecter si du thé a été ajouté au lait ou du lait au thé (ou la «capacité» notable de le faire revenir en arrière)? Les hypothèses nulles sont établies comme des prédictions vérifiables lorsqu'une personne raisonnable s'attendrait à ce qu'il n'y en ait pas. Ensuite, quand dans un ensemble d'études bien conçu et répliqué, p reste faible, nous avons une preuve d'existence (probabiliste).

Il y a eu des rumeurs au sujet des horreurs de p pendant un siècle, et récemment, elle est de nouveau en pleine effervescence, en grande partie parce que des abus scandaleux ont été portés à notre attention, et non parce que les horreurs inhérentes à la méthode ont été révélées. soit par mathématiques intelligentes ou auto-da-fé . À qui vous tournez-vous pour un jugement autoritaire concernant p et son utilisation? L' American Statistical Association bien sûr!

Et voici! L'ASA s'est levé à la tâche et a publié une déclaration concernant p . Le conseil a convoqué et invité des experts de différentes écoles de pensée à proposer leur évaluation, et à la fin un rapport judicieux et prudent a été publié (Wasserstein et Lazar, 2016). Le ténor est que la valeur de p a une certaine valeur probante mais qu'elle est facilement mal interprétée et mal utilisée. Des précautions doivent être prises et d'autres outils statistiques doivent être utilisés. C'est à peine une condamnation des valeurs p que le travail du diable. Ce n'est pas non plus une déclaration qu'il existe des méthodes alternatives qui sont si clairement supérieures que les tests de signification et les rapports de p peuvent et doivent être abandonnés. En d'autres termes, le rapport ASA est remarquable dans ce qu'il ne dit pas. Les chercheurs et leurs étudiants peuvent continuer comme ils l'ont fait, tout en essayant d'être éthiques et conscients. Ni plus ni moins.

Le rapport d'ASA est le travail d'un comité, reflétant une condensation d'une gamme d'opinion dans un récit conçu pour minimiser le désaccord en moyenne. Fait intéressant (et au crédit de l'ASA), 21 commentaires sont publiés avec le rapport en tant que documents supplémentaires. Le mois de mai des auteurs semble avoir été impliqué dans la préparation du rapport ASA, de sorte que leurs évaluations individuelles fournissent une fenêtre intéressante sur la variation d'opinion qui est agrégée dans le rapport. Voici quelques thèmes qui émergent à travers les commentaires individuels:

Dans mes lectures, quatre des commentaires (Benjamin et Berger, Carlin, Johnson et Rothman) préconisent clairement l'abandon de la valeur p (c.-à-d. Que le groupe de non-abandon est la majorité, p = 0,007, bilatéral). Les autres concèdent à contrecoeur que p a quelques usages, que d'autres méthodes (calculs bayésiens notamment) ont des problèmes identiques ou différents, ou que le «vrai» problème n'est pas un indice statistique particulier, mais le contexte épistémologique plus large. Certains commentateurs soutiennent même fortement l'utilisation de la valeur p si elle est correctement comprise. Voici quelques citations mémorables, provenant de 7 des 21 commentaires:

"Qu'est-ce qui a rendu la valeur p si utile et si fructueuse dans la science tout au long du 20ème siècle, malgré les idées fausses si bien décrites dans la déclaration? Dans un certain sens, il offre une première ligne de défense contre le fait d'être dupé par le hasard, en séparant le signal du bruit, parce que les modèles dont il a besoin sont plus simples que tout autre outil statistique. " ~ Benjamini

"Parfois, en particulier lors de l'utilisation de nouvelles technologies scientifiques émergentes, la valeur p est le seul moyen de quantifier l'incertitude." ~ Benjamini

"Les valeurs P sont des mesures pratiques de l'extrémité et servent à décrire un ensemble de nombres d'une manière similaire à celle des scores Z et des intervalles de confiance." ~ Berry

Les valeurs p "servent à décrire un ensemble de données de nombres et, en ce sens, ce sont des outils utiles." ~ Berry

"Ce n'est pas une question d'abandon des valeurs P, c'est une question d'abandon de la mauvaise recherche." ~ Ionannidis

"Les valeurs P continueront à offrir des perspectives utiles." ~ Ioannidis

Les valeurs P sont «un indice de la signification probante des données dans un modèle statistique». ~ Lew

"Les valeurs P sont une réponse utilisable et défendable à la question de ce que les données disent." ~ Lew

"Il est incorrect de prétendre qu'une valeur p est" invalide "pour ne pas correspondre à une probabilité a posteriori basée sur l'une ou l'autre distribution antérieure." ~ Little

"P-valeurs devraient être conservés pour un rôle limité dans le cadre des approches d'erreur-statistique." ~ Senn

"La science progresse en partie en excluant les explications potentielles des données. les p-values ​​aident à évaluer si une explication donnée est adéquate. " ~ Stark

Mais . . .

le mal et l'abus restent un problème. Lors de la recherche de "la valeur p", un essai de Deborah Rumsey arrive en premier. En écrivant pour dummies.com, Deb déclare qu '" une petite valeur p (typiquement ≤ 0,05) indique une forte preuve contre l'hypothèse nulle, donc tu rejettes l'hypothèse nulle ." Elle nous demande d'avaler son argument avec un exemple gustatif, nous invitant d'imaginer qu '« une pizzeria prétend que ses délais de livraison sont en moyenne de 30 minutes ou moins, mais vous pensez que c'est plus que cela. Vous effectuez un test d'hypothèse parce que vous croyez que l'hypothèse nulle, Ho, que le délai de livraison moyen est de 30 minutes maximum, est incorrecte. Votre hypothèse alternative (Ha) est que le temps moyen est supérieur à 30 minutes. Vous échantillonnez aléatoirement des délais de livraison et exécutez les données à travers le test d'hypothèse, et votre p-value s'avère être 0.001, ce qui est beaucoup moins de 0.05. "

Et, pour être sûr que vous comprenez, De déclare que " En termes réels, il y a une probabilité de 0,001 que vous rejetter par erreur la demande de la place de pizza que leur délai de livraison est inférieur ou égal à 30 minutes ."

Était-ce seulement ainsi. L'ASA a beaucoup de travail à faire.

Wasserstein, RL, & Lazar, NA (2016). La déclaration de l'ASA sur les p-values: Contexte, processus et but. Le statisticien américain, 70 , 129-133. doi: 10.1080 / 00031305.2016.1154108

Les commentaires sont ici