Les statistiques des résultats impossibles

supernova

Mulder

: Croyez-vous à l'existence d'extraterrestres?

Scully : Logiquement je devrais dire non. Compte tenu des distances à parcourir pour atteindre les régions éloignées de l'espace, les besoins en énergie dépasseraient les capacités d' un engin spatial …

Mulder : la sagesse conventionnelle …

J'ai écrit plus tôt à propos d'une conférence donnée par l'astronome chilien Mario Hamuy. En étudiant des supernovae très éloignées, Hamuy et ses collègues ont trouvé des preuves qui ont conduit à la conclusion que l'univers se développe avec une accélération de la vitesse. Avant leur découverte, presque personne ne pensait que cela était possible. Plusieurs hypothèses concernant le taux de décélération étaient en jeu, et l'idée que la vitesse d'expansion soit constante était la plus extrême et la plus fantaisiste. Les données de Hamuy étaient plus extrêmes que ne le permettait l'hypothèse la plus extrême, et pourtant, ces données sont maintenant largement acceptées, ce qui conduit à une nouvelle hypothèse après le fait: Le taux d'expansion s'accélère. Pourquoi cela reste à expliquer (l'énergie sombre quelqu'un?).

Hamuy a montré un graphique avec plusieurs lignes, chacune représentant une vitesse d'expansion particulière. La ligne la plus raide n'a pas supposé de décélération. Quand il a montré des données des supernovae lointaines, l'espoir était qu'elles tomberaient en tant que points sur une de ces lignes, confirmant ainsi le (changement) taux d'expansion. La révélation choquante était que les points se situaient au-dessus de la ligne la plus raide, et la mesure était suffisamment précise pour garder même la ligne la plus raide en dehors des intervalles de confiance dessinés autour des points. Vous obtenez l'image? Par des tests de signification statistique, Hamuy (et par conséquent le reste d'entre nous) ont été forcés de conclure que les données de supernova étaient improbables même dans l'hypothèse la plus proche. Si (même) cette hypothèse devait être rejetée (les hypothèses de décélération étaient rejetées a fortiori ), une nouvelle hypothèse devait être établie – et avec une rapidité intergalactique. D'où le retour de la constante cosmologique d'Einstein et l'arrivée de l'énergie sombre (anti-gravité).

J'étais persuadé par les données et les conclusions de Hamuy (toujours le matin). Cela semblait être une forte utilisation des tests d'hypothèse. Hamuy et son équipe avaient établi des hypothèses précises, et les données les ont emportées. Si l'on ne fait pas de test d'hypothèse avec ces données, quelles sont les alternatives? Une alternative, que je ne mentionnerai que brièvement, est l' estimation de la taille des paramètres ou des effets . Les défenseurs de cette approche sortent et mesurent, calculent des moyennes (ou d'autres types de statistiques agrégées) et des marges d'erreur basées sur des informations sur le nombre et la dispersion des observations. Ils tracent ensuite les moyennes et les intervalles de confiance, tout comme Hamuy pour représenter la distance des supernovae. Le problème avec l'approche de l'estimation pure est qu'elle est athéorique. Aucune hypothèse n'est rejetée ou corroborée. Vous regardez les points et dites «C'est ce que c'est.» Vous pouvez, bien sûr, estimer les tendances centrales et noter si les intervalles de confiance incluent une valeur théorique. Si ce n'est pas le cas, vous pouvez rejeter poliment cette valeur (et la théorie qui l'a prédit). Évidemment, cette stratégie a l'odeur rance d'essayer d'avoir les deux sens: rejeter une hypothèse, tout en prétendant ne regarder que ce qui est . Les tests de signification – il faut le reconnaître – sont moins hypocrites sur cette question. Cela nous enseigne ce qui ne l'est pas.

L'autre alternative au test d'hypothèse classique est l' évaluation des hypothèses bayésiennes. Je sympathise avec la cause bayésienne, mais je vois des limites. Les données de Hamuy montrent une telle limitation, mais permettez-moi d'illustrer mon inquiétude avec une version stylisée des données non-massives que j'ai récemment trouvées de ce côté de la galaxie.

Imaginez un jeu expérimental dans lequel vous voudrez coopérer avec une probabilité particulière. Il y a deux probabilités spécifiques qui peuvent être dérivées des hypothèses théoriques de jeu standard. L'un est .5 et l'autre est .75. Pourquoi il en est ainsi n'est pas pertinent ici. Nous collectons maintenant les jugements de probabilité d'un groupe de répondants et les classons par moyenne. Disons que la moyenne est .8 et l'erreur standard est .02. À l'aide de tests de signification, nous notons que la moyenne empirique est plus grande que la valeur théorique la plus proche de 0,75, t = 2,5, p = 0,013. Remarquez l'analogie avec le cas de Hamuy. Les données empiriques sont si extrêmes qu'elles nous conduisent à rejeter même la prédiction théorique la plus proche. Nous n'avons même pas besoin de tester la moyenne empirique de .8 par rapport à la valeur théorique plus éloignée de 0,5.

Ou faisons-nous? Dans le monde bayésien, nous évaluons les données à la lumière de plusieurs hypothèses (au moins deux) mutuellement exclusives, puis réévaluons ces hypothèses à la lumière des données. Pour ce faire, nous devons déclarer quelles sont les probabilités antérieures de ces hypothèses, mais si elles sont identiques, nous n'avons pas besoin de nous inquiéter. Ils s'annulent mutuellement. Le but de l'analyse bayésienne est d'articuler le support relatif que les hypothèses reçoivent des données, et ceci est exprimé comme un ratio. Nous avons déjà calculé la valeur p des données, D, sous Hypothèse 1, qui indique que la probabilité de coopération est de 0,75. Cette probabilité est p (D | H1) = .013. Maintenant, nous faisons aussi un test de signification sur l'hypothèse 2, plus éloignée, qui indique que la probabilité de coopération est de 0,5 et trouve p (D | H2) = 6E-35, ce qui est incroyablement bas. Nous complétons le cercle bayésien en divisant la première probabilité par la seconde, ce qui donne 0,013 / 56E-35 = 2E32. H1, qui dit que la probabilité de coopération est de 0,75, est largement favorisée par les données relatives à l'hypothèse selon laquelle la probabilité de coopération est de 0,5. La valeur de .75 doit être correcte. Droite?

Pas si vite. Supposons que nos données atteignent la prédiction du spot H1, alors que tout le reste reste le même. Maintenant p (D | H1) = 1 et p (D | H2) = 4E-27, ce qui nous donne un ratio de Bayes de 2E26. Notez que nous sommes descendus de 2E32. En d'autres termes, maintenant que les données correspondent parfaitement à H1, le support relatif de H1 est plus faible qu'il ne l'était lorsque les données étaient plus extrêmes que H1, alors que par test de signification seul nous aurions rejeté H1. C'est là que les testeurs de signification (et les estimateurs de paramètres) répondent avec glee. Dans les statistiques bayésiennes, tout ce que vous obtenez est le support de l'hypothèse qui est moins fausse avec la conséquence paradoxale que le support relatif d'une hypothèse peut augmenter alors que son support absolu (la distance entre les données et l'hypothèse) diminue.

Les bayésiens pourraient répondre en regardant toute une distribution d'hypothèses. Dans le présent exemple, ils pourraient commencer par une distribution uniforme de toutes les hypothèses d'une probabilité de coopération de 0 à une probabilité de 1. Dans ce cas, la conclusion empirique de .8 apporterait le plus fort soutien à l'hypothèse qui dit .8. S'ils le faisaient, les bayésiens seraient indiscernables des estimateurs de paramètres. Avoir une théorie signifie avoir déjà exclu certaines choses. Et c'est une bonne chose jusqu'à ce que la réalité remette l'impossible sur la carte – comme dans l'observatoire de Hamuy.