Deux implications du théorème de Bayes

La Rev enseigne l’incertitude.

En science, le progrès est possible. En fait, si l’on croit au théorème de Bayes, le progrès scientifique est inévitable à mesure que les prévisions sont faites et que les croyances sont testées et affinées . ~ Nate Silver

Si la probabilité que le théorème de Bayes soit vrai est de 0,9, quelle est la probabilité révisée qu’elle soit vraie si nous rejetons l’hypothèse qu’elle est fausse à p = 0,05? ~ JIK

Thomas Bayes était un clerc et mathématicien anglais qui s’intéressait, entre autres, à trouver une preuve de dieu. Il ne pouvait pas, mais il a laissé un traité et un théorème qui, après sa publication à titre posthume (Bayes, 1764), est devenu la base de ce que nous appelons maintenant des statistiques bayésiennes. En termes conceptuels, le théorème de Bayes décrit comment la croyance préexistante (conjecture, hypothèse ou intuition) doit être mise à jour à la lumière de nouvelles preuves (observations, données) de manière à ce qu’il n’y ait pas de contradictions. En d’autres termes, le théorème de Bayes garantit la cohérence et promet d’augmenter graduellement la précision des croyances. Pas étonnant que beaucoup de gens (statisticiens, psychologues, machinistes) considèrent le théorème comme la définition de la rationalité. Dans cet essai peu technique, je souligne deux implications du théorème de Bayes qui ne sont pas particulièrement cachées en mathématiques, mais qui ont une grande importance pour la recherche et la religion. Mais nous devons d’abord introduire les termes du théorème et leur relation (ce qui est le travail du théorème à éclairer).

J. Krueger

Figure 1. Théorème de Bayes.

Source: J. Krueger

La figure 1 montre le théorème. La probabilité qu’une croyance (H pour l’hypothèse à partir de maintenant) soit vraie étant donné l’évidence (D pour les données) ou p (H | D) est égale au produit de la probabilité antérieure de l’hypothèse, p (H) , c’est-à-dire avant l’introduction des nouvelles données et le «rapport de diagnostic». Ce ratio est la probabilité que les données supposent que l’hypothèse est vraie, p (D | H), sur la probabilité totale des données, p ), c’est-à-dire la probabilité cumulée des données sous toutes les hypothèses. Pour rendre les choses simples ( oui! ), Supposons qu’il n’y a qu’une seule hypothèse alternative, ~ H, dont la probabilité est 1 – p (H). On peut maintenant dire que p (D) = p (H) * p (D | H) + p (~ H) * p (D | ~ H). Le théorème est complet. Regardez à nouveau la figure 1 pour apprécier ce fait.

La première implication du théorème de Bayes est que le révérend aurait pu prouver dieu en théorie, mais que la condition nécessaire est extrême. Il est possible que p (H | D) soit 1, mais seulement si p (D | H) = 1 et p (D | ~ H) = 0. La certitude de la croyance exige la certitude des données. Les données doivent être certaines compte tenu de l’hypothèse d’intérêt et impossibles dans l’hypothèse alternative. Lorsque cette dernière paire de conditions est remplie, la force antérieure de la croyance (en dieu ou autre) est sans importance. Preuve (c’est-à-dire que la combinaison de p (D | H) = 1 et p (D | ~ H) = 0) élimine la différence entre l’avocat et le sceptique.

Tellement pour la religion. Dans la plupart des sciences empiriques, la preuve irréfutable est rare. Les données sont accompagnées de bruit et d’incertitude, et les hypothèses et les croyances et hypothèses qu’elles soutiennent ont tendance à rester probabilistes. Tout au plus, les chercheurs pourraient dire qu’ils ont une «certitude morale» que X est vrai. La moralité étant notoirement imparfaite, la porte pour un changement d’esprit étant donné que de nouvelles données sont laissées en suspens.

La seconde implication du théorème de Bayes est pertinente pour la question de savoir si la probabilité des données sous l’hypothèse, p (D | H), est bien alignée avec la probabilité postérieure de l’hypothèse, c.-à-d. | D). Cette question est intéressante pour tous les chercheurs qui souhaitent tester des hypothèses et pas seulement si les données sont crédibles. Ces chercheurs veulent tirer des conclusions des données pour les hypothèses. Ils veulent utiliser p (D | H) pour inférer p (H | D). Pour ce faire, ils ont besoin du théorème complet. Ils ont besoin de savoir (ou de postuler) p (H), p (~ H) et p (D | ~ H). Une inférence de p (D | H) à p (H | D) est forte dans la mesure où les deux termes sont corrélés. À l’aide d’expériences de simulation, nous avons constaté que ces corrélations étaient positives, mais que leur ampleur pouvait varier de manière prévisible (Krueger et Heck, 2017). Ici, nous voulons trouver les conditions dans lesquelles p (D | H) et p (H | D) sont identiques.

Le théorème de Bayes montre que p (D | H) = p (H | D) si et seulement si p (H) = p (D). Considérons maintenant le cas de p (D | H) = 0,05, où le chercheur, après convention, déclare le résultat significatif. Selon toute vraisemblance, p (H | D) ne sera pas aussi bas que p (D | H), mais cela pourrait être le cas. La question d’aujourd’hui est la suivante: que faut-il pour y arriver? Une petite algèbre révèle que p (D | H) = p (H | D) si p (D | ~ H) = (p (H) – p (D | H)) / p (~ H). Essayons quelques exemples. Après avoir sélectionné p (D | H) = 0,05, nous pourrions avoir une hypothèse qui ne semble ni particulièrement probable ni improbable au départ, à savoir p (H) = 0,5. Maintenant, si p (D | ~ H) = .9, nous avons notre égalité désirée de p (H | D) = p (D | H) = 0,05. C’est un bon arrangement. La croyance antérieure est incertaine au maximum (p (H) = 0,5); les résultats sont significatifs (p (D | H) = 0,05) et très probables sous l’hypothèse alternative (p (D | ~ H) = 0,9); et l’hypothèse nulle est en effet rejetable (p (H | D) = 0,05, ce qui signifie que p (~ H | D) = 0,95.

Considérons maintenant les conséquences les plus troublantes qui émergent lorsque nous nous écartons de ce scénario optimal. Que se passe-t-il si le chercheur choisit une hypothèse alternative risquée, à savoir un cas où p (H) est élevé? Si p (H) = 0,8, par exemple, p (D | ~ H) devrait être de 3,75 pour que p (D | H) = p (H | D) = 0,05. Un résultat impossible! Le théorème de Bayes l’interdit. Si vous poursuivez des recherches risquées (si p (H) est élevé) et que vous parvenez à obtenir une signification statistique, il est garanti que l’hypothèse n’est pas aussi improbable que les données qui ont conduit à son rejet. Pour p (H) = 0,525, p (D | ~ H) = 1. Pour toute valeur supérieure de p (H), p (H | D)> p (D | H). C’est une corne du dilemme.

L’autre corne émerge lorsque la recherche est sûre. Lorsque p (H) est faible, c’est-à-dire lorsque la probabilité de l’hypothèse alternative ou substantive, p (~ H), est élevée a priori , l’égalité de p (H | D) et p (D | H) est facilement obtenu, mais pour le prix que p (D | ~ H) est faible. Par exemple, si p (H) = 0,1 et les deux p (D | H) et p (H | D) = 0,05, alors p (D | ~ H) = 0,056. Cela peut sembler un résultat grotesque. D’une part, l’hypothèse alternative est considérée très vraisemblablement a priori (p (~ H) = 0,9), alors que cette hypothèse même apporte un ajustement aux données presque aussi médiocres que l’ajustement avec l’hypothèse. (H) qui est rejeté.

La morale de l’histoire est que le théorème de Bayes nous enseigne non seulement la cohérence, mais il nous pousse également (s’il peut parler) à faire de notre mieux pour sélectionner des hypothèses de probabilité intermédiaire pour le test. C’est ici que la recherche empirique rapporte les plus grandes récompenses.

Preuve? Quelle preuve? En écrivant la première implication («La preuve élimine le désaccord entre l’avocat et le sceptique»), j’ai été secoué par mon sommeil huméen. David Hume (1764) a célèbre ( et prouvé! ) Que vous ne pouvez pas prouver la validité de l’induction par des moyens déductifs (voir ici l’encyclopédie de Stanford). Le cliché de cette idée très profonde est que peu importe le nombre de cygnes blancs que vous avez vus, vous ne pouvez pas prouver qu’il n’existe pas de cygne noir. Il en est ainsi lorsqu’il n’y a pas de limite sur le nombre possible de cygnes. L’argument ne tient pas dans une population finie. Maintenant, nous devons nous demander si p (D | H) peut être 1. Si nous travaillons au pays de la théorie, en supposant la présence d’une distribution gaussienne (ou autrement non limitée), il est difficile de voir comment cela pourrait être affirmé sur le terrain. base de données. Les données, telles qu’elles apparaissent dans les mesures, ont une valeur numérique limitée. Par conséquent, une valeur plus extrême est toujours possible. Par conséquent, la probabilité de ces données ou données moins extrêmes doit être inférieure à 1. Par conséquent, l’argument que j’ai avancé, à savoir que le théorème de Bayes permet d’extraire certaines croyances des données observées, n’est valide qu’en théorie mais pas en pratique. Hume gagne (voir ici une note historique intéressante suggérant que les efforts de Bayes étaient motivés par le désir de réfuter Hume).

Nous terminons avec une citation de David Hume, juste pour montrer que le grand sceptique avait un sens de l’humour méchant. “J’ai écrit sur toutes sortes de sujets … mais je n’ai pas d’ennemis; sauf en effet tous les whigs, tous les conservateurs et tous les chrétiens “ (trouvés ici).

Bayes, T. (1764). Un essai pour résoudre un problème dans la doctrine des chances . Transactions philosophiques de la Royal Society of London, 53 , 370-418.

Hume, D. (1739). Un traité de la nature humaine . Oxford, Angleterre: Oxford University Press.

Krueger, JI et Heck, PR (2017). La valeur heuristique de p en inférence statistique inductive. Frontières en psychologie: psychologie de l’éducation . https://doi.org/10.3389/fpsyg.2017.00908