Jugement dans l'incertitude: statistiques et biais

J. Krueger
Source: J. Krueger

Il y a encore quelques frequentistes à gauche. ~ Joe Austerweil, tout en ruminant "un poil" problème bayésien

Le test de signification est considéré par beaucoup de ses praticiens comme le havre de l'objectivité, le cœur de la méthode scientifique, et le Saint Graal conduisant à des découvertes définissant la carrière. Les données sont collectées, une statistique de test est calculée et la probabilité d'une statistique au moins aussi grande est trouvée. Si cette probabilité est inférieure à 0,05, l'hypothèse nulle est rejetée. Quelque chose d'autre, pas rien , est supposé se produire. Typiquement, on pense que «rien n'est» quel que soit le traitement qui sépare les sujets expérimentaux des témoins. La méthode est objective dans le sens où tous ceux qui connaissent l'exercice obtiennent le même résultat.

«Objectif» ne signifie pas «valide». La validité des tests de méthodes de signification a été remise en question pendant un siècle (une critique précoce peut être trouvée dans le livre de Job , voir note de travail). Pourtant, ces méthodes prévalent (au moins pour le moment, la fête pourrait être terminée demain). Pourquoi? Gerd Gigerenzer (quelque part, parfois) a observé que l'utilisation de la valeur de p, c'est-à-dire l'utilisation de la probabilité des données sous l'hypothèse nulle p (D | H), déduit l'inverse, c'est-à-dire la probabilité de l'hypothèse la donnée, p (H | D), est une instance de jugement par l' heuristique de représentativité . Il n'a pas élaboré, autant que je me souvienne, alors je vais ici.

Rappelez-vous (ou recherchez) que p (H | D) = p (D | H) * p (H) / pD). Les données parlent de l'hypothèse. Leur effet (probabilité) doit être multiplié par le rapport des taux de base, c'est-à-dire la probabilité a priori de l'hypothèse divisée par la probabilité globale de trouver ce type de données (sous n'importe quelle hypothèse). Le révérend Bayes dit que tu multiplieras et diviseras. Le test de signification, cependant, la grande séductrice, incite le chercheur à sauter directement de p (D | H) à p (H | D), et les rapports de taux de base doivent être damnés. Cette différence entre l'utilisation et l'ignorance des informations de base est ce qui distingue la pensée de la perception dans le travail de Tversky et Kahneman et dans la plupart de ce qu'ils ont inspiré.

L' heuristique de la représentativité est devenue célèbre pour sa négligence définitionnelle, voire son rejet des taux de base (priors). Ecoutons Tversky et Kahneman (TK, 1974): "Beaucoup des questions probabilistes qui intéressent les gens [sont du type qui demande] quelle est la probabilité que l'objet A appartienne à la classe B? "A se réfère aux résultats de l'étude, et B est une réalité sous-jacente potentielle comme décrit par l'hypothèse. Ensuite, «en répondant à de telles questions, les gens s'appuient typiquement sur l'heuristique de représentativité, dans laquelle les probabilités sont évaluées par le degré auquel A est représentatif de B, c'est-à-dire par le degré auquel A ressemble à B.

Examen des connaissances traditionnelles 6 caractéristiques du jugement par représentativité. Voyons voir si elles s'appliquent aux tests de signification et à sa pratique.

[1] Insensibilité à la probabilité antérieure de résultats . Est-ce que cela s'applique? Oui. Pour une faute. Le test de signification définit explicitement la probabilité a priori de l'hypothèse nulle, ou toute autre hypothèse. Les chercheurs peuvent tranquillement envisager le risque de leur projet (c.-à-d. Les chances de trouver quelque chose plutôt que rien), mais ils ne sont pas invités à formaliser ces contemplations et à les laisser influencer leur hypothèse après avoir recueilli les preuves. En ce sens, le test de signification est encore plus heuristiquement plus heuristique que le représentant du jardinage (vous, percevez) vous et je me contenterai de me demander si le petit ami de notre fille appartient à la catégorie des 'saccades'. Il ne se comporte pas comme un abruti, et il ne ressemble pas à un abruti, ergo . . . et nous ignorons la taille de la catégorie des secousses, c'est-à-dire que nous ignorons à quel point il est a priori probable que le jeune homme soit un abruti. Incidemment, il est un peu étrange que les savoirs traditionnels introduisent l'heuristique de la représentativité en termes de caractéristiques déterminantes et de résultats. La négligence de Bayes (plus précisément la «négligence du taux de base») semble porter les deux chapeaux.

[2] Insensibilité à la taille des échantillons . Le test de signification est sensible à la taille de l'échantillon, donc en ce sens, la méthode ne ressemble pas à l'heuristique. Plus l'échantillon est grand, plus il est probable qu'il découvre un effet, s'il y en a un. Cependant, comme le notent les savoirs traditionnels, de nombreux praticiens du test de signification montrent ce type d'insensibilité. C'est comme s'ils pensaient à un type particulier d'heuristique de la représentativité en en utilisant un autre.

[3] Idées fausses sur le hasard . Encore une fois, c'est un problème de personnes plutôt que de procédure. Les gens ont de mauvaises intuitions sur le hasard, ce qui explique leur vulnérabilité à être exploité par les casinos, les loteries et les vendeurs d'assurance. Les tests d'importance ont des hypothèses sur le hasard intégré. Ils aident à produire la valeur p.

[4] Insensibilité à la prévisibilité. Ici, les savoirs traditionnels signifient que les jugements des gens sont influencés par de bonnes histoires. Ils prédisent la valeur (quelque chose de positif ou quelque chose de négatif) de la valeur de l'histoire tout en ignorant la fiabilité de l'histoire, par exemple, si elle est basée sur l'opinion d'experts ou par ouï-dire. Les tests de signification – et je suis sur une branche ici – ont ce qui semble être une caractéristique similaire (représentative). Les inférences qu'il suggère sur la vérité ou la fausseté de l'hypothèse nulle (c.-à-d., Les prédictions) sont basées uniquement sur les données, et non sur les autres hypothèses en jeu. Il peut arriver que la valeur de p sous la valeur nulle soit faible, mais que la valeur de p sous une hypothèse alternative soit encore beaucoup plus basse, auquel cas un bayésien soutiendrait qu'il y a une évidence relative en faveur de l'hypothèse nulle.

[5] L'illusion de la validité . Les savoirs traditionnels soutiennent que le recours à la représentativité favorise un faux sentiment de validité. Cela devrait être le cas si les gens s'appuient sur une heuristique qui n'est pas parfaitement valide. S'ils n'avaient aucune illusion de validité, ils ne compteraient pas sur l'heuristique. Quoi qu'il en soit, le test de signification – tel que noté dans la première phrase de cet essai – séduit les chercheurs de la même manière. Pensant que le test de signification est l'outil principal pour la découverte scientifique, ils ne peuvent que devenir trop confiants.

[6] Les idées fausses de la régression . C'en est une bonne. Dernier mais non perdu. Recherchant le génie et trouvant peu, Galton (Sir Francis) a "découvert" la régression (à la moyenne). Les fils des hommes exceptionnels n'étaient pas aussi remarquables. Aujourd'hui, nous connaissons la régression comme une caractéristique essentielle d'un monde probabiliste. Cependant, en pensant de manière représentative, nous prédisons A à partir de B comme si la corrélation entre les deux cas était parfaite même quand elle ne l'est pas. Dans le contexte des tests de signification, la régression se fait sentir lorsque les chercheurs supposent que des résultats significatifs se reproduiront. Ceci est lié aux points [2] et [5], et c'est principalement un problème des utilisateurs des tests et seulement un problème de la valeur p; p parle de sa propre réplicabilité, mais avec une voix très basse.

Le reste de l'histoire est ceci: TK intone dans la section de discussion longtemps oubliée de leur papier célèbre "Il n'est pas surprenant que les heuristiques utiles telles que la représentativité [. . .] sont conservés, même s'ils entraînent occasionnellement des erreurs de prédiction et d'estimation. "La voici: les savoirs traditionnels eux-mêmes affirment que ces heuristiques sont utiles et que nous ne devrions pas être surpris que les gens les utilisent. Si le test de signification est en effet – comme je l'ai essayé de le montrer – une version formalisée de l'heuristique de la représentativité, il peut encore y avoir encore de la vie.

Et qu'entend-on par "utile"? Une heuristique est utile si elle produit des jugements suffisamment précis et des choix à faible coût. Juste à quel point le test de signification et sa valeur p font à cet égard est encore débattu. Après quelques travaux de simulation, je commence à penser que les tests de signification ne sont pas aussi mauvais qu'ils le sont.

Note d'emploi. Job, homme ferme de la légende, a refusé de rejeter l'hypothèse selon laquelle Dieu était bon malgré des preuves accablantes du contraire.

Dans eigener Sache : je note tous mes messages sous la rubrique "vie sociale" et aussi sous un autre nom. Comme il n'y a pas de rubrique "statistiques", vous pouvez trouver ce message sous "spiritualité". Bon travail Job.

Tversky, A., et Kahneman, D. (1974). Jugement sous incertitude: Heuristiques et biais, Science, 185 , 1124-1131.

Association lâche : Si vous pouvez supporter une autre association disons 'à distance', celle-ci: Les critiques des tests de signification affirment que la méthode est biaisée par rapport à l'hypothèse nulle, c'est-à-dire que l'on accepte trop facilement . Cela signifie-t-il que l'hypothèse nulle souffre d'une « sensibilité au rejet »?

Ce post a été écrit par Ghost, Ovum Capu t.