Méfiez-vous des petites majorités

Galton Dans un post récent, j'ai soutenu que, bien que l'on puisse en dire beaucoup sur la rationalité fondamentale de la conformité humaine (et non humaine), il peut également y avoir des problèmes. L'exemple du jour était un concours de beauté. Avec trop de choix de copie parmi les femmes (les femmes choisissant des hommes que d'autres femmes choisissent), les femmes et les hommes peuvent souffrir, en moyenne.

Une autre limite est la taille de la majorité qui est copiée. Supposons que vous essayez d'estimer le nombre de billes dans un bocal en verre. Il y a plus de billes que vous pouvez compter. Pourtant, vous pouvez faire une estimation en utilisant votre impression de la taille du pot et la taille des billes individuelles. Supposons maintenant qu'on vous dise que 100 autres personnes ont déjà fait des estimations indépendantes les unes des autres et que 95% de ces estimations se situent entre 700 et 800. Avec cette information, votre meilleure stratégie est d'estimer qu'il y a 750 billes dans le pot. Si vous avez estimé le nombre à 200, vous vous reconnaissez comme une valeur aberrante, dont le jugement ne doit pas être approuvé. Utiliser l'information agrégée des estimations des autres, c'est comme utiliser la ligne de vie «interroger le public» sur «Qui veut être millionnaire?» Mais que se passerait-il si vous estimiez le nombre de billes à 200 avant de connaître les estimations des autres? Une fois que vous avez déterminé à quelle distance vous vous trouvez du reste du groupe, vous ne devriez pas vous opposer lorsque votre estimation est supprimée comme valeur aberrante.

En règle générale, il devient plus facile d'identifier les valeurs aberrantes lorsque le nombre d'observations augmente et que la variance ou ces observations diminuent. Supposons maintenant qu'il n'y en a que deux autres qui ont toutes deux donné une estimation haute, alors que vous avez donné une estimation basse. Faut-il admettre gracieusement que leurs estimations sont probablement plus précises que les vôtres parce qu'elles sont en accord les unes avec les autres, alors que vous n'êtes pas d'accord? C'est une pensée tentante. Peut-être que l'accord révèle l'exactitude même lorsque le nombre de personnes convenues est à son minimum logique.

Je vais maintenant faire valoir que l'accord est un simple proxy de l'exactitude, et pas un bon particulier à cela. Il est vrai que si tous les jugements sont exacts, ils seront tous d'accord les uns avec les autres. L'inverse, cependant, n'est pas vrai parce que les jugements peuvent être en accord pour des raisons qui n'ont rien à voir avec l'exactitude. L'une de ces raisons est le hasard.

L'alternative consiste à utiliser les trois jugements (les vôtres et les jugements des deux autres) et à calculer la moyenne. La moyenne est la meilleure estimation du paramètre latent que vous essayez de capturer. Selon cette approche, chacun des trois juges est un instrument de mesure indépendant et chaque jugement individuel est un composite d'information (vérité) et de bruit (erreur). Les erreurs sont supposées être indépendantes les unes des autres, et les jugements de moyenne les effacent.

Nous avons maintenant deux recommandations concurrentes sur la façon de procéder s'il y a deux jugements élevés et un jugement faible. (A) Retirer le jugement faible ou persuader le juge de l'extérieur de rejoindre la majorité; (B) moyenne des trois jugements sans préjudice contre l'un d'entre eux. Chaque méthode a ses avocats. L'argument principal pour A est que l'estimation basse est "évidemment" et aberrante et que l'accord indique l'exactitude [j'ai déjà remis en question cette idée]. De plus, les partisans de A croient que la discussion consensuelle entre les juges est toujours salutaire. Grâce à la discussion, les juges peuvent se rapprocher de la vérité. Mais quelle vérité? Si les deux hauts juges concèdent un peu et que le juge inférieur concède beaucoup, le résultat pourrait être la moyenne qui a déjà été calculée à partir des jugements originaux. Si oui, la discussion de groupe était un gâchis. Alternativement, si seulement le juge marginal concède (ce qui est susceptible de se produire sous une pression de conformité asymétrique), le résultat est ce que l'on obtiendrait en ignorant simplement le cas aberrant. Encore une fois, la discussion de groupe était une perte de temps et d'adrénaline. Une troisième possibilité est que le juge de l'extérieur concède un peu plus que les deux juges d'accord réunis. Le résultat est un jugement de groupe qui peut être décrit comme une moyenne pondérée où chaque poids individuel est proportionnel à la proximité du jugement par rapport à la moyenne globale. Cela semble bon comme une bonne idée, mais personne ne sait ce que les poids devraient être exactement. Il y a beaucoup de points entre les stratégies pures A et B, où le jugement pondéré peut finir. Par conséquent, je ne considérerai que A et B dans le reste de cet essai.

En utilisant deux principes statistiques, nous pouvons déterminer si A ou B est la meilleure stratégie sans faire appel à l'intuition, la plausibilité ou la tradition (nous l'avons toujours fait de cette façon!). La première méthode consiste à se demander dans quelle mesure l'ensemble des trois jugements observés est probable si l'on suppose que A ou B est correct. Supposons que les trois jugements sont 2, 2 et -2. Pensez à ces nombres comme un échantillon tiré d'une population avec un écart type de 1. Contrairement à la distribution normale standard, cependant, la moyenne n'est pas 0. Au lieu de cela, la moyenne est 2 si nous supposons que la théorie A est correcte, ou c'est .667 (2/3) si la théorie B est correcte. La probabilité conjointe de trouver 2, 2 et -2 (ou des nombres plus extrêmes) s'avère être 0,00008 sous la théorie A et .00003 sous la théorie B. Le rapport de ce dernier sur le premier est de 3,75, ce qui signifie que si les deux les théories ont été considérées aussi vraisemblablement vraies au début, la théorie B est presque quatre fois plus susceptible d'être vraie que la théorie A. Ce résultat signifie que si vous supprimez le jugement marginal (ou persuadez le juge dissident) de changer d'avis, vous perdez des informations importantes et le jugement de groupe qui en résulte devient pire.

La deuxième méthode consiste à demander ce qui se passerait si plus de jugements étaient recueillis auprès d'autres observateurs indépendants [notez qu'il n'est pas nécessaire d'obtenir ces jugements!] Nous supposons maintenant que la population des nombres sous-jacents à tous ces jugements est normale (M = 0, SD = 1). Par conséquent, l'ensemble des nombres associés à la théorie A après l'élimination ou la correction des valeurs aberrantes (2, 2, 2) est extrêmement positif. Si un autre ensemble de trois jugements était échantillonné dans la population, la moyenne résultante serait très probablement comprise entre 0 et 2, et plus proche de cette dernière dans la mesure où le processus de mesure est fiable. Comme la mesure n'est jamais complètement exempte d'erreur, nous nous attendons à une régression à la moyenne. En supposant l'ensemble des nombres donnés par la théorie B (2, 2, -2), la moyenne du deuxième échantillon de trois jugements serait très probablement comprise entre 0 et 2/3, et parce que 2/3 est moins extrême que 2, la taille de l'effet de régression attendu est plus faible sous la théorie B que sous la théorie A.

Comme le montre cet exercice, ignorer (ou intimider) les valeurs aberrantes dans un petit échantillon ne corrige pas l'effet de régression bien connu dans la mesure; Au contraire, ça fait pire. La meilleure estimation sous la théorie B (2/3) est probablement un peu plus élevée qu'elle ne le serait après un échantillonnage continu. Si quoi que ce soit, cette estimation devrait être réduite. En coupant la valeur aberrante, cependant, nous passons l'estimation du groupe de 2/3 à 2. En rendant l'estimation plus extrême, nous la rendons plus susceptible d'être gonflée positivement.

Illustrons l'effet de régression avec des nombres concrets. Si nous supposons avec optimisme que les jugements sont très fiables (r = .9), alors un jugement moyen de 2 (la moyenne de 2, 2 et 2) devrait se reproduire comme une moyenne de 1,8. En comparaison, un jugement moyen de 2/3 (la moyenne de 2, 2 et -2) devrait se reproduire comme .6. Notez qu'en vertu de sa plus grande extrémité, le premier jugement s'avère être plus gonflé que le dernier. Pourtant, selon le point de vue que l'accord stipule l'exactitude, le premier jugement est le meilleur. Si nous supposons de façon plus pessimiste que les jugements n'ont qu'une fiabilité modeste (r = 0,6), les effets de régression sont plus importants mais montrent le même modèle. Une moyenne originale de 2 régresse à une valeur prédite de 1,2, et une moyenne originale de 2/3 régresse à une valeur prédite de 0,4.

De peur que vous pensiez que cette histoire est trop abstraite et que les théories A et B ne me dérangent pas du tout, permettez-moi de souligner qu'elles importent beaucoup lorsque de petits comités décident des admissions, des financements, des promotions, etc. faire des recherches. Chaque proposition est notée par trois juges et les notes de chaque juge sont standardisées. Seuls les quelques meilleurs peuvent être financés. Une proposition avec des notes de 2, 2 et 2 est sûre, mais une proposition avec des notes de 1, 1 et 1 ne l'est pas. Maintenant, une troisième proposition est du genre discuté ci-dessus (2, 2, -2). Selon la théorie B (simple moyennage), cette proposition ne fait pas la coupe. Selon la théorie A (suppression des valeurs aberrantes), cette proposition dépasse la seconde et empêche éventuellement son financement. Donc la discussion de groupe peut faire beaucoup de dégâts. Si, comme dans cet exemple, les scores relativement élevés sont les plus intéressants, les propositions (personnes) avec une valeur aberrante négative seront sélectivement favorisées. Dans un contexte de financement ou de promotion, personne ne s'intéresse aux cas avec deux scores faibles et un score élevé.

La régression affecte également les décisions discrètes. Quand trois juges votent à l'unanimité pour financer un projet (promouvoir un collègue ou exonérer un suspect), il est imprudent de conclure que tout le monde serait d'accord si on le lui demandait. La probabilité réelle de 'aye' est [probablement] plus petite que sa probabilité dans l'échantillon si ce dernier est élevé. Si, par exemple, la probabilité réelle est de 9, la probabilité qu'un échantillon de 3 juges indépendants (c.-à-d. Que leurs jugements ne soient pas corrélés) sera unanimement favorable est .73. En d'autres termes, les événements rares (ici: votes négatifs) seront sous-représentés dans de petits échantillons. Ayant observé un échantillon de 3 juges unanimes, il est probable que le vrai consensus soit loin d'être parfait. Mais à quel point est-ce imparfait? Comment savons-nous combien de correction apporter?

Dans cet exemple, j'ai supposé qu'en vérité, p = .9, mais p pourrait avoir n'importe quelle valeur autre que 0 [car si p était 0, non oui vote pourrait se produire]. La solution élégante, proposée par Laplace, est de professer l'ignorance; c'est supposer qu'au départ, toutes les valeurs de p sont également probables. Après avoir observé un échantillon, nous pouvons nous demander quelle est la probabilité que cet échantillon soit tiré de chaque valeur possible de p. Clairement, un échantillon de 3 votes oui était le plus susceptible d'être tiré si p = .99, suivi par p = .98, et ainsi de suite à p = .01. Il faut un calcul intégral pour bien faire cela, mais sous l'hypothèse de l'ignorance, tout se résume à une formule simple et belle. La meilleure estimation, c'est-à-dire l'estimation qui minimise les erreurs de régression et les erreurs du type opposé, est (k + 1) / (n + 2), où k est le nombre de "succès" [ici, oui votes] et n est la taille de l'échantillon. Ayant observé 3 votes oui et aucune dissidence, l'estimation de Laplacian du soutien vrai dans la population est 4/5, ou p = .8. Ignorer Laplace et estimer p = 1, c'est commettre une erreur de régression d'un cinquième de l'estimation. Si l'échantillon était plus grand et si l'unanimité était toujours observée, les arguments en faveur d'une véritable unanimité seraient plus probants [par exemple, si 30 juges sur 30 échantillonnés votent oui, l'estimation de p est 31/32 ou .969].

Revenons aux panels sans parfaite unanimité. Si 29 ​​yea-sayers excluent un non-dire ou induisent un changement d'esprit, la présomption d'unanimité masque un effet de régression considérable (.094 = 1-.906). La même stratégie d'exclusion ou d'influence sociale donne une erreur de régression beaucoup plus grande dans un petit échantillon. Si 2 yea-sayers excluent ou convertissent un dissident, l'erreur est .4 (1-.6, où .6 est (2 + 1) / (3 + 2).

La logique de mesure, d'intégration de données et de correction d'erreur probable est difficile à vendre. Beaucoup de gens ont une aversion pour le nombre croquant parce qu'il semble mécanique. Il semble tellement plus humain d'avoir une conversation entre des gens raisonnables et de parvenir à un consensus. Le consensus est bon. Les membres de la majorité, qui prévaudront probablement, peuvent se fonder sur la croyance d'être à la fois correct sur le plan factuel et convaincant sur le plan social (ayant dissuadé un dissident). L'ancien dissident a au moins la satisfaction superficielle d'être accepté par le groupe. Les 3 juges dorment probablement bien ce soir-là, ne réalisant pas qu'ils ont commis une injustice. Dans l'exemple original, un bon cas sans variance initiale (1, 1, 1) se classe maintenant en dessous du cas qui est passé de (2, 2, -2) à (2, 2, 2). Dans un contexte de financement, où il existe une ligne de démarcation nette entre la vie et la mort, l'un des cas qui a chuté d'un cran parce que le dossier a été soulevé, va franchir cette ligne. L'irrationalité peut engendrer l'injustice.

Nous pouvons conclure que dans le type de prise de décision considéré ici, il est rationnel (et éthique) de traiter chaque jugement comme un échantillon indépendant de celui suggéré par la théorie B. Si les jugements sont continus, ils devraient être moyennés. Si les jugements sont discrets, ils devraient être convertis en proportions. Les deux types d'estimation peuvent être corrigés en fonction de l'erreur d'échantillonnage probable afin de lutter contre les effets de régression. Ce n'est pas sorcier, et les gens qui se soumettent à être jugés méritent d'être traités selon les meilleurs standards.

BTW, le monsieur sur la photo est Sir Francis Galton.