Les femmes noires ne sont pas (notées) moins attrayantes! Notre analyse indépendante du jeu de données Add Health

[Cet article a été co-écrit avec Jelte Wicherts]

Dans son article de blogue intitulé «Pourquoi les femmes noires sont moins attrayantes physiquement que les autres femmes», le psychologue Satoshi Kanazawa de la London School of Economics (LSE) a conclu qu'il avait découvert que les femmes afro-américaines étaient «objectivement» moins attrayantes que les femmes américaines américaines, asiatiques américaines et amérindiennes. Les réponses immédiates et de grande portée à ses conclusions controversées ont conduit Psychology Today à changer d'abord le titre du blog et à le rétracter plus tard.

Quelques jours après l'apparition du message sur le site, une tempête de feu s'ensuivit. Les blogueurs du monde entier ont exprimé leur indignation face à ce message. Les réponses de nombreuses personnes étaient émotionnellement chargées, et à juste titre. Beaucoup de femmes afro-américaines, qui doivent faire l'expérience de la discrimination toute leur vie, ont été bouleversées et blessées. D'autres critiques ont tenté d'être analytiques, mais n'ont pas abordé les questions clés, ni attaqué tout le domaine de la psychologie évolutionniste à cause d'un membre de la discipline (voir mes pensées là-dessus). La plus grande organisation étudiante de Londres (120 000 étudiants) a exigé la libération de Kanazawa de LSE. Selon son porte-parole, LSE a entamé une enquête interne sur le blog, bien que le porte-parole du LSE ait souligné la liberté académique de ses chercheurs.

Nous sommes d'accord que les scientifiques ne devraient pas être renvoyés pour avoir fait des déclarations impolies qui pourraient offenser les gens. Cependant, la liberté académique n'implique pas le droit (1) de mal interpréter les données et (2) d'ignorer les résultats empiriques qui vont à l'encontre des affirmations énoncées.

Nous avons récupéré les données d'Add Health sur lesquelles Satoshi Kanazawa a basé ses conclusions pour voir si ses résultats résisteraient à l'examen. Add Health est une étude menée sur un échantillon représentatif national d'adolescents de la 7e à la 12e année qui ont été suivis jusqu'à l'âge adulte. L'étude comprend de nombreuses variables (plus de 8 000 dans les ensembles de données accessibles au public seulement), y compris des mesures de bien-être social, économique, psychologique et physique. Lorsque nous avons ouvert l'ensemble de données pour la première fois, nous étions submergés de variables! (Une chose que nous pouvons remercier Kanazawa est d'avoir soulevé cette question en premier lieu, car nous n'aurions probablement jamais normalement examiné les variables qu'il a faites.) De plus, il faut noter qu'avec autant de variables, il y a forcément de nombreux résultats statistiquement significatifs dans l'ensemble de données simplement en raison du hasard [1].)

Une fois que nous avons finalement localisé les variables pertinentes, nous avons effectué les analyses pertinentes et voici ce que nous avons trouvé:

1. Kanazawa mentionne plusieurs fois que ses données sur l'attractivité sont notées «objectivement». Les évaluations de l'attractivité faites par les enquêteurs montrent des différences extrêmement importantes en termes d'attrait qu'ils ont trouvé la personne interrogée. Par exemple, les cotes recueillies dans les ondes 1 et 2 sont corrélées à seulement r = 0,300 (une corrélation va de -1,0 à +1,00), ce qui suggère qu'un maigre 9% des différences dans les évaluations de deuxième vague d' un même individu peuvent être prédites sur la base des notes obtenues un an auparavant [2]. Les notes prises aux vagues 3 et 4 étaient corrélées entre les évaluateurs encore plus bas, à seulement .136 – même si les interviewés avaient atteint l'âge adulte d'ici là et ne devraient donc pas changer dans le développement physique aussi fortement que les adolescents. Bien que ces notes n'aient pas été prises en même temps, si les cotes d'attractivité ont moins de 2% de variance commune, il est difficile de se rallier à l'affirmation de Kanazawa selon laquelle l'attrait peut être évalué objectivement.

La faible convergence des résultats suggère que dans ce jeu de données très vaste et représentatif, la beauté est surtout dans l'œil du spectateur. Nous examinons ici des évaluations simples de l'attractivité des intervieweurs dont les goûts diffèrent assez fortement. Par exemple, un enquêteur (n ° 153) a noté que 32 femmes regardaient «à peu près la moyenne», tandis qu'un autre intervieweur (n ° 237) a trouvé presque toutes les 18 femmes qu'il jugeait «peu attrayantes». Évaluer l'attrait de la personne interrogée et parce que la plupart d'entre eux ont fait de nombreux entretiens et notations, cette source de variation doit être prise en compte lors du test des différences raciales moyennes dans les évaluations de l'attractivité. Kanazawa n'indique pas qu'il l'a fait.

2. Kanazawa interprète ses résultats en termes d'attractivité pour les adultes, mais la majorité de ses données étaient basées sur les cotes d'attractivité des participants lorsqu'ils étaient adolescents . Si beaucoup d'entre nous (y compris les auteurs de ce post) ont été jugés tout au long de notre vie sur la base de notre attrait physique à l'adolescence, beaucoup d'entre nous seraient en difficulté!

Ajouter Santé a actuellement quatre "vagues", ou phases. Voici un tableau des quatre vagues et des groupes d'âge des quatre vagues:

Notez que seule la Vague IV consiste en "Adultes". En fait, la fourchette d'âges pour les vagues I et II est de 12-22 ans, avec un âge moyen d'environ 16 ans pour les deux vagues.

Imaginez le scénario. Les chercheurs adultes (malheureusement nous n'avons pas pu trouver d'informations sur les enquêteurs eux-mêmes) sont allés chez ces participants et ont évalué leur propre opinion subjective de l'attrait physique des participants à l'étude sur une échelle allant de 1 à 5 inesthétique "à" très "attrayant"). Pour Waves I et II en particulier, les notations ne pourraient pas (nous espérons!) Faire référence à des évaluations de l'attrait sexuel de ces enfants. Donc, les discussions de ce sujet en utilisant des données provenant du site de rencontre OK Cupid ne sont vraiment pas appropriées ici.

Seulement dans les vagues 3 et 4, les participants étaient en moyenne assez vieux (M = 22,2, SD = 1,9 et M = 29,00 SD = 1,8, respectivement) pour être réellement appelés «femmes» et «hommes» au lieu de filles et garçons. Si l'on regarde les données des vagues (3 et 4) dans lesquelles toutes les personnes interrogées ont atteint l'âge adulte légal, la tendance des résultats ne supporte plus la conclusion principale de Kanazawa.

Dans la vague 3, nous avons trouvé une très légère différence dans les cotes d'attractivité en faveur des femmes européennes, mais cet effet n'est plus significatif après que nous ayons pris en compte la variation aléatoire due aux évaluateurs.

Cependant, seules les données de la vague 4 sont pertinentes pour le problème que Kanazawa veut aborder simplement parce que c'est la seule vague composée d'adultes (elles ont été recueillies lorsque tous les participants étaient des adultes âgés de 25 à 34 ans). Malheureusement, Kanazawa n'inclut pas la présentation de ces résultats de la quatrième vague, en dépit du fait qu'il utilise les données d'Add Health dans la plupart de ses études et ces données sont disponibles depuis plus d'un mois.

En se concentrant uniquement sur la vague 4, il est évident que parmi les femmes de l'échantillon, il n'y a pas de différence entre les ethnies en termes d'évaluation de l'attractivité physique . Les différences dans les distributions pour les femelles testées avec un test d'indépendance régulier (et légèrement libéral) sont non significatives et peuvent donc être attribuées au hasard (Chi-Square de Pearson = 15,6, DF = 12, p = 0,210). Voici le graphique qui montre la distribution des cotes (en pourcentages) pour 1564 Américains d'origine européenne, 553 Afro-Américains, 97 Amérindiens et 96 Asiatiques d'Amérique (avec des moyennes arithmétiques en dessous de chaque groupe):

Nous avons également analysé les données pour les hommes de l'échantillon et la même vague et constaté que les différences de groupe de race pour les mâles étaient significatives (Chi-Square de Pearson = 21,2, DF = 12, p = 0,048), avec des mâles noirs montrant une note globale d'attractivité légèrement supérieure à celle des autres ethnies ( Note : ce résultat n'est pas statistiquement valable, car il ne prend pas en compte la dépendance des points de données due à l'utilisation des mêmes évaluateurs). Voici ce graphique:

Puisque cette différence très mineure ne s'est pas manifestée à la vague 3, nous n'en ferions pas grand-chose.

Kanazawa prétend ne s'intéresser qu'aux vérités «dures» de la nature humaine. Et la vérité est la suivante: en tant qu'adultes, les femmes noires en Amérique du Nord ne sont pas jugées moins attrayantes par les enquêteurs de l'étude Add Health, qui est l'un des échantillons les plus représentatifs au niveau national jamais disponibles pour l'enquête .

Notez que les données auraient pu sortir n'importe comment, et peu importe comment il s'est avéré que nous aurions signalé ce que nous avons trouvé. Nous pensons qu'il s'agit d'un sujet d'enquête intéressant et important. D'autres recherches publiées rigoureusement évaluées par des pairs (impliquant un échantillon beaucoup moins représentatif et plus petit des États-Unis) ont montré des différences moyennes statistiquement significatives dans les évaluations d'attractivité basées sur l'origine ethnique.

Nous estimons cependant que de telles recherches devraient être tenues à un niveau plus élevé que d'autres sujets de recherche, tant en termes de rigueur scientifique que de présentation (voir ici pour un argument similaire). Cela devrait être particulièrement le cas pour les sujets qui pourraient potentiellement causer du tort et de la souffrance aux individus d'un groupe particulier. La science ne fonctionne pas dans le vide. Une collecte scientifique rigoureuse et des rapports scientifiques responsables sont essentiels non seulement pour le progrès de la science, mais aussi pour l'amélioration de la société (n'est-ce pas le but de la psychologie?).

Même si de bonnes recherches rigoureuses montrent finalement que les femmes noires sont notées différemment, en moyenne, par des caractéristiques pertinentes (bien qu'il soit hautement improbable de considérer la représentativité de cet ensemble de données), il peut en effet y avoir des implications pour le racisme. La manière de combattre le racisme n'est pas de l'ignorer (voir ici pour un argument connexe), mais de comprendre comment et pourquoi elle se développe, en divertissant toute la gamme des explications causales potentielles , de l'apprentissage biologique, culturel, bio-socioculturel. apprentissage.

Earl Hunt et Jerry Carlson proposent 10 principes de conception, d'analyse et de rapport qui doivent être soigneusement étudiés lors de la recherche ou de l'évaluation des différences de groupe (ils se concentrent sur les différences d'intelligence mais leurs principes s'appliquent également aux différences d'attractivité). Le document complet peut être téléchargé ici et nous espérons pouvoir offrir un ensemble de lignes directrices pour d'autres chercheurs qui décident de mener des recherches sur ce sujet ainsi que des blogueurs qui décident qu'ils veulent communiquer ces résultats à un public général.

Comme les chercheurs l'ont dit:

«Lorsque les scientifiques traitent des enquêtes pertinentes pour les politiques sociales immédiates, comme peuvent l'être les études sur les différences de groupe, les scientifiques ont le devoir d'appliquer un niveau de rigueur scientifique supérieur à celui qui serait nécessaire lorsque le but de la recherche est uniquement pour faire avancer l'exploration dans la science elle-même. Nous ne prétendons à aucun moment que certaines connaissances devraient être interdites au motif qu'elles pourraient être mal utilisées. Nous soutenons que lorsqu'il y a une chance que des résultats particuliers soient rapidement traduits en débats publics et en décisions politiques, il est du devoir du scientifique de s'assurer que ces conclusions sont de la plus haute qualité. "

Kanazawa ne suit pas ces directives dans toutes ses publications. Par exemple, dans un article sur les différences raciales dans le QI, il commet non seulement plusieurs erreurs théoriques, mais il omet également d'envisager d'autres explications. Incidemment, dans ce papier particulier, il a également supposé que la terre était plate!

La science, lorsqu'elle est faite correctement, est autocorrectrice. Les mauvaises sciences et interprétations sont remplacées par une science de meilleure qualité et des conclusions plus sensées et plus précises. Si vous souhaitez analyser le jeu de données Add Health vous-même, vous pouvez le faire! Vous pouvez demander votre propre copie de l'ensemble de données ici. Nous attendons avec intérêt d'autres discussions sensibles sur ces sujets importants, qui ont un impact important sur la vie de nombreuses personnes.

Vous pouvez télécharger un résumé plus complet et plus technique de notre analyse ici.

© 2011 par Scott Barry Kaufman et Jelte Wicherts

Suivez Scott sur Twitter ou Facebook . Contactez-le ici !

[1] Certains peuvent ergoter avec notre utilisation du mot "maigre" ici pour se référer à une corrélation de 0,30. Nous devrions noter que ces corrélations ne sont pas les corrélations typiques trouvées dans la psychologie différentielle (par exemple, le QI avec une certaine variable de personnalité), mais plutôt une analyse de l'accord inter-évaluateur. Sur la base des tableaux croisés, le Kappa de Wave1-Wave2 de Cohen pour les femmes est .196. Selon Landis et Koch, cela devrait être interprété comme un "léger accord". Kappa pour Wave3-Wave4 est .099- encore pire.

[2] Notre raisonnement ici est tiré de la théorie de la décision standard Pearson-Neyman. Si l'on suppose que l'hypothèse nulle est vraie pour, disons, 1000 tests potentiels, alors 50 de ces tests devraient être significatifs à alpha = 05. Si nous concluons sur la base de p <0,05 dans ces 50 cas qu'il y a bel et bien un effet, nous commettons des erreurs de type 1. Leurs résultats peuvent sans doute être appelés résultats de «hasard» parce que nous ne nous attendons pas à ce qu'ils soient réplicables simplement parce que l'hypothèse nulle est vraie.