Sexisme, test et "capacité académique"

Lorsque j'enseignais mon cours de premier cycle en psychologie de l'évolution, mon approche des tests et de l'évaluation était unique. Vous pouvez lire plus en détail cette philosophie ici, mais l'essentiel de ma méthode évitait spécifiquement les formats à choix multiples en faveur des questions à court terme avec une capacité de révision illimitée de la part des étudiants. J'ai favorisé ce format d'examen pour un certain nombre de raisons, parmi lesquelles: (a) je ne pensais pas que les tests à choix multiple étaient très bons pour évaluer la compréhension du matériel par les élèves (la mémorisation et la bonne estimation n'équivaut pas à la compréhension); (b) Je ne me souciais pas vraiment de classer mes élèves autant que je tenais à les amener à apprendre le matériel. S'ils ne l'ont pas bien apprise lors de leur premier essai (et très peu d'étudiants le font), je voulais qu'ils aient la capacité et la motivation de continuer à s'engager jusqu'à ce qu'ils aient bien compris (ce qui a finalement été le cas). chaque examen a commencé autour de 70 et s'est élevé à 90). Aux fins de la discussion d'aujourd'hui, le point important ici est que mes examens étaient un peu plus cognitifs que d'habitude et, selon un nouveau document, cela signifie que j'avais involontairement biaisé mes examens de manière à défavoriser les «groupes historiquement mal desservis» comme les femmes et les pauvres.

Flickr/getradwithbrad
Oops…
Source: Flickr / getradwithbrad

Ce qui a attiré mon attention sur ce papier particulier, cependant, était le communiqué de presse initial qui l'accompagnait. Plus précisément, les auteurs ont été cités comme disant quelque chose que j'ai trouvé, eh bien, un peu étrange:

«À première vue, on peut supposer que les différences dans les performances d'examen sont basées sur la capacité académique. Cependant, nous avons contrôlé cela dans notre étude en incluant les moyennes cumulatives des notes des élèves dans notre analyse »

Les auteurs semblent donc croire qu'un écart de performance sur les tests académiques survient indépendamment des capacités académiques (quel qu'en soit le niveau). Cela a soulevé la question immédiate dans mon esprit de la façon dont on sait que les capacités sont les mêmes à moins d'avoir une méthode pour les tester. Il semble un peu étrange de dire que les capacités sont les mêmes sur la base d'un ensemble de tests (ceux qui fournissent des GPA entrants), mais de continuer à suggérer que les capacités sont les mêmes lorsqu'un ensemble différent de tests fournit un résultat contraire. Dans l'intérêt de régler ma curiosité, j'ai suivi le papier pour voir ce qui était réellement rapporté; après tout, ces petites annonces font souvent l'objet de fausses informations. Malheureusement, celui-ci semblait capturer les vues de l'auteur avec précision.

Commençons donc par examiner brièvement ce que les auteurs regardaient. L'article, de Wright et al (2016), est basé sur des données recueillies sur trois années de trois cours d'introduction en biologie couvrant 26 instructeurs différents, environ 5 000 étudiants et 87 examens différents. Sans entrer dans trop de détails inutiles, les tests ont été évalués par des évaluateurs indépendants pour leur degré de difficulté cognitive, leur format, et les étudiants ont été classés en fonction de leur sexe et de leur statut socio-économique (SES, selon qu'ils se sont qualifiés pour un programme d'aide financière). Afin de tenter de contrôler les aptitudes scolaires, Wright et coll. (2016) ont également examiné la moyenne pondérée cumulative des élèves qui entrent dans les cours de biologie (selon environ 45 crédits, nous dit-on). Parce que les auteurs contrôlés pour GPA entrants, ils espèrent persuader le lecteur de ce qui suit:

Cela implique que, par au moins une mesure, ces étudiants ont des capacités académiques égales, et s'ils ont des résultats différents sur les examens, alors des facteurs autres que la capacité influencent probablement leur performance.

Maintenant, on pourrait dire qu'il y a plus de capacités académiques que ce qui est capturé par un GPA – ce qui est précisément la raison pour laquelle je le ferai dans une minute – mais continuons avec ce que les auteurs ont trouvé en premier.

Test de provocation cognitive étaient en effet, bien, plus difficile. Par exemple, un étudiant de sexe masculin statistiquement moyen devrait subir une baisse d'environ 12% sur le test le plus difficile de son échantillon, par rapport au test le plus facile. Cependant, cet effet n'était pas le même entre les sexes. Encore une fois, en utilisant des hommes et des femmes statistiquement moyens, lorsque les tests étaient les moins cognitifs, il n'y avait pas d'écart de performance (environ 1,7% de différence attendue en faveur des hommes); Cependant, lorsque les tests ont été les plus difficiles cognitivement, cet écart prévu a atteint un étonnant attendu … 3,2% de différence. Ainsi, alors que la différence entre les sexes a presque doublé nominalement, en termes de vraiment important dans un sens pratique du mot, sa taille était telle qu'elle ne serait probablement pas remarquée à moins qu'on la cherche vraiment. Une tendance similaire a été découverte pour le SSE: lorsque les tests étaient faciles, il n'y avait effectivement aucune différence entre ceux qui étaient faibles ou élevés en SSE (1,3% en faveur de ceux qui étaient plus élevés); cependant, lorsque les tests étaient sur le point d'être au maximum difficiles, cette différence attendue s'est élevée à environ 3,5%.

Flickr/Landon
Utile à la fois pour repérer les blips statistiques et les insectes brûlants
Source: Flickr / Landon

Il y a beaucoup à dire sur ces résultats et sur la façon dont ils sont encadrés dans le document. Premièrement, comme je l'ai mentionné, ce sont vraiment des différences mineures; Il y a très peu de cas où une différence de 1 à 3% dans les résultats des tests va créer ou casser un étudiant, donc je ne pense pas qu'il y ait une réelle raison de s'inquiéter ou d'ajuster les tests; pas pratiquement, de toute façon.

Cependant, il y a des problèmes théoriques plus importants qui se profilent dans le document. L'un d'entre eux est que les auteurs utilisent si souvent l'expression «contrôlé pour la capacité académique» qu'un lecteur pourrait en fait croire que c'est ce qu'ils ont fait à partir d'une simple répétition. Le problème ici, bien sûr, c'est que les auteurs ne contrôlaient pas cela ; ils ont contrôlé pour GPA. Malheureusement pour la présentation de Wright et al (2016), ces deux choses ne sont pas des synonymes. Comme je l'ai déjà dit, il est étrange de dire que la capacité académique est la même parce qu'un ensemble de tests (GPA entrante) dit qu'ils le sont alors qu'un autre ensemble ne le fait pas. L'ancien ensemble de tests semble être privilégié sans raison valable. En raison de cette interprétation injustifiée, les auteurs perdent (ou plutôt, suppriment délibérément) la capacité de parler de la façon dont ces écarts pourraient être dus à une différence de performance. C'est une démarche rhétorique utile si l'on veut faire du plaidoyer – car cela implique que l'écart est injuste et devrait être réparé d'une manière ou d'une autre – mais pas si l'on cherche la vérité de la question.

Une autre question plutôt importante dans le document est que, autant que je sache, les auteurs ont prédit qu'ils trouveraient ces effets sans jamais vraiment fournir une explication quant à comment ou pourquoi cette prédiction est survenue. Autrement dit, qu'est-ce qui a motivé leur espoir que les hommes surclasseraient les femmes et que les riches surpasseraient les pauvres? Cela finit par poser un problème car, à la fin du document, les auteurs émettent quelques explications possibles (non testées) de leurs découvertes. Le premier d'entre eux est la menace de stéréotype: l'idée que certains groupes de personnes feront mal sur les tests en raison de certains stéréotypes négatifs sur leurs performances. C'est un mauvais ajustement pour les données pour deux raisons: d'abord, alors que Wright et al (2016) prétendent que le stéréotype est «bien documenté», il ne parvient pas à se répliquer (en plus de ne pas avoir beaucoup de sens théorique). Deuxièmement, même si c'était une réalité, la menace du stéréotype, comme elle l'a généralement étudié, exige que le sexe soit saillant avant le test. Comme j'ai rencontré un total de zéro tests pendant toute mon expérience universitaire qui a rendu mon sexe saillant, et encore moins mon SES, je peux seulement supposer que les tests en question ne l'ont pas fait non plus. Pour que la menace de stéréotype fonctionne comme une explication, alors, les femmes et les pauvres devraient être sous la menace d'un stéréotype constant relatif. À son tour, cela rendrait la documentation et la menace de stéréotype de l'élève plutôt difficile, car vous ne pourriez jamais avoir une condition où vos sujets ne l'éprouvaient pas. En bref, alors, la menace de stéréotype semble être un mauvais ajustement.

Les autres explications qui sont avancées pour cette différence entre les sexes sont la possibilité que les femmes et les élèves pauvres aient des visions fixes de l'intelligence plutôt que de la croissance, de sorte qu'ils se retirent du matériel lorsqu'ils sont contestés plutôt qu'améliorés (c.-à-d. mentalités pour combler cette lacune impressionnante de 2%), ou la possibilité que les questions elles-mêmes soient rédigées de manière à biaiser subtilement la capacité des gens à y réfléchir (l'exemple soulevé par les auteurs est qu'une question écrite sur l'application d'un concept au sport pourrait hommes, par rapport aux femmes, car les hommes ont tendance à faire plus de sport). Étant donné que les auteurs ont eu accès aux questions du test, il semble qu'ils auraient pu examiner cette dernière possibilité au moins en détail (peut-être en examinant si les tests écrits par des instructrices ont donné des résultats différents de ceux écrits par les hommes). ou en examinant le contenu des questions elles-mêmes pour voir si les femmes ont fait pire sur les questions sexospécifiques). Pourquoi ils n'ont pas fait de telles analyses, je ne peux pas dire.

Flickr/Stephen Downes
Peut-être que c'était trop de travail et qu'ils manquaient de mentalité de croissance
Source: Flickr / Stephen Downes

En résumé, ces différences moyennes très mineures qui ont été découvertes pourraient facilement être tracées – très simplement – à GPA n'étant pas une mesure complète de la capacité scolaire d'un étudiant. En fait, si les tests déterminant le GPA de première année ne sont pas les plus stimulants sur le plan cognitif (comme on pourrait s'y attendre, étant donné que les étudiants auraient suivi des cours d'introduction générale avec de grandes classes), les étudiants sembleront plus semblable en capacité qu'ils étaient réellement. On peut penser à utiliser cet exemple stéréotypé-masculin (qui va sûrement empêcher les femmes d'y penser): imaginez que j'ai testé des personnes dans une pièce avec des poids allant de 1 à 15 livres et leur ai demandé de boucler chaque fois. Cela me donnerait un mauvais sens pour les différences de force sous-jacentes parce que la gamme de capacités testées était restreinte. Pourvu que je leur demande de faire la même chose avec des poids allant de 1 à 100 livres la semaine prochaine, je pourrais conclure que c'est quelque chose à propos des poids – et non des capacités des gens – quand il s'agit de comprendre pourquoi les différences émergent soudainement. croire à tort que j'ai déjà contrôlé pour leurs capacités la première fois).

Maintenant, je ne sais pas si quelque chose comme ça est réellement responsable, mais si les tests déterminant la première année GPA exploitaient les mêmes types de capacités aux mêmes niveaux que ceux des cours de biologie étudiés, alors contrôler pour GPA aurait dû prendre soin de cela problème potentiel. Puisque le contrôle de GPA n'a pas fonctionné, je me sens en sécurité en supposant qu'il y ait une différence dans les tests en termes de capacités qu'ils mesurent.

Références: Wright, C., Eddy, S., Wenderoth, M., Abshire, E., Blankenbiller, M., & Brownell, S. (2016). La difficulté cognitive et le format des examens permettent de prévoir les écarts entre les sexes et les écarts socioéconomiques dans la performance des élèves aux cours d'introduction à la biologie. Éducation aux sciences de la vie, 15.