Perversion académique

En tant qu'instructeur, je me suis fait un devoir d'adopter une politique d'évaluation unique pour mes étudiants. Plus précisément, tous les tests sont de style court et les révisions sont autorisées après la réception d'une note. Cela garantit que les élèves ont toujours une certaine motivation pour comprendre ce qu'ils ont mal et améliorer. En d'autres termes, je conçois mon évaluation pour encourager l'apprentissage. Du point de vue d'une perspective abstraite sur la valeur de l'éducation, cela semble être une perspective raisonnable à adopter (du moins pour moi, bien que je n'aie entendu aucun de mes collègues discuter de la méthode). C'est aussi, faute d'un meilleur mot, une chose stupide à faire, d'un point de vue professionnel. Ce que je veux dire ici, c'est que – sur le marché du travail – ma capacité à amener les étudiants à apprendre avec succès n'est pas exactement incitée, ou du moins c'est l'impression que d'autres personnes plus perspicaces m'ont transmises. Non seulement les membres des comités d'embauche ne sont pas particulièrement intéressés par le temps que je consacre à l'apprentissage de mes élèves (ce n'est pas la première chose qu'ils regardent, ou même dans le top 3, je pense), mais le temps que je passe investir dans cette méthode d'évaluation est le temps que je ne dépense pas à faire d'autres choses qu'ils apprécient, comme la recherche de subventions ou d'essayer de publier autant de papiers que je peux dans les points de vente les plus prestigieux disponibles.

Explosm.net
"Si vous êtes si intelligent, comment se fait-il que vous n'êtes pas riche?"
Source: Explosm.net

Et ma méthode d'évaluation implique beaucoup de temps. Lorsque chaque test prend environ 5 à 10 minutes et que vous faites des commentaires et que vous fixez une classe d'environ 100 élèves, des calculs rapides vous indiquent que chaque cycle de notation durera entre 8 et 16 heures. En revanche, je pourrais plutôt offrir à mes étudiants un test à choix multiple qui pourrait être gradué presque automatiquement, réduisant mon temps d'investissement à quelques minutes. Au cours d'un semestre, alors, je pourrais consacrer 24 à 48 heures pour aider les élèves à apprendre (à travers trois tests) ou je pourrais plutôt fournir des notes pour eux en environ 15 minutes en utilisant d'autres méthodes. Pour autant que tous les membres du comité d'embauche pourront le dire, ces deux options sont effectivement équivalentes. Bien sûr, on aide les élèves à mieux apprendre, mais être bon pour amener les élèves à apprendre n'est pas vraiment incitatif sur le plan professionnel . Ces 24 à 48 heures auraient pu être consacrées à la recherche de subventions ou de documents d'écriture et, ce qui est important, à 100 étudiants; Si vous enseignez trois cours ou plus par semestre, ce nombre augmente.

Ces incitations ne s'étendent pas seulement aux tests et au classement. Si les comités d'embauche ne sont pas tous concernés par les résultats d'apprentissage de mes élèves, cela a des répercussions sur le temps que je devrais consacrer à la conception de mon matériel de cours. Disons que j'étais confronté à la tâche d'enseigner à mes étudiants des informations que je ne connaissais pas très bien, que ce soit le sujet de la classe dans son ensemble ou une nouvelle information particulière dans ce sujet autrement familier. Je pourrais prendre le long chemin et me familiariser avec l'information d'abord, traquant les sources primaires pertinentes, les lisant en profondeur, évaluant leurs forces et faiblesses, aussi bien que recherchant la recherche de suivi sur la matière. Je pourrais aussi prendre le chemin rapide et simplement lire la section résumé / discussion de l'article ou simplement faire un rapport sur le résumé de la recherche fournie par les auteurs de manuels ou les documents de l'éditeur.

Si votre objectif est d'environ 12 semaines de matériel didactique, il est clair que la méthode économise le plus de temps. Si le fait d'avoir des cours bien documentés et pleins d'information sur lesquels vous êtes un expert n'est pas adéquatement motivé, alors pourquoi devrions-nous nous attendre à ce que les professeurs prennent la dernière voie? La fierté, peut-être – de nombreux professeurs veulent être bons dans leur travail et utiles à leurs étudiants – mais il semble que d'autres incitations poussent à ne pas consacrer du temps à une éducation de qualité si l'on veut se faire embaucher *. J'ai entendu parler de l'enseignement comme étant une distraction de la part de plus d'un instructeur, ce qui laisse clairement entendre que les incitations existent.

Les implications de ces préoccupations au sujet des incitations vont au-delà des frustrations personnelles que je pourrais avoir et elles commencent à avoir une plus grande part de l'attention. L'un des événements les plus récents mettant en évidence ce problème a été surnommé la crise de la réplication, où de nombreux résultats publiés ne sont plus apparus lorsque des équipes de recherche indépendantes les ont recherchées. Ce n'était pas non plus une minorité appréciable; en psychologie, c'était bien plus de 50% d'entre eux. Il y a peu de doute qu'une bonne partie de cet état de choses doit son existence à des chercheurs qui utilisent délibérément des méthodes discutables pour trouver des résultats publiables, mais pourquoi le feraient-ils en premier lieu? Pourquoi sont-ils si motivés pour trouver ces résultats? Encore une fois, la fierté joue un rôle dans l'équation, mais comme d'habitude, une autre partie de cette réponse tourne autour de la structure incitative du milieu universitaire: si les universitaires sont jugés, embauchés, promus et financés sur leur capacité à publier des résultats, ils sont incités publier autant de résultats que possible, même si les résultats eux-mêmes ne sont pas particulièrement fiables (ils sont aussi découragés d'essayer de publier des résultats négatifs, dans de nombreux cas, ce qui cause d'autres problèmes).

Un nouveau document fait le tour des discussions sur ces incitations dans les universités (Edwards & Roy, 2017), qui commence par une simple prémisse: les chercheurs universitaires sont des humains. Comme les autres humains, nous avons tendance à répondre à des motivations particulières. Bien que les structures d'incitation au sein du milieu universitaire aient pu être créées avec de bonnes intentions à l'esprit, il existe toujours une menace imminente de la loi des conséquences imprévues. Dans ce cas, ces conséquences inattendues telles que la loi de Goodhart, qui peut être exprimée comme telle: « Toute régularité statistique observée aura tendance à s'effondrer une fois qu'on la mettra sous pression à des fins de contrôle » ou « lorsqu'une mesure devient une cible , elle cesse d'être une bonne mesure . »Essentiellement, cette idée signifie que les gens suivront la lettre de la loi plutôt que l'esprit.

Flickr/alan schoolar
Source: Flickr / alan schoolar

Pour donner un exemple académique, une université pourrait vouloir engager des professeurs intelligents et perspicaces. Cependant, l'évaluation des renseignements et de la perspicacité est difficile à faire, donc, plutôt que d'évaluer ces traits, l'université évalue les mesures substitutives de ceux-ci; quelque chose qui a tendance à être associé à l'intelligence et à la perspicacité, mais n'est pas en soi une de ces choses. Dans ce cas, on peut remarquer que les professeurs intelligents et perspicaces ont tendance à publier plus de documents que leurs pairs. Parce que le nombre d'articles que quelqu'un publie est beaucoup plus facile à mesurer, l'université mesure simplement cette variable au lieu de déterminer qui embaucher et promouvoir. Alors que les registres de publication sont initialement de bons prédicteurs de la performance, une fois qu'ils deviennent la cible de l'évaluation, cette corrélation commence à décliner. Au fur et à mesure que les documents de publication devinrent le comportement cible sur lequel les gens sont évalués, ils commencent à maximiser cette variable plutôt que ce qu'ils devaient mesurer en premier lieu . Au lieu de publier moins de documents de qualité plein de perspicacité, ils publient de nombreux documents qui font un travail pire de nous aider à comprendre le monde.

Dans la même veine, les notes d'un étudiant sur un test standardisé peuvent être une bonne mesure de l'efficacité d'un enseignant; les enseignants plus efficaces ont tendance à produire des élèves qui apprennent plus et qui, par la suite, réussissent mieux au test. Cependant, si les enseignants pauvres sont ensuite pénalisés et qu'on leur dit d'améliorer leurs performances ou de trouver un nouvel emploi, les enseignants pourraient essayer de jouer le jeu. Maintenant, au lieu d'enseigner à leurs étudiants un sujet d'une manière holistique qui aboutit à un véritable apprentissage, ils commencent juste à enseigner à l'épreuve. Plutôt que d'apprendre, par exemple, la chimie, les étudiants commencent à apprendre à faire un test de chimie , et les deux ne sont décidément pas la même chose. Tant que les enseignants ne sont évalués que sur les notes de leurs élèves qui passent ces tests, c'est la structure d'incitation qui finit par être créée.

Flickr/biologycorner
Source: Flickr / biologycorner

Au-delà du simple impact sur le nombre d'articles que les universitaires pourraient publier, un certain nombre d'autres conséquences involontaires potentielles des structures d'incitation sont discutées. L'un d'entre eux implique des mesures de la qualité du travail publié. Nous pourrions nous attendre à ce que les articles significatifs théoriquement et empiriquement recevront plus de citations que le travail plus faible. Toutefois, étant donné que l'importance d'un article ne peut pas être évaluée directement, nous examinons des mesures indirectes, comme le nombre de citations (à quelle fréquence un article est cité par d'autres articles ou auteurs). La conséquence? Les personnes citant leur propre travail plus souvent et les pairs examinateurs demandant leur travail soient cités par des personnes cherchant à publier sur le terrain. Le nombre de citations inutiles est gonflé. Il existe également des incitations à publier dans de "bonnes" ou prestigieuses revues; ceux qui sont censés publier préférentiellement un travail significatif. Encore une fois, nous ne pouvons pas seulement évaluer la «bonne» qualité d'une revue, nous utilisons donc d'autres paramètres, comme la fréquence à laquelle les articles de cette revue sont cités. Le résultat net ici est à peu près le même, où les journaux préfèrent publier des articles qui citent des articles qu'ils ont déjà publiés. Pour aller plus loin, lorsque les universités sont classées selon certains paramètres, elles sont incitées à utiliser ces statistiques ou simplement à les déclarer incorrectement. Apparemment, un certain nombre de collèges ont été pris à mentir sur ce front pour obtenir leur classement, tandis que d'autres peuvent améliorer leur classement sans vraiment améliorer leur institution.

Il y a beaucoup de ces exemples que nous pourrions exécuter (et je vous recommande de consulter le document lui-même pour cette raison), mais le plus important point que je voulais discuter était de savoir ce que tout cela signifie sur une plus grande échelle. Dans la mesure où ceux qui sont plus disposés à tromper le système sont récompensés pour leur comportement, ceux qui sont moins enclins à tricher seront évincés, et là nous avons un vrai problème entre nos mains. Pour la perspective, Fanelli (2009) rapporte que 2% des scientifiques admettent avoir fabriqué des données et 10% déclarent s'engager dans des pratiques moins évidentes, mais toujours douteuses, en moyenne; Il rapporte également que lorsqu'on leur demande s'ils connaissent un cas de leurs pairs qui font de telles choses , ces chiffres sont d'environ 14% et 30%, respectivement. Bien que ces chiffres ne soient pas simples à interpréter (il est possible que certaines personnes trichent beaucoup, plusieurs connaissent les mêmes cas, ou que l'on soit prêt à tricher si l'occasion se présente même si ce n'est pas encore le cas ), ils devraient être pris très au sérieux comme une source de préoccupation.

(Il est également intéressant de noter qu'Edwards & Roy fait une fausse déclaration sur les conclusions de Fanelli en citant ses limites supérieures comme si elles étaient la moyenne, ce qui rend le problème de l'inconduite académique aussi grave que possible. que les erreurs suivent probablement la structure d'incitation, et pas seulement la triche, tout comme les chercheurs sont incités à surestimer leurs propres découvertes, ils sont également incités à surestimer les conclusions des autres pour les aider à faire valoir leurs arguments de manière convaincante)

Flickr/Jacob
Ce qui est ironique pour un document se plaignant des incitations à surestimer les résultats.
Source: Flickr / Jacob

Quand ce n'est pas seulement le fait qu'une poignée de pommes pourries au sein du milieu universitaire contribue à un problème de tricherie avec leurs données, mais plutôt une minorité appréciable, cela peut avoir au moins deux conséquences majeures. Premièrement, il peut encourager plus de non-tricheurs à devenir des tricheurs. Si je voyais mes collègues tromper le système et en être récompensé, je serais peut-être encouragé à me tromper juste pour faire face à des opportunités d'emploi ou de financement (très) limitées. Les parallèles peuvent être attirés par l'utilisation de stéroïdes dans les sports, où ceux qui ne veulent pas utiliser des stéroïdes au début pourraient être encouragés à le faire si suffisamment de leurs concurrents ont fait.

La deuxième conséquence est que, à mesure que davantage de gens prennent part à ce type de culture, la foi publique dans les universités – et peut-être plus généralement la recherche scientifique – s'érode. L'érosion de la confiance du public entraîne une réduction du financement et un scepticisme accru à l'égard des résultats de recherche; les deux réponses sont justifiées (pourquoi financeriez-vous des chercheurs auxquels vous ne pouvez pas faire confiance?) et inquiétantes, car il y a des problèmes importants que la recherche peut aider à résoudre, mais seulement si les gens sont prêts à écouter.

* Pour être juste, ce n'est pas que ma capacité en tant qu'enseignant soit totalement hors de propos pour les comités d'embauche; c'est que non seulement cette capacité est secondaire à d'autres préoccupations (c.-à-d. que ma capacité d'enseignement ne peut être évaluée qu'après avoir réduit la recherche par des subventions et des publications), mais ma capacité d'enseignement n'est pas évaluée. Ce qui est évalué, ce sont mes évaluations d'étudiants et ce n'est décidément pas la même chose.

Les références

Edwards, M. et Roy, S. (2017). La recherche académique au 21ème siècle: Maintenir l'intégrité scientifique dans un climat d'incitations perverses et d'hyperconcurrence. Environmental Engineering Science, 34, 51-61.

Fanelli, D. (2009). Combien de scientifiques fabriquent et falsifient la recherche? Une revue systématique et une méta-analyse des données d'enquête. PLoS One. 4, e5738