Peut-on mesurer la sophistication par écrit?

Pendant des décennies, nous avons eu des outils pour mesurer la complexité de l'écriture qui subsistent dans certains logiciels d'écriture comme «analyse de texte». Par exemple, les scores Flesch Reading Ease et Flesch-Kincaid comptent les syllabes et les mots dans les phrases. Cependant, la notation est tout sauf transparente. Pour arriver à un score Flesch, vous-ou, plus probablement, votre logiciel-vous comptez sur la formule:

206.835- (1.015 x Longueur moyenne de la peine) – (84.6 x Syllabes moyens par mot).

Alternativement, vous pouvez utiliser le Flesch-Kincaid plus convivial qui corrèle le score de Flesch avec le pourcentage estimé d'Américains qui peuvent comprendre le contenu mesuré par Flesch Reading Ease. Si un article marque entre 0 et 30, seuls les diplômés universitaires peuvent parfaitement comprendre le contenu. En revanche, un élève de cinquième année peut comprendre n'importe quel paragraphe dans la gamme 90-100, compréhensible à plus de 93 pour cent des Américains. Plus le score est bas, plus la lecture est facile. Vous pouvez essayer cette formule par vous-même. J'ai couru les œufs et le jambon vert de Dr. Seuss à travers les formules de Flesch-Kincaid et j'ai découvert que le livre avait un score improbable -1,3. Ce score suggère que le lecteur idéal de Green Eggs et Ham est un fœtus.

Des formules opaques et des résultats bizarres mis à part, les formules de lisibilité révèlent quelque chose de précieux sur la façon dont nous mesurons la complexité des phrases: le calcul ne fera que vous mener si loin. À ce jour, les études sur les élèves de l'enseignement primaire et secondaire ont mis en corrélation la sophistication croissante de l'écriture avec la longueur des phrases et des clauses. Cette corrélation est logique, puisque les phrases plus longues reposent sur des phrases et des clauses, un marqueur pour la commande d'un écrivain sur la structure de la phrase. Mais compter seul est problématique. Par exemple, compter les syllabes dans un mot pour déterminer sa difficulté peut fausser considérablement les mesures de complexité. Même un mot de deux syllabes peut varier considérablement dans les exigences qu'il impose à la compréhension du lecteur. Considérez la praxis et le baseball , les deux mots de deux syllabes. Alors que votre troisième élève moyen peut lire le baseball avec facilité, le mot praxis peut envoyer même quelques docteurs brouillant pour leurs dictionnaires.

Entrez dans le Lexile® Framework, un logiciel disponible dans le commerce qui utilise la longueur de la phrase combinée à la fréquence avec laquelle les lecteurs rencontrent souvent des mots. En plus de contenir un corpus de plus de 100 millions de livres, d'articles et de sites Web dans le monde entier, Lexile est également très influent dans la détermination des niveaux de lecture des matériaux dans l'enseignement primaire et secondaire. De plus, les partitions de Lexile apparaissent à côté des articles dans les bases de données de la bibliothèque, fournissant des partitions sur tout, d'un article dans un journal local ou The New Yorker aux livres. Mais les chercheurs se sont surtout concentrés sur la capacité de Lexile à déterminer la lecture adaptée à l'âge des élèves de l'enseignement primaire et secondaire. Cette omission a incité l'étudiante diplômée Samantha Miller et moi-même à mesurer la validité de Lexile dans l'évaluation de la sophistication globale des phrases et des paragraphes dans un article publié dans l'International Journal of Business Administration .

Nous avons trouvé que Lexile était fortement corrélé avec trois mesures robustes de sophistication textuelle, que nous avons mesurées en utilisant un logiciel qui mesurait dix-neuf mesures de la complexité de la structure de la phrase. Lexile est en corrélation étroite avec les trois mesures les plus robustes de la complexité des phrases: la longueur médiane des phrases et des clauses, ainsi que l'utilisation de nominaux ou de groupes nominaux complexes. Lexile est le plus fortement corrélé avec l'utilisation d'une phrase ou d'une phrase nominale complexe (p = <0,0001) et avec des longueurs médianes de clauses (p = <0,0002) et des longueurs médianes de phrases (p = 0,0013).

Le plat à emporter? Les algorithmes de Lexile déterminent avec robustesse la sophistication des mots en faisant correspondre les mots utilisés par les auteurs à un corps de 100 millions de textes toujours en croissance, précieux lorsqu'ils sont associés à d'autres mesures pour évaluer la complexité des phrases. Le résultat? Ces scores Lexile énigmatiques qui surgissent lorsque vous accédez à un article d'une base de données de bibliothèque prédisent de manière fiable la difficulté du contenu que vous êtes sur le point de lire.