Comment déterminer la complexité d'une phrase en anglais?

10

Je travaille sur une application pour aider les gens à apprendre l'anglais comme langue seconde. J'ai validé que les phrases aident à apprendre une langue en fournissant un contexte supplémentaire. Je l'ai fait en effectuant une petite recherche dans une classe de 60 élèves.

J'ai extrait plus de cent mille phrases de Wikipedia pour divers mots anglais (y compris les mots Barrons'800 et les 1000 mots anglais les plus courants)

Les données complètes sont disponibles sur https://buildmyvocab.in

Afin de maintenir la qualité du contenu, j'ai filtré les phrases de plus de 160 caractères car elles pourraient être difficiles à comprendre.

Dans une prochaine étape, je veux être en mesure d'automatiser le processus de tri de ce contenu dans l'ordre de facilité de compréhension. Je suis moi-même un anglophone non natif. Je veux savoir quelles fonctionnalités je peux utiliser pour séparer les phrases faciles des phrases difficiles.

Pensez-vous également que cela soit possible?

BuildMyVocab
la source

Réponses:

8

Oui. Il existe différentes mesures, telles que l'indice fogg. Textacy en python a une belle liste et des implémentations.

>>> ts.flesch_kincaid_grade_level
10.853709110179697
>>> ts.readability_stats
{'automated_readability_index': 12.801546064781363,
 'coleman_liau_index': 9.905629258346586,
 'flesch_kincaid_grade_level': 10.853709110179697,
 'flesch_readability_ease': 62.51222198133965,
 'gulpease_index': 55.10492845786963,
 'gunning_fog_index': 13.69506833036245,
 'lix': 45.76390294037353,
 'smog_index': 11.683781121521076,
 'wiener_sachtextformel': 5.401029023140788}
GrimSqueaker
la source
Vous pouvez également consulter l'entropie ou le pourcentage de mots uniques, mais les mesures ci-dessus sont plus pertinentes.
GrimSqueaker