Le Lisiscore est calculé par un algorithme que nous avons développé spécialement pour Lisible.
Cet algorithme tient compte des indicateurs ayant le plus d’incidence sur la lisibilité. Nous avons identifié plus de 60 phénomènes linguistiques (variables lexicales et variables syntaxiques) grâce aux recherches scientifiques récentes, notamment en psycholinguistique, psychologie cognitive et bien sûr en rédaction claire. Le modèle du Lisiscore a été entraîné sur un corpus original de textes techniques et administratifs divers, préalablement annoté manuellement. Grâce à l’apprentissage automatisé et à des techniques innovantes de traitement automatique du langage, nous avons intégré les 17 meilleures variables au Lisiscore, afin de le rendre plus généralisable et plus interprétable. Elles sont combinées via une régression linéaire multiple de type LASSO, qui bénéficie des avantages des techniques de régularisation largement utilisées dans le domaine de l’intelligence artificielle.
Le texte est analysé à l’aide d’un système d’analyse syntaxique automatisé capable d’identifier les formes canoniques des mots (lemme), leur catégorie de discours, leur fonction syntaxique dans la phrase, ainsi que d’autres informations pertinentes comme les relations de co-référence, une mesure du degré de subjectivité, etc. Dans un second temps, sur la base des informations produites par ce système, nous pouvons dégager les caractéristiques textuelles à détecter et automatiser la détection des variables utiles pour le calcul du Lisiscore.