Un étudiant révolutionne le traitement automatique du langage naturel

La bibliothèque Beinecke à l'université Yale © iStock

La bibliothèque Beinecke à l'université Yale © iStock

Texthero est un nouvel outil qui permet d’obtenir une représentation des données de texte en quelques lignes de code.

L’ère des données dans laquelle nous évoluons aujourd’hui comporte son lot de défis. Parmi eux, l’analyse de ces amas d’information en constitue un de taille. C’est pour répondre à cette problématique que Jonathan Besomi, étudiant de Master en Data science de l’EPFL, a mis au point un outil qui facilite l'analyse des données textuelles. Son nom? Texthero. Développé sous la supervision du professeur Kenneth Younge (Chaire de technologie et stratégie d’innovation du Collège du management de la technologie de l’EPFL) au printemps dernier, ce paquet open source du langage informatique python a rapidement conquis les développeurs du monde entier.

«Texthero a été téléchargé plus de 23'000 fois à ce jour et comporte 2000 étoiles sur la plateforme Github», se réjouit Jonathan Besomi. «Dès sa sortie, il a rapidement reçu beaucoup d'attention médiatique et les gens ont commencé à le partager sur les réseaux sociaux, Twitter et LinkedIn principalement. C’est un signe que la demande pour un tel outil était particulièrement forte parmi la communauté python/NLP (traitement du langage naturel)», souligne-t-il.

Une représentation visuelle rapide

Grâce à Texthero, les développeurs peuvent rapidement visualiser et comprendre des données textuelles. Plus précisément, « Texthero permet, à partir d’un texte constitué de données non structurées, de le prétraiter (en le nettoyant), de le représenter (en le transformant en format numérique) et, finalement, de le visualiser », explique l’étudiant. « Cette solution permet de donner à l’utilisateur une idée globale de la structure du texte, initialement inconnue.»

C’est en travaillant sur Fastlaw, un projet d’analyse de texte juridique, avec le professeur Younge que les prémices de Texhero ont émergé dans l’esprit du jeune étudiant. «Fastlaw est un modèle de « word embedding » formé à partir d’un vaste corpus de données juridiques fournies par le Caselaw Access Project (CAP). Un projet dont l’objectif est de rendre librement disponibles toutes les décisions de justice américaine publiées», contextualise Jonathan Besomi. Un modèle que lui et Kenneth Younge ont présenté à la bibliothèque de l’université d’Harvard.

« En développant Fastlaw, j’ai réalisé qu’il y avait besoin d’un outil pour prétraiter, représenter et visualiser rapidement des données textuelles », souligne Jonathan Besomi. En effet, avant la création Texthero, les développeurs devaient utiliser de multiples outils, tels que spaCy, scikit-learn, Gensim ou encore NLTK, pour travailler avec des données provenant du langage naturel. Un processus chronophage et compliqué. « Grâce à Texthero, il suffit désormais de quelques lignes de code pour obtenir un graphique du texte à analyser.»

Nouvelle version à venir

À ce jour, 16 développeurs ont contribué à Texthero par le biais de demandes d'extraction sur Github. Ils ont corrigé des bugs, introduit de nouvelles fonctionnalités et amélioré la documentation. «Nous sommes sur le point de lancer une nouvelle version (1.1), afin d’améliorer encore la rapidité de traitement des textes», annonce Jonathan Besomi.

Le but du jeune homme est maintenant de renforcer et de faire grandir la communauté de Texthero, grâce à des articles de blogs ou encore des tutoriels, afin de démocratiser son utilisation. «Lorsque je pense aux milliards de données qui nous entourent et que nous n’arrivons pas à comprendre, l’analyse de texte – sous toutes ses formes – est pour moi l’avenir», affirme Jonathan Besomi, qui effectue actuellement son stage de Master chez IBM Research Zurich et rédige sa thèse sur l’analyse de texte. «Je suis passionné par ces questions et fier d’avoir créé un outil, simple et clair, visant à faciliter le traitement de la langue naturelle.»