Un article du DHLAB primé à la CHR conference

Sven Najem-Meyer et Matteo Romanello © CDH / 2023 EPFL

Sven Najem-Meyer et Matteo Romanello © CDH / 2023 EPFL

Sven Najem-Meyer (Laboratoire d’humanités digitales de l’EPFL) et Matteo Romanello (Institut d'archéologie et des sciences de l'antiquité de l’Université de Lausanne) remportent le prix du « meilleur article » à la troisième édition de la Computational Humanities Research (CHR) pour leur travail sur l’analyse de la mise en page de documents classiques.

Si l’article primé s’intitule « Page Layout Analysis of Text-heavy Historical Documents », c’est qu’il porte sur un type de documents bien particulier : les commentaires classiques. Dans le but d’en extraire automatiquement la mise en page, il propose une comparaison entre trois approches.

À l’origine de cette recherche, un problème récurrent pour les humanités digitales : si la reconnaissance optique de caractères affiche aujourd’hui des résultats satisfaisants, elle n’en dénude pas moins le texte de sa mise en page initiale. Le chercheur qui ne s'intéresse pas à l'intégralité du texte extrait se voit donc assigné à un patient travail de sélection, au cours duquel il devra isoler les régions parasites telles que les en-têtes, les numéros ou les notes de bas de page.

L’analyse de la mise en page vise à automatiser cette procédure. Elle y parvient avec des documents génériques (factures, journaux…), mais les textes classiques présentent des caractéristiques très inhabituelles. Et pour cause : une page de commentaire classique peut contenir des mots grecs, quelques lignes traduites, du grec à nouveau, et enfin des notes extrêmement denses en marge du texte. Les recherches sur ces documents complexes sont encore rares.

« Il s'agit de textes très spécifiques », explique M. Najem-Meyer. « Ce n'est pas le genre de textes dont un algorithme standard vient aisément à bout. Même ChatGPT s’y perd ! »

Figure de l'article avec les principaux éléments de mise en page d'un savant page de commentaire. © Najem-Meyer et Romanello / 2023 EPFL

MM. Najem-Meyer et Romanello ont comparé trois approches d’analyse de la mise en page. La première se contente de regarder l’image et d’en extraire des régions. La deuxième parcourt uniquement le texte et vise à le segmenter. Enfin, un modèle hybride utilisant l'image et le texte combine les deux premières approches. Non sans surprise, le modèle hybride s’incline face à l’approche visuelle, et ce bien qu’il ait accès à un plus grand nombre de données. Les chercheurs ont constaté que l’image était si informative que le modèle hybride ne tenait même pas compte du texte.

« C’est un cas de figure peu fréquent en machine learning, où plus signifie très souvent mieux », explique M. Najem-Meyer.

Lors de l’attribution du prix, le jury notamment souligné la rigueur de la comparaison et la transparence des auteurs quant aux limites de leurs résultats. « Ce sont de très vifs encouragements pour un jeune chercheur », déclare M. Najem-Meyer.


Auteur: Stephanie Parker

Source: Collège des humanités | CDH

Ce contenu est distribué sous les termes de la licence Creative Commons CC BY-SA 4.0. Vous pouvez reprendre librement les textes, vidéos et images y figurant à condition de créditer l’auteur de l’œuvre, et de ne pas restreindre son utilisation. Pour les illustrations ne contenant pas la mention CC BY-SA, l’autorisation de l’auteur est nécessaire.