«Les frontières entre l'antiquité et l'IA offrent un défi captivant»

© 2025 EPFL/Alain Herzog - CC-BY-SA 4.0
Sven Najem-Meyer du Digital Humanities Lab explore l'intersection de l'apprentissage automatique et des études classiques, en s'attaquant aux défis du traitement des documents pour les textes en grec ancien. Le 27 mars, il participera à la finale de « Ma thèse en 180 secondes » à l'EPFL.
Vous venez de soutenir votre thèse de doctorat. Pouvez-vous décrire votre projet en quelques phrases ?
Ce projet vise à améliorer les pipelines de traitement de documents dans un environnement très spécifique et peu documenté : les commentaires sur les œuvres grecques classiques.
Le traitement intelligent des documents est un domaine de l’apprentissage machine qui se focalise sur les étapes qui permettent de passer d’un document physique à un document lisible par une machine, de manière à pouvoir exécuter sur celui-ci des fonctions textuelles de plus haut niveau. Typiquement, on va commencer par numériser le document. Il faut ensuite extraire les textes à l’aide de la reconnaissance optique de caractères ainsi que la structure à l’aide de l’analyse de la mise en page. Une fois structurés, ces textes peuvent être stockés sous forme de données consultables, ce qui ouvre la voie à des opérations plus avancées comme la recherche d’information, l’extraction d’entités nommées ou la comparaison de textes à grande échelle.
Tout le sel de cette recherche se trouve dans la complexité des étapes requises par le traitement intelligent de ces documents — complexité qui a trait à leur nature même. Les commentaires classiques se caractérisent par une prose extrêmement spécifique et multilingue. Ils alternent constamment entre le grec ancien, le latin et la langue du commentateur, par exemple l’anglais ou le français. Nous appelons cette imbrication de différentes langues l’alternance codique (ou « code-switching »). Ainsi, ne serait-ce que pour extraire les textes, il vous faut déjà déchiffrer deux alphabets simultanément : l’alphabet grec (polytonique qui plus est) et l’alphabet latin. Ajoutez à cela le fait que nous disposons de très peu de données et vous avez la recette d’un travail de recherche très intéressant.
Comment avez-vous choisi ce sujet ?
Dans mon cas, le sujet a été naturellement déterminé par le projet de recherche auquel je me suis greffé, Ajax MultiCommentary. J’ai néanmoins bénéficié d’une certaine liberté académique et je pense que ma participation a fortement contribué à orienter le doctorat vers l’apprentissage automatique, notamment avec l’utilisation de modèles spécialisés. Quant à savoir comment j’en suis venu à travailler aux frontières de l’antiquité et de l’intelligence artificielle, je pense que cela me correspond très bien. Je suis ingénieur, mais j’ai toujours aimé le monde grec. Cette familiarité – pour ne pas dire cette tendresse – pour les sources est un atout très appréciable dans la vie d’un ingénieur en apprentissage machine : on peut toujours jeter un coup d’œil à ses données quand on fatigue !
Que trouvez-vous intéressant dans ce champ de recherche ?
L’aspect le plus intéressant de ce type de recherche très spécifique à un domaine est qu’il faut toujours trouver des solutions ad hoc à ses problèmes. C’est particulièrement vrai dans le domaine du traitement automatique du langage naturel, où les choses ont évolué si rapidement et si radicalement au cours de mon doctorat. Aussi puissant que soit le dernier modèle de langue, lorsque vous travaillez dans un environnement aussi spécifique, vous devez toujours bricoler. C’est à la fois frustrant et passionnant.
Pourquoi avez-vous choisi de faire votre doctorat au Collège des Humanités (CDH) de l’EPFL ?
J’ai été admis dans deux programmes de doctorat et j’ai dû faire un choix qui n’a pas été facile. J’ai choisi le CDH pour plusieurs raisons. En premier lieu, je suis souvent venu en Suisse par le passé parce qu’une partie de ma famille y vivait et je voulais essayer de m’y installer et d’y travailler pendant un certain temps. Deuxièmement, je savais que l’EPFL offrait un environnement très stimulant pour les doctorants, et je n’ai pas été déçu. Qu’il s’agisse d’installations informatiques ou de facilités plus générales liées au travail, tout est fait ici pour que les chercheurs puissent donner le meilleur d’eux-mêmes.
Lorsque vous ne travaillez pas sur votre recherche doctorale, qu’aimez-vous faire pendant votre temps libre ?
À l’époque où j’en avais encore – c’est-à-dire il y a environ 9 mois, juste avant la PIR (phase de rédaction intensive) – je me souviens que j’aimais jouer au volley-ball, lire toutes sortes de bouquins sur l’antiquité et regarder des films en noir et blanc. Il est grand temps de m’y remettre !