« Il n'existe pas d'ensembles de données parfaits »

Hannah Casey © 2024 EPFL - CC-BY-SA 4.0

Hannah Casey © 2024 EPFL - CC-BY-SA 4.0

Dans le cadre de son master en humanités digitales, Hannah Casey a passé près d’un an à la Bibliotheca Hertziana de Rome pour créer une carte visuelle du catalogue de la bibliothèque.

Située à Rome, la Bibliotheca Hertziana est un institut d’histoire de l’art qui fait partie de la Société Max Planck. Elle comprend plus de 300 000 documents consultés par des historiennes et historiens de l’art du monde entier. Afin de créer une carte visuelle de l’ensemble du contenu de la bibliothèque, Hannah Casey, étudiante à l’EPFL, a exploité les métadonnées des documents pour parcourir l’histoire de la bibliothèque et mieux comprendre les tendances et les schémas de recherche.

« L’idée était de proposer un nouveau mode d’interaction avec la bibliothèque et son catalogue », déclare Hannah Casey.

« L’occasion idéale de tout apprendre sur les humanités digitales »

Le stage de Hannah Casey et, par la suite, son sujet de master ont vu le jour grâce à un projet totalement différent qu’elle avait entrepris : créer un sweat-shirt pour les étudiantes et étudiants de la Section des humanités digitales (DH). Pour sa réalisation, elle souhaitait utiliser une carte de la thèse de Dario Rodighiero, doctorant en humanités digitales. À cette époque, Dario Rodighiero travaillait à la Bibliotheca Hertziana sur un projet. Il avait pour idée de réaliser une cartographie de la bibliothèque.

« En voyant le potentiel de cette bibliothèque, il a pensé que ce serait un excellent projet », indique Hannah Casey.

Cela a débouché sur le stage de Hannah Casey et, finalement, sur son projet de master, dont Dario Rodighiero était directeur de thèse. Au départ, Hannah Casey avait prévu de passer quatre mois à la bibliothèque pour son stage, mais elle y est restée près d’un an.

« C’était très enrichissant de travailler dans le même bâtiment que des historiennes et historiens de l’art et d’autres humanistes digitaux. Tout en poursuivant mon projet, j’ai acquis de nombreuses connaissances dans ce domaine qu’il m’aurait été impossible d’acquérir autrement. C’était vraiment l’occasion idéale de tout apprendre sur les humanités digitales et d’approfondir mes connaissances en histoire de l’art. »

Pour Hannah Casey, ce projet combinait parfaitement des domaines qu’elle appréciait, l’informatique et l’histoire de l’art, ce qui l’a amenée à s’inscrire au programme de master en humanités digitales après avoir décroché un bachelor en informatique à l’EPFL.

« Les arts et les sciences humaines m’intéressent beaucoup. Ce sont des thèmes qui me manquaient dans mes études », confie Hannah Casey. « Les cours de sciences humaines et sociales sont ceux que j’ai le plus appréciés pendant mon bachelor. J’ai donc pris conscience que je devais trouver un équilibre entre les sciences humaines et l’ingénierie. Le diplôme d’humanités digitales me convenait en tous points : il est à mi-chemin entre ces deux matières et laisse plus de place à la créativité et à mes centres d’intérêt. »

Comment cartographier visuellement une bibliothèque

La cartographie visuelle consiste à prendre les nombreuses données disponibles dans un lieu comme une bibliothèque, et à les présenter de sorte qu’elles soient facilement accessibles et judicieusement exploitées. Normalement, pour y parvenir, vous prenez un ensemble de textes ou d’articles, et vous analysez les similitudes sémantiques par le biais du traitement du langage naturel pour trouver le lien entre les différents textes en utilisant des sujets et des mots similaires. Ensuite, ces textes ou articles peuvent être placés sur une carte à proximité les uns des autres s’ils sont similaires ou à distance les uns des autres s’ils ne le sont pas.

« Cette méthode aurait été très judicieuse », affirme Hannah Casey. « Mais nous n’avions pas ce type de données. »

Hannah Casey ne disposait que du titre, de la date et de l’autrice ou de l’auteur des ouvrages, ce qui, selon elle, n’aurait apporté aucun sens ni aucune nouvelle information. Toutefois, elle possédait un historique de 10 ans de données sur les emprunts des utilisatrices et utilisateurs, ce qui permettait de savoir qui avait emprunté quel document, à quel moment et pour quelle durée. Ainsi, elle pouvait regrouper les livres empruntés par la même utilisatrice ou le même utilisateur, et créer une carte des interactions entre les utilisatrices ou utilisateurs et la bibliothèque.

« C’est là que c’est devenu vraiment intéressant », dit-elle.

Grâce à une technologie de machine learning non supervisée appelée « réduction de dimensionnalité », elle a pu projeter cette matrice à haute dimension en deux dimensions et créer une carte. À partir de là, la question était de savoir comment ils pouvaient apprendre quelque chose de cette carte qu’ils ne connaissaient pas auparavant.

Hannah Casey a alors utilisé les grands modèles de langage avec une approche novatrice : elle a regroupé les différents titres – qui étaient dans de nombreuses langues différentes – en clusters, et elle a demandé au grand modèle de langage de donner des noms à ces clusters.

« Étonnamment, cela a bien fonctionné », indique-t-elle. « Il a vraiment réussi à donner des titres adaptés à ces clusters. J’ai ensuite présenté les titres aux spécialistes de la bibliothèque, aux responsables de département et à leurs assistantes et assistants scientifiques, c’est-à-dire à toutes les personnes qui connaissent très bien la bibliothèque et l’histoire de l’art. Ils ont pu déterminer la chercheuse ou le chercheur qui avait produit tel ou tel ensemble d’ouvrages. »

Bien qu’à l’heure actuelle ce prototype ne soit pas opérationnel, Hannah Casey a trouvé utile, dans les entretiens avec les utilisatrices et utilisateurs de la bibliothèque, le fait qu’il puisse montrer comment l’institut s’est développé au cours des dernières années, quels sujets sont intéressants, lesquels sont nouveaux et lesquels disparaissent. Selon Hannah Casey, cette cartographie, une fois mieux développée, pourrait servir à créer un système de recommandation, comme le fait Netflix.

« Cela m’a démontré que, si dans les écoles on nous présente toujours de beaux ensembles de données qui sont déjà parfaits, dans la vie ce n’est pas comme ça », dit Hannah Casey. « Il n’existe pas d’ensembles de données parfaits. En réalité, vous devez courir après les gens pour savoir où ces données sont enregistrées et pourquoi. »


Auteur: Stephanie Parker

Source: Institut des humanités digitales

Ce contenu est distribué sous les termes de la licence Creative Commons CC BY-SA 4.0. Vous pouvez reprendre librement les textes, vidéos et images y figurant à condition de créditer l’auteur de l’œuvre, et de ne pas restreindre son utilisation. Pour les illustrations ne contenant pas la mention CC BY-SA, l’autorisation de l’auteur est nécessaire.