Nettoyer ses données: un geste vert qui permet d'y voir plus clair

De gauche à droite: Nicolas Argento, Pierre Gönczy et Léo Burgy © 2024 EPFL/Alain Herzog - CC-BY-SA 4.0

De gauche à droite: Nicolas Argento, Pierre Gönczy et Léo Burgy © 2024 EPFL/Alain Herzog - CC-BY-SA 4.0

Avec une équipe de la Faculté des Sciences de la Vie, Pierre Gönczy a profité d’une migration informatique pour éliminer un tiers des données redondantes et anciennes de son labo. Une opération bénéfique non seulement pour l’environnement, mais surtout pour les personnes qui font la science.

A l’approche du Digital Clean Up Day le 16 mars, certains se demandent s’ils devraient prendre un moment pour trier leurs mails. D’autres plongeront peut-être dans leurs archives photos. Certains en tout cas connaissent déjà ce sentiment de légèreté après un grand ménage: c’est le cas du professeur Pierre Gönczy, de Léo Burgy, bio-informaticien au Gönczy Lab of Cell and Developmental Biology, et de Nicolas Argento, chef d’équipe dans l’unité d’informatique de proximité de la Faculté SV. Ensemble, ils ont réussi à faire passer les données scientifiques du labo d’environ 150 téraoctets (To) à moins de 100 en supprimant les doublons et les données inutiles dans le cadre d’une réorganisation complète de l’archivage.

«C’est un peu comme dans les opérations de nettoyage au bord du lac Léman: s’il n’y avait pas de déchets, il n’y aurait pas de récolte», sourit Pierre Gönczy. En plus de vingt ans, son labo a généré un volume considérable d’images et de données diverses, parfois répliquées avec d’infimes nuances ou encore renommées selon différentes logiques ou tout simplement versées aux archives sans réflexion.

Notre stockage souffrait d’un manque d’organisation, nous en étions conscients. Mais l’étendue du problème nous a étonnés.

Pierre Gönczy

Le projet est parti de la migration, en été 2023, du contenu de deux serveurs utilisés par le labo pour ses données chaudes vers la nouvelle plateforme RCP (Research Computing Platform) hébergée dans le récent data center de l’EPFL. «Nous avons saisi l’occasion pour unifier l’architecture de ces données, et élargi la démarche aux données froides», raconte Léo Burgy. Ces dernières étaient remisées dans le S3 (Simple Storage System) d’une façon qui les rendait très opaques et peu accessibles.

Nouvelles règles

Le trio s’est donc remonté les manches et a plongé durant plusieurs semaines dans les méandres numériques du labo. A la fin de l’année, tout avait été exploré, trié, nettoyé et réaménagé. Les données à conserver sont maintenant intégralement disponibles sur les serveurs RCP, avec des règles de classement et de permissions clarifiées. Et plus rien ne subsiste dans les abysses du S3.

«Les membres de l’équipe ne faisaient pas toujours la différence de traitement entre les données de recherche et les données administratives. Nous sommes donc tombés sur des sauvegardes intégrales de systèmes de fichiers, avec aussi quelques photos de vacances», relate Léo Burgy en décrivant le contenu retrouvé dans les archives froides.

Le nettoyage a non seulement débouché sur de nouvelles règles de conservation des données; il a aussi été l’occasion de mieux mettre à profit les outils de traitement et de stockage à disposition sur le campus, ajoute Nicolas Argento.

Selon le responsable IT, «l’histoire du labo fait qu’il est normal d’être arrivé à cette situation. Lorsque l’on met en place un laboratoire, on se concentre sur les procédures scientifiques. Les procédures de gestion de données ne deviennent nécessaires que quand le labo grandit. Et la façon de faire de la science a changé depuis le début des années 2000, avec ce que ça a généré comme données complexes. Enfin, depuis 10 ans, l’offre de stockage à l’EPFL a perpétuellement évolué, sans être toujours lisible. Aussi, la diversité des données générées dans une même expérience peut nous obliger à utiliser plusieurs outils de stockage. La compréhension de ces outils et l’acquisition des bonnes pratiques associées prennent du temps aux équipes.»

La bonne nouvelle, c'est que si un labo démarrait aujourd’hui avec ces procédures en place, le problème serait moindre !

Pierre Gönczy

Pour le professeur Gönczy, «maintenant qu’on est bien organisés, que tout est beaucoup plus simple et que tout le monde comprend comment ça se passe, l’ambition est de ne plus retomber dans l’ancien désordre. Nous avons même une procédure pour lier directement les microscopes aux serveurs. Si les gens se conforment à cette manière de faire, ça devrait marcher.»

Former et encadrer

Pierre Gönczy espère que l’exemple servira à d’autres collègues de la faculté et postule qu’une formation initiale à la gestion des données devrait être mise en place, à l’instar des formations en matière de sécurité dans les labos.

Un souhait repris par Nicolas Argento, qui plaide en outre pour l’instauration de data managers dans les laboratoires, afin que les outils qui permettent de générer, processer et stocker les données soient sous contrôle. Le problème, soulève Pierre Gönczy, c’est que cela devrait être pris sur les fonds de la recherche. «Le FNS ne va pas magiquement augmenter son enveloppe pour payer des data managers…»

Le professeur ajoute: «On devrait estimer le coût en salaire des personnes qui passent trente minutes au lieu de deux à trouver des données, à investiguer des outils ou réinventer des procédures. Malheureusement, il n’est pas possible de quantifier cela de manière simple. Et puisqu’on parle beaucoup de santé mentale, je pense que les gens seraient plus sereins s’ils avaient des dossiers mieux organisés et étaient guidés tout au long de leur travail à l’EPFL.» Cela laisserait aussi plus de temps à la science, renchérit le responsable IT de la faculté: «On passerait à un paradigme où le personnel de recherche n’a pas à trop réfléchir aux outils de stockage.»

Ainsi, dans le cas du laboratoire de Pierre Gönczy, c’est surtout une meilleure paix de l’esprit qui semble avoir été gagnée avec ce grand ménage. Selon Manuel Cubero-Castan, chef de projet numérique responsable au sein de l’unité Durabilité EPFL, la réduction d’émissions de gaz à effet de serre par an apportée par l’élimination des 53 To de données inutiles du Gönczy Lab peut approximativement se chiffrer autour des 600 kg, soit environ la quantité de CO2 émise par une personne lors d’un aller-retour sur un vol européen.

«Dans mon labo, nous avons un problème miniature par rapport aux types de données qui sont engendrées à l’EPFL, admet Pierre Gönczy. Mais peut-être que tous ensemble nous pourrions avoir un impact non négligeable sur la planète!» Selon lui, «dans certains centres, on acquiert massivement des données qui en 48 heures d’utilisation excèdent le volume de tout ce que nous avons réduit».

Et si l’on commençait tout simplement par considérer qu’alléger sa charge mentale est aussi une bonne action en matière de durabilité ?

Quelques conseils pour réduire vos données :

  • Munissez-vous d’une méthodologie de stockage et d’archivage des données au sein de votre unité.
  • Référez-vous à votre support IT de proximité pour des conseils sur le stockage chaud/froid de vos données.
  • En amont de tout nouveau projet, réfléchissez au cycle de vie des données générées.
  • Préférez une hiérarchie par projets plutôt que par personnes ; ainsi, une fois le projet terminé, il suffit de déplacer tout le dossier dans la partie archive. Le contrôle des permissions d'écriture/lecture sera plus fin et plus modulaire.
  • Si les données nécessitent une lecture par un logiciel spécialisé, n’oubliez pas d'y adjoindre ce dernier également.
  • Avant tout tri de données professionnelles ou personnelles, concentrez vos efforts sur les données les plus lourdes (par exemple, en utilisant des programmes de scannage de disques comme TreeSize ou Gemini2).

Auteur: Emmanuelle Marendaz Colle

Source: People

Ce contenu est distribué sous les termes de la licence Creative Commons CC BY-SA 4.0. Vous pouvez reprendre librement les textes, vidéos et images y figurant à condition de créditer l’auteur de l’œuvre, et de ne pas restreindre son utilisation. Pour les illustrations ne contenant pas la mention CC BY-SA, l’autorisation de l’auteur est nécessaire.