Big Data : le challenge du stockage

© 2015 EPFL
Pour faire face à l'explosion du volume des données informatique qui circule sur le web, un nouveau domaine technologique a vu le jour : le Big Data. Une problématique qui touche également l’EPFL, grande productrices de données scientifiques. Considérées comme la matière première de demain, toutes ces données sont stockées sur des serveurs et des disques durs. Alors comment gérer cette production de données en constante augmentation? Et comment rivaliser avec les (très) nombreuses solutions bon marché du net ? Rencontre avec Sofiane Sarni, responsable du projet de stockage à l'EPFL.
L’EPFL offre une solution de stockage centralisée à tous les collaborateurs, laboratoires et étudiants depuis des années, mais cette infrastructure a atteint ses limites avec l’apparition du Big Data. La masse de données produites a explosé ! Du coup, il faut trouver des solutions afin de pouvoir gérer cette gigantesque quantité de données de manière fiable et économiquement viable autant pour l’EPFL que pour les principaux producteurs de données volumineuses : les laboratoires de recherche. Rencontre avec Sofiane Sarni, chef du projet « Stockage » à l’EPFL.
En matière de stockage, quelle est la principale évolution de ces dernières années ?
L’évolution principale est évidemment le volume de données produites qui devient très important, particulièrement dans les laboratoires, et chacun va chercher la solution qui lui convient le mieux en termes de prix ou de fonctionnalités. Ça peut être aussi bien des disques durs externes que des solutions de stockage de qualités (de type entreprise) en passant par des solutions cloud, comme Dropbox. Certaines semblent très intéressantes aux labos. Ces solutions font partie de ce qu’on appele le shadow IT, terme qui englobe toutes les solutions déployées dans les laboratoirees en dehors de celle offertes par les services informatiques centraux ou de facultés.
Les laboratoires ne devraient pas utiliser Dropbox ?
Les solutions de synchronisation de fichiers dans le cloud comme Dropbox ne sont pas toujours les plus appropriées. Les données produites dans un laboratoire peuvent avoir énormément de valeur et les solutions du Cloud sont beaucoup moins sécurisées que le service de stockage que nous proposons. Par exemple, la confidentialité des données enregistrées sur Dropbox ne peut pas être garantie. Avec notre service de stockage, les données sont enregistrées en territoire helvétique. Elles sont donc soumises au droit Suisse et accessible uniquement via une connexion sécurisée. De plus, des sauvegardes sont automatiquement générées dans des serveurs distants physiquement les uns les autres.
Les laboratoires sont-ils conscient de ce risque-là ?
Pas toujours. Le frein principal à l’adoption d’un stockage de qualité, c’est souvent les coûts. Il arrive que des chercheurs enregistrent leurs données sur des disques durs externes, mais si le disque dur tombe ou s’il est corrompu, toutes les données seront perdues. Au niveau du laboratoire, c’est un véritable drame.
Alors comment convaincre les labos avant que le drame ne se produise?
Nous faisons un gros travail de sensibilisation pour que les laboratoires se rendent compte de l’importance d’un stockage de qualité. De plus, les prix que nous pouvons maintenant proposer sont réellement intéressants. Quand nous avons démarré ce projet, la première étape a été de réaliser une analyse des besoins des laboratoires et ce qui revenait le plus souvent dans la discussion était le prix. Une solution de stockage chez Amazon peut paraître bon marché (si l’on ne prend pas en compte le coût de transfert des données) mais les disques durs externes achetés en grande surface le sont encore plus! Du coup, nous avons dû négocier des solutions très attractives tout en garantissant les fonctionnalités utiles à nos utilisateurs. Les prix que nous avons réussi à obtenir sont particulièrement bas, car nous avons travaillé sur un modèle financier totalement différent et nous bénéficions de subventions de l’EPFL. Il y a maintenant un équilibre entre le financement de l’école et l’investissement des laboratoires.
Combien ça coute ?
Chaque laboratoire se voir offrir le 1er Téra gratuitement, ensuite il y a 3 offres à choix : Si c’est pour du travail collaboratif, le prix sera de 300chf par Téra, et si c’est juste un espace de stockage de données de recherche, ils peuvent l’acheter pour 100chf avec une copie ou 200chf avec deux copies, selon l’importance des données et le budget dont ils disposent.
L’ancien modèle de stockage que nous proposions, très performant mais pas toujours adapté aux besoins des utilisateurs, coutait bien plus cher. Le prix du Téra dépassait les 4’000chf pour la plus haute qualité de service !
A force d’enregistrer des données toujours plus volumineuses, comment éviter à terme un phénomène de saturation ?
Là, on aborde la thématique de la gestion du cycle de vie des données (DLCM : Data Life Cycle Management). Et il n’y a qu’une seule option possible : faire du tri ! Les agences qui financent la recherche, comme l’Union Européenne, l’ont d’ailleurs bien compris. Elles demandent maintenant aux laboratoires de réaliser des Data Management Plan (DMP), c’est-à-dire que le laboratoire doit expliquer de quelle manière il produit ses données, comment elles sont stockées et comment il garantit que ces données seront accessibles après la fin de vie du projet. Cette situation oblige les chercheurs à développer une gestion efficace de leurs données. C’est inévitable.