Le «big data» au service de la biologie fondamentale

Nik Papageorgiou

Le «big data» au service de la biologie fondamentale

Des chercheurs de l’EPFL ont développé une nouvelle série d’outils de génétique systémique pour l’identification de liens nouveaux entre les gènes et les phénotypes. Ce travail met le cloud au service de la biologie et crée les conditions requises pour le développement de la médecine de précision. Il s’inscrit en outre pleinement dans les objectifs de l’EPFL visant à ouvrir au monde entier l’accès aux données scientifiques. L’étude est publiée dans Cell Systems.

La grande majorité des maladies complexes – telles que l’obésité, les troubles liés au vieillissement et le diabète – sont, pour la plupart, sous l’influence de facteurs génétiques. Mais elles sont aussi modulées par des stimuli liés à l’environnement, tels que l’activité physique ou un régime spécifique. Cette interaction entre l’environnement et la constitution génétique fait de chaque humain un être unique, et sous-tend la nécessité d’une médecine personnalisée.

Une telle approche faite sur mesure est fondée sur l’hypothèse que la prédiction comme le dépistage et le traitement d’une maladie diffèrent entre individus, et dépendent de leurs variations génétiques personnelles en lien avec l’environnement dans lequel ils vivent. Mais pour que la médecine personnalisée devienne une réalité, il est nécessaire de mieux comprendre comment la génétique, l’environnement et la maladie interagissent.

Dans cette optique, des centaines de groupes de recherche ont travaillé sur une population de souris, appelée BXD, dont le génome est parfaitement connu. Cette population est employée comme modèle pour étudier le fondement génétique des traits phénotypiques et des maladies. Durant plusieurs décennies, des milliers d’ensembles de données phénotypiques provenant de la souris BXD – allant de la couleur du pelage à la longévité – ont été recensés dans des banques de données.

En parallèle, des chercheurs ont aussi recensé de vastes ensembles de données moléculaires ayant trait à l’expression des gènes dans les différents organes de souris BXD – comme les niveaux d’ARNm, de protéines et de métabolites. Jusqu’à ce jour, la communauté BXD a recensé environ 300 millions de points liés à des phénotypes, générant ainsi le « phénome » non seulement le plus grand, et de loin, mais aussi le plus cohérent pour toute cohorte expérimentale animale (un phénome étant l’ensemble de tous les phénotypes exprimés au sein d’un organisme). En résumé, le phénome BXD est une ressource parfaite pour la modélisation de populations humaines dans le cadre d’études génétiques.

« Ces données phénomiques sont riches et étendues mais restent malgré tout largement sous-exploitées parce que, d’une part, elles sont difficiles d’accès et, d’autre part, les outils pour les analyser requièrent des compétences expertes » explique Johan Auwerx dont le laboratoire à l’EPFL a mené l’étude avec ses collègues en Allemagne, aux Pays-Bas et aux USA, ainsi qu’avec les professeurs de l’EPFL Kristina Schoonjans et Stephan Morgenthaler.

Les scientifiques ont abordé le problème en organisant toute la connaissance acquise dans une base de données ouverte qui intègre la totalité des 300 millions de points de données recensés dans la population de souris BXD. Les chercheurs sont en train de développer une « boîte à outils » facile à utiliser et qui peut être employée pour intégrer les différentes couches de données « omiques » de la population de souris BXD.

La boîte à outils est déjà en ligne sur systems-genetics.org, et devrait faciliter de manière significative la découverte de liens gène-phénotype et gène-gène. La ressource a déjà été employée par quelques scientifiques pour identifier des centaines de milliers d’associations de type gène-phénotypes, dont de nombreuses n’avaient pas encore été découvertes. « Un exemple frappant est le lien qui existe entre la protéine ribosomale Rpl26 et le poids corporel, » dit Hao Li, auteur principal d’un article publié aujourd’hui dans Cell Systems. « Les souris qui héritent ce gène d’un parent pèsent en moyenne 10g de plus que leurs cousins. »

La boîte à outils peut être appliquée à toutes les populations présentant des données multicouches et de nature distincte (ce que l’on nomme les « données multi-omiques »). Ceci permet l’emploi répété de données existantes dans le but de faire de nouvelles découvertes. « Les observations faites au sein de populations sont généralement robustes et se répercutent bien à travers les cohortes et les espèces – rendant ainsi les données pertinentes dans le cadre de la biologie humaine, » poursuit Li.

“Nous avons déposé toutes les données ainsi que la boîte à outils sur une plateforme publique, ce qui aidera les chercheurs à identifier et valider les fonctions des gènes qui les intéressent, » explique Auwerx, plaçant ainsi le projet parmi les efforts déployés par l’EPFL pour faire progresser la science en libre accès. « Cette ressource est l’une des premières véritables tentatives de mettre le cloud au service de la biologie, et de jeter ainsi les jalons d’une nouvelle ère des sciences de la vie. Bientôt, les médecins pourront employer des ressources de nature similaire pour le traitement personnalisé de leurs patients. »

Contributors

EPFL Institut de mathématiques (MATH) (Chaire de statistique appliquée)
EPFL Institut interfacultaire de Bioingénierie (IBI) (Laboratory of Metabolic Signaling)
Humboldt-Universität zu Berlin
Swiss Institute of Bioinformatics
Centre hospitalier universitaire vaudois (CHUV)
University of Colorado
University Medical Center Utrecht
University of Tennessee

Funding

China Scholarship Council
École Polytechnique Fédérale de Lausanne (EPFL)
Fonds national Suisse de la recherché scientifique (FNS)
Velux Stiftung
Kristian Gerhard Jebsen Foundation
Swiss Initiative for Systems Biology (AgingX program)
National Institutes of Health (NIH)

Reference

Hao Li, Xu Wang, Daria Rukina, Qingyao Huang, Tao Lin, Vincenzo Sorrentino, Hongbo Zhang, Maroun Bou Sleiman, Danny Arends, Aaron McDaid, Peiling Luan, Naveed Ziari, Laura A. Velázquez-Villegas, Karim Gariani, Zoltan Kutalik, Kristina Schoonjans, Richard A. Radcliffe, Pjotr Prins, Stephan Morgenthaler, Robert W. Williams, Johan Auwerx. An integrated systems genetics and omics toolkit to probe gene function. Cell Systems 29 November 2017. DOI: 10.1016/j.cels.2017.10.016

29.11.17

Images à télécharger

Crédit : J. Auwerx/EPFL

Actualités

Abonnement

Recevez un e-mail à chaque publication

Partager sur