L'IA dévoile comment le glucose avantage le virus Sars-CoV-2
Pourquoi certaines personnes contractent-elles une forme sévère du COVID-19 et en meurent, alors que d’autres ne semblent que très peu affectées ? Le Blue Brain Project de l’EPFL a mis à profit ses puissants outils technologiques de simulation cérébrale ainsi que son expertise en biologie cellulaire et moléculaire pour tenter de répondre à cette question.
Au Blue Brain, un groupe d’expert a mis au point un outil d’IA capable de lire des centaines de milliers d’articles scientifiques, d’en extraire les contenus pertinents et de les analyser - A machine-generated view of the role of blood glucose levels in the severity of COVID-19 a été publié dans Frontiers in Public Health, section Clinical Diabetes.
En réponse à la pandémie de Covid-19, une base de données contenant plus de 400 000 articles scientifiques, traitant du Covid-19, du SARS-CoV-2 et d’autres coronavirus, la CORD-19 (COVID-19 Open Research Dataset (CORD-19), a été rendue accessible. Cette base de données est la plus vaste collection de publications sur les coronavirus disponible à ce jour. La communauté à l’origine de cette initiative a mis au défi des experts en IA d’utiliser leurs compétences en matière de traitement du langage naturel et d’autres techniques de machine learning (apprentissage automatique) afin d’en extraire de nouvelles hypothèses ou conclusions susceptibles de contribuer à la lutte contre le Covid-19.
« Depuis début 2020, le Blue Brain contribue de façon proactive à la lutte contre le Covid-19 », explique le professeur Henry Markram, fondateur et directeur du Blue Brain Project. « Avec cet appel à l’action, nous nous sommes rendu compte que nous pouvions utiliser nos technologies de machine learning ainsi que notre expertise en ingénierie des données pour développer les outils d’exploration de texte et de données nécessaires, et tenter ainsi d’apporter une aide à la communauté médicale. Le Blue Brain s’est donné pour but de répondre à l’un des aspects les plus déconcertants de cette pandémie : le fait que certaines personnes contractent des formes graves de la maladie alors que d’autres ne sont que très peu affectées. »
Construction et utilisation des outils d’exploration de texte et de données
Ainsi, Le Blue Brain a généré et entraîné des modèles d’apprentissage automatique pour exploiter les données de ces articles et en extraire des informations structurées. Une analyse simple de l’ensemble des données de CORD-19v47 par cette boîte à outils d’exploration de textes « Blue Brain Search », a fait apparaître une série d’articles révélant le métabolisme du glucose comme la variable biologique la plus fréquemment mentionnée.
Utilisant Blue Graph, un outil basé sur Python qui analyse les concepts extraits de textes et les traduit en knowledge graph (graphes de connaissances), le groupe a généré des graphes de connaissances ciblés sur tout ce qui concerne le glucose dans le contexte des maladies respiratoires, des coronavirus et du Covid-19. Ceci a permis d’explorer le rôle potentiel du glucose à plusieurs niveaux, depuis son association la plus superficielle avec les symptômes du COVID-19, jusqu’aux mécanismes biochimiques les plus subtiles impliqués dans la maladie.
À partir des faits et résultats issus de milliers d’articles analysés, il est apparu que l’élévation de la glycémie était soit causée par un métabolisme anormal du glucose, soit due à l’hospitalisation, à des traitements médicamenteux ou de l’administration de perfusions. Cette approche a permis la correspondance avec la gravité du Covid-19 au sein de la population, et a révélé comment une glycémie élevée favorise pratiquement chaque étape de l’infection virale, depuis son apparition dans les poumons jusqu’ aux complications graves telles que le syndrome de détresse respiratoire aiguë, la défaillance multiple d’organes ou les accidents thrombotiques.
« Dans l’article, nous abordons aussi les conséquences potentielles de cette hypothèse, et nous proposons des investigations en matière de diagnostic, de traitement et d’intervention ou de recherches qui pourraient aider à réduire la gravité du Covid-19 et à maîtriser l’impact de la pandémie sur la santé publique », révèle le Dr Emmanuelle Logette, biologiste moléculaire.
Le potentiel des articles scientifiques en libre accès
« Les scientifiques se sont mis au travail dès le début de la pandémie et, en l’espace d’un an, ils avaient publié plus de cent mille articles. Mais qui peut lire une telle quantité d’articles ? Quelqu’un pourrait-il voir et comprendre l’ensemble des schémas qui se dégagent de toutes ces recherches ? », demande le professeur Henry Markram. "Par chance, le groupement à l’origine de la base de données CORD-19 a convaincu tous les éditeurs de publications de lever la barrière de la souscription payante et de mettre ces documents en libre accès pour qu’ils puissent être analysés à l’aide de technologies modernes d’apprentissage automatique et d’ingénierie des connaissances. »
« Avec l’accès des données de CORD-19, le Blue Brain a pu rapidement construire un outil d’IA afin de cibler des réponses à la question de savoir pourquoi certaines personnes souffrent de la maladie et d’autres pas. Est-il suffisant de dire que les personnes âgées sont plus vulnérables ? Il faut comprendre pourquoi. Pourquoi certaines personnes apparemment en bonne santé meurent-elles du Covid-19 ? Pourquoi tant de personnes décèdent-elles dans les services de soins intensifs ? Pour répondre à ces questions, nous avons demandé à notre IA d’effectuer un suivi de chaque étape de l’infection virale, du moment où le virus pénètre dans les poumons jusqu’au moment où il s’échappe des cellules pulmonaires pour se propager dans le corps tout entier et toucher les organes », explique le professeur Markram. « Par ailleurs, nous avons reconstruit le virus au niveau atomique et développé un modèle informatique des étapes de l’infection pour essayer d’évaluer ce qui ressortait de la littérature. » Et il conclut : « Je crois que nous avons trouvé la raison la plus plausible pour laquelle certaines personnes tombent plus gravement malades que d’autres. »
Comme autre exemple, l’équipe utilise Blue Brain BioExplorer pour représenter visuellement les principaux impacts d’un taux élevé de glucose dans le liquide de surface pulmonaire lors de la première phase de l’infections au niveau du poumon, et ainsi expliquer la sensibilité accrue aux virus respiratoires chez les patients à risque.
Blue Brain BioExplorer a été mis au point pour reconstruire, visualiser, explorer et décrire en détail la structure et la fonction du coronavirus dans le cadre de cette étude. Il est disponible en libre accès aux utilisateurs qui désirent s’en servir pour répondre à des questions scientifiques essentielles.
« L’approche novatrice de la simulation en neurosciences, qui permet de mieux comprendre le cerveau, a de nombreux avantages collatéraux », déclare le professeur Markram. « Cette étude montre comment il est possible de réorienter rapidement nos technologies informatiques et nos équipes d’experts multidisciplinaires afin de soutenir une crise sanitaire mondiale. »
Un grand pas en avant pour la science et la compréhension du cerveau
« L’étude menée sur le Covid-19 montre également pourquoi nous croyons que les outils de calcul informatique sont si importants pour nous aider à comprendre le cerveau », explique le professeur Markram. « Le problème est encore plus vaste. Nous aurions besoin de lire et comprendre plusieurs millions d’articles scientifiques afin de compiler tout ce que nous savons sur le cerveau. Y a-t-il quelqu’un qui sait réellement tout ce que nous savons ? Les machines, elles, sont à même de lire une telle quantité d’articles. C’est la raison pour laquelle le Blue Brain a développé et amplifié les technologies d’ingénierie des connaissances, des mathématiques et de l’apprentissage automatique parmi les plus avancées. En réalité, cela ne résout qu’une partie des difficultés. Avec un outil d’IA capable de lire tous ces articles, nous ne connaitrions toujours qu’une infime partie de ce que contient le cerveau et de la façon dont il fonctionne. Mais la création de cerveaux modelisés fondés sur des principes de base, nous aide dans notre tentative de compléter le tableau », conclut-il.
Est-il juste de ne rendre des articles scientifiques libres d’accès que pendant une pandémie?
Le professeur Markram a par ailleurs exprimé sa frustration face à une pratique très répandue : le verrouillage des connaissances scientifiques par les éditeurs sur souscription payante. « Lorsque nos équipes du Blue Brain ont pu avoir accès à l’ensemble des données CORD-19, cela nous a permis d’orienter nos moyens techniques vers le Covid-19 pour proposer une réponse à une question centrale dans la lutte contre ce virus meurtrier. Dès lors, est-il juste de ne rendre libres d’accès des articles scientifiques (financés par des fonds publics) que pendant une pandémie, alors que le même type de techniques pourrait être utilisé pour s’attaquer à tant d’autres maladies, pour accélérer le progrès scientifique et contribuer à sauver la planète du changement climatique ?
Emmanuelle Logette, Charlotte Lorin, Cyrille Favreau, Eugenia Oshurko, Jay S. Coggan, Francesco Casalegno, Mohameth François Sy, Caitlin Monney, Marine Bertschy, Emilie Delattre, Pierre-Alexandre Fonta, Jan Krepl, Stanislav Schmidt, Daniel Keller, Samuel Kerrien, Enrico Scantamburlo, Anna-Kristin Kaufmann, Henry Markram. A machine-generated view of the role of Blood Glucose Levels in the severity of COVID-19. Frontiers in Public Health, 28 July 2021. doi.org/10.3389/fpubh.2021.695139