Comment l'apprentissage automatique va-t-il changer la science?
SÉRIE D’ETE: LES COULISSES DE LA SCIENCE - Depuis des millénaires, les scientifiques passent « artisanalement » les données au crible dans le but de trouver des modèles significatifs dans la résolution de problèmes complexes. Aujourd’hui, nombre de chercheuses et chercheurs pensent que l’apprentissage automatique va modifier fondamentalement la façon dont s’élabore la science.
L’apprentissage automatique qui a fait son apparition au cours des deux dernières décennies sera une technologie déterminante pour l’avenir. D’ores et déjà, il transforme de larges pans de la société, parmi lesquels les domaines de la médecine, de l’éducation, des transports, mais aussi des productions alimentaires et industrielles, et a un impact considérable sur la science et la recherche.
L’apprentissage automatique est une branche de l’intelligence artificielle (IA) qui permet aux ordinateurs d’apprendre sans programmation directe et par expérience. Il fonctionne à partir d’algorithmes pour identifier dans des corpus de données des motifs à partir desquels sont créés des modèles capables de réaliser des prédictions. La clé, ce sont les données. L’apprentissage automatique et la disponibilité sans cesse croissante de grandes quantités de données promettent de révolutionner la production de connaissances. En effet, le cycle de croissance exponentiel et vertueux que connaît aujourd’hui, entre autres, la technologie de l’apprentissage profond a été comparé à l’explosion cambrienne qui s’est produite il y a un demi-milliard d’années, au cours de laquelle la vie sur Terre a connu une brève période de diversification très rapide.
Le professeur James Larus, doyen de la Faculté informatique et communication (IC) de l’EPFL, est lui aussi d’avis que l’apprentissage automatique et l’IA auront à l’avenir une incidence profonde sur nos modes de vie, alors que nous ne percevons pas encore tout leur potentiel.
« À mon sens, l’apprentissage automatique est un outil extrêmement puissant, mais qui n’en est qu’à ses balbutiements et relève encore en quelque sorte de la “magie noire”. Nous donnons des cours d’apprentissage automatique, enseignons les mathématiques qui le sous-tendent et sommes en mesure de donner aux étudiantes et étudiants des exemples de la façon dont il a été appliqué dans le passé, mais nous ne pouvons pas leur fournir des principes parce que nous ne savons littéralement pas pourquoi il fonctionne aussi bien qu’il le fait.»
C’est sur cette question fondamentale que travaille Lenka Zdeborová. Professeure associée en physique, informatique et systèmes de communication au Laboratoire de Biophysique Statistique — qui fait partie de la Faculté des Sciences de Base (BS) et de la Faculté IC —, elle s’implique avec passion dans le développement de la théorie de ce qui est informatisable et de ce qui est rendu possible par l’apprentissage automatique et l’intelligence artificielle.
« En sciences, nous voulons mieux comprendre les objets que nous étudions ; l’objectif n’est pas fixé. Cet objectif, nous devons le trouver pour que le système d’apprentissage automatique serve à l’effort scientifique, et nous pencher sur le rôle joué par l’apprentissage automatique dans le changement de la méthode scientifique elle-même. C’est un domaine fascinant qui a émergé, l’apprentissage automatique ayant connu un grand succès au cours de la dernière décennie. »
Avec plusieurs collègues travaillant dans les domaines de la physique, de la chimie, de l’ingénierie et des sciences de la vie, Zdeborová vient de lancer une nouvelle série de cours de doctorat sur l’apprentissage automatique scientifique, qui explorera les derniers travaux entrepris au sein de l’EPFL ainsi qu’à l’échelle mondiale.
Une autre initiative de l’EPFL — le projet Machine Learning 4 Science, composante du cours d’apprentissage automatique des Professeurs de la Faculté IC Martin Jaggi et Nicolas Flammarion — institue des collaborations inter-campus en établissant des connexions entre des projets scientifiques menés par des laboratoires de toutes disciplines et des étudiants qui apporteront à de nouveaux domaines leur expertise en apprentissage automatique. Entre 2018 et 2020, plus de 600 étudiantes et étudiants ont ainsi participé à des projets proposés par 77 laboratoires de l’EPFL, ainsi que par des institutions externes à cette dernière, dont le CERN.
« Il s’agit là du cours de Master le plus important du campus. Des étudiants de toutes les disciplines veulent apprendre à utiliser cet outil, car ils savent qu’il leur sera utile pour leur carrière à venir. Ils ont la possibilité de se rendre dans n’importe quel laboratoire du campus et d’y travailler à un projet concret, de façon collaborative et interdisciplinaire. C’est vraiment un projet gagnant-gagnant, et je crois qu’il est légitime de dire que les deux parties ont le sentiment de bénéficier de cette structure », a déclaré Jaggi.
L’un des projets du dernier cycle, provenant du laboratoire de la professeure Cathrin Brisken de la Faculté des sciences de la vie (SV), portait sur un algorithme d’apprentissage automatique permettant de distinguer des cellules de souris de cellules humaines, s’avérant particulièrement utile pour la recherche sur le cancer. Les oncologues, qui étudient généralement les tumeurs en greffant des cellules humaines sur des souris, se heurtent ensuite à des difficultés pour distinguer les deux types de cellules. Cela impose le plus souvent plusieurs étapes de coloration par fluorescence et l’analyse de nombreux échantillons de tissus avant de retrouver les cellules humaines. Or, un programme créé par Quentin Juppet, étudiant au sein de la Faculté IC, a permis de simplifier tout cela en automatisant le processus de classification des cellules. Ce programme s’avère si prometteur que Juppet en a fait le sujet de son mémoire de Master, dont les résultats ont été récemment publiés dans le Journal of Mammary Gland Biology and Neoplasia.
Également issu de la Faculté SV, un autre projet consistait à utiliser l’apprentissage automatique pour catégoriser des phénotypes mutants à partir d’images d’embryons de poissons-zèbres. Le professeur Andrew Oates, doyen de cette faculté, est également le responsable du Laboratoire Timing, Oscillations, Patterns. « Mon laboratoire a participé à deux reprises et chaque fois, nous avons collaboré avec un groupe d’étudiants vraiment exceptionnel qui a fait preuve d’initiative et de créativité en s’attaquant à un véritable problème scientifique en laboratoire à l’aide de l’apprentissage automatique. À ma connaissance, ce projet est le premier dans le domaine de l’embryologie à avoir des répercussions sur une utilisation plus efficace du poisson-zèbre comme système de modélisation des troubles génétiques humains. Nous n’aurions pas entrepris ces travaux si nous n’avions pas eu la possibilité de nous associer à l’équipe de Machine Learning 4 Science », a-t-il déclaré.
D’autres travaux ont été consacrés à un panel de sujets de recherche d’une incroyable diversité : prédire la gravité d’un AVC grâce à des données du jeu pacman ; détecter automatiquement des surfaces de toiture disponibles pour l’installation de panneaux solaires ; prévoir les avalanches ; inventer une musique au-delà des modes majeur et mineur ou améliorer les mesures de la qualité de l’eau douce.
Pour James Larus, le futur est là, et il ne fera que nous étonner de plus en plus : « Actuellement, l’apprentissage automatique est basé sur un modèle du fonctionnement cérébral conçu dans les années 1940, qui n’était pas même correct à l’époque. Aujourd’hui, guidés par les dernières avancées en neurosciences, nous étudions l’apprentissage automatique s’inspirant du cerveau humain afin de développer des modèles plus sophistiqués, plus efficaces, et de construire la prochaine génération des systèmes d’intelligence artificielle. Je suis donc convaincu que nous allons vers une longue période de progrès dans le domaine de l’apprentissage automatique et à une expansion considérable du nombre d’applications concluantes. Et cela modifiera la science à jamais. »