Deux plateformes d'IA révolutionnent la conception moléculaire

©iStock (Khanchit Khirisutchalual)
Des chercheurs de l'EPFL ont mis au point Saturn et TANGO, deux cadres d'IA complémentaires qui permettent une conception moléculaire générative plus rapide, plus efficace et plus proche de la chimie réelle en laboratoire.
Concevoir une nouvelle molécule médicamenteuse revient à chercher une aiguille dans une botte de foin d’une taille presque inimaginable. L’intelligence artificielle générative (GenAI) offre une solution : il s’agit de systèmes qui apprennent des modèles à partir de vastes ensembles de données, puis génèrent de nouveaux contenus, tels que du texte (ChatGPT), des images ou du code.
En chimie, la GenAI peut proposer des structures moléculaires entièrement nouvelles. Mais deux obstacles majeurs subsistent : de nombreux modèles nécessitent des évaluations trop coûteuses en termes de calcul, et bon nombre des molécules qu’ils proposent sont difficiles à synthétiser.
Combler ce fossé entre la découverte efficace et la faisabilité dans le monde réel est l’un des principaux défis de la chimie moderne axée sur l’IA.
Des molécules virtuelles aux candidats exploitables
Dans la conception moléculaire générative, un modèle d’IA propose des molécules candidates, un « oracle » computationnel les évalue, et le modèle apprend à partir des résultats. Ces oracles peuvent estimer des propriétés telles que la capacité d’une molécule à se lier à une protéine cible, ou calculer des propriétés électroniques à l’aide de simulations basées sur la physique, plus coûteuses.
Le défi réside dans le fait que les oracles les plus précis sont souvent trop lents pour être utilisés à grande échelle. Les chercheurs ont donc généralement recours à des approximations moins coûteuses dans un premier temps, avant de tester un ensemble plus restreint de candidats à l'aide de méthodes plus précises. Un modèle plus efficace en termes d'échantillonnage — c'est-à-dire capable de trouver de bons candidats avec moins d'évaluations — permettrait d'utiliser des simulations plus précises plus tôt dans le processus de conception.
Un deuxième défi est celui de la synthétisabilité. Une molécule qui semble excellente sur ordinateur n’a qu’une utilité limitée si les chimistes ne peuvent pas la fabriquer, ou si sa synthèse prévue dépend de matières premières indisponibles ou peu pratiques.
Une équipe dirigée par Philippe Schwaller à l’EPFL s’est maintenant attaquée à ces défis dans le cadre de deux études complémentaires publiées dans Nature Machine Intelligence et Nature Computational Science.
Saturn : tirer davantage d'enseignements de chaque molécule
La première étude présente Saturn, un cadre génératif pour la conception moléculaire basé sur l'architecture Mamba, une alternative récente aux Transformers pour la modélisation de séquences. À l'instar d'autres modèles chimiques basés sur le langage, Saturn représente les molécules sous forme de chaînes SMILES : des descriptions de type texte de la structure moléculaire.
« Le goulot d'étranglement n'est pas le modèle d'IA en soi ; c'est le nombre de molécules qu'il faut tester avant d'en trouver de bonnes », explique Jeff Guo, ancien doctorant au laboratoire de Schwaller et auteur principal des deux études. « Si nous parvenons à faire apprendre le modèle plus rapidement, nous pouvons nous permettre d'utiliser directement les simulations les plus précises — et les plus coûteuses —, plutôt que de nous fier à des approximations moins onéreuses. »
Saturn améliore l’efficacité de son échantillonnage en combinant l’apprentissage par renforcement avec la « Augmented Memory», une stratégie qui réutilise les molécules les mieux notées pendant l’entraînement. Comme une même molécule peut être écrite sous la forme de plusieurs chaînes SMILES équivalentes, le modèle peut apprendre à partir de multiples représentations d’un même candidat prometteur.
Les chercheurs ont découvert que cela produit un comportement de « sauter puis exploiter localement» : le modèle se déplace vers des régions prometteuses de l’espace chimique, y explore des molécules similaires, puis passe à autre chose.
Dans les tests de référence en matière de découverte de médicaments impliquant l' amarrage moléculaire et l'optimisation multiparamétrique, Saturn a surpassé les références testées dans le cadre de budgets d'oracle limités.
L'équipe a également démontré que Saturn pouvait optimiser directement les propriétés électroniques calculées au niveau de la théorie de la fonctionnelle de la densité (DFT), une méthode de mécanique quantique haute fidélité qui est généralement trop coûteuse pour la conception générative de routine.
TANGO : orienter l'IA vers des molécules synthétisables
Mais l'efficacité seule ne suffit pas. Dans la deuxième étude, les chercheurs ont présenté TANGO, acronyme de « Tanimoto Group Overlap », une fonction de récompense conçue pour aider les modèles d'IA générique à proposer des molécules qui sont non seulement prometteuses, mais dont on prévoit également qu'elles sont synthétisables à partir de composants spécifiques.
Il s'agit d'un problème plus complexe que de simplement se demander si une molécule peut être fabriquée. En chimie réelle, les chercheurs peuvent vouloir utiliser des matériaux de depart particulières, réutiliser des intermédiaires existants, travailler avec des réactifs disponibles ou concevoir des familles de molécules à partir d'un noyau chimique commun.
« Le principal défi consistait à transformer une question binaire en un signal continu dont le modèle puisse tirer des enseignements », explique Guo. « Si l’on se contente de dire au modèle “cette molécule utilise le bon brique moléculaire” ou “elle ne l’utilise pas”, il n’y a pratiquement aucun retour d’information utile. TANGO mesure plutôt à quel point le modèle se rapproche de la cible, afin qu’il puisse s’orienter progressivement vers l’objectif. »
Il en résulte une récompense continue qui guide le modèle génératif pendant l’apprentissage par renforcement, un peu comme une boussole indiquant à un randonneur la direction du sommet même lorsque celui-ci n’est pas encore en vue.
Le cadre prend en charge trois scénarios pratiques : la contrainte des matériaux de départ d’une synthèse, l’imposition d’un intermédiaire spécifique le long du parcours, et la synthèse divergente, où un intermédiaire commun non commercial se ramifie en plusieurs produits optimisés.
Un pas vers la découverte en boucle fermée
Ensemble, Saturn et TANGO font progresser la chimie pilotée par l'IA vers la découverte en boucle fermée, où des modèles proposent des molécules, des plateformes automatisées les synthétisent et les testent, et où les résultats sont réutilisés pour la phase de conception suivante.
Ce travail fait également passer la synthétisabilité d’un filtre de post-traitement à une partie intégrante du processus de conception lui-même. Plutôt que de générer de nombreuses molécules pour ensuite écarter celles qui ne sont pas réalisables, le modèle apprend à s’orienter vers des molécules qui satisfont à la fois les objectifs de propriétés et les contraintes de synthèse.
« Les modèles génératifs sont très efficaces pour proposer des molécules aux propriétés prédites optimales, mais il y a toujours eu un décalage entre ce qu’un ordinateur suggère et ce qu’un chimiste peut réellement fabriquer », explique Philippe Schwaller. « En intégrant directement la synthétisabilité dans la boucle d’optimisation, nous réduisons cet écart. »
Les deux cadres sont open source et reposent sur la même base de code, ce qui les rend facilement accessibles aux chercheurs en découverte de médicaments, en science des matériaux et dans d’autres domaines.
Autres contributeurs
Université de New York
Conseil de recherches en sciences naturelles et en génie du Canada (CRSNG)
Fondation nationale suisse pour la science (NCCR Catalysis)
Jeff Guo, Junwu Chen, Anthony GX-Chen, Philippe Schwaller. Sample-efficient generative molecular design using memory manipulation. Nature Machine Intelligence 8, 449–460 (2026). DOI: 10.1038/s42256-026-01200-4
Jeff Guo, Philippe Schwaller. TANGO: direct optimization of constrained synthesizability for generative molecular design. Nature Computational Science 6, 260–270 (2026). DOI: 10.1038/s43588-026-00959-1