L'IA génère les premiers modèles complets de protéines en mouvement

(De gauche à droite): Pierre Vandergheynst, Patrick Barth, et Aditya Sengar. 2025 EPFL/Alain Herzog CC BY SA

(De gauche à droite): Pierre Vandergheynst, Patrick Barth, et Aditya Sengar. 2025 EPFL/Alain Herzog CC BY SA

Des scientifiques de l’EPFL ont utilisé un réseau de neurones pour créer des modèles à atomes complets de protéines, ainsi que les mouvements dynamiques qui régissent leur fonction. Cette approche globale, mais simplifiée, résout un problème majeur en biologie.


De nombreuses méthodes de découverte de médicaments et d’anticorps ciblent des protéines membranaires cellulaires au pliage complexe. Lorsque les molécules d’un candidat-médicament se lient à ces protéines, comme une clé dans une serrure, elles déclenchent des cascades chimiques qui modifient le comportement cellulaire. Comprendre comment les protéines se replient et bougent est donc essentiel pour développer des médicaments qui interagissent efficacement avec leurs cibles.

L’intelligence artificielle (IA) se révèle très utile pour générer de nouvelles structures protéiques. Cependant, la plupart des systèmes, y compris AlphaFold de Google DeepMind, se concentrent sur la production d’«instantanés» statiques de protéines. Les réarrangements subtils des atomes dans des structures appelées chaînes latérales, qui influencent les interactions d’une protéine avec d’autres molécules, ne sont pas pris en compte.

Des scientifiques de la Faculté des sciences de la vie de l’EPFL se sont associés à des spécialistes en traitement des données de la Faculté des sciences et techniques de l’ingénieur pour résoudre ce problème. Une équipe, dirigée par Patrick Barth du Laboratoire de génie protéique et cellulaire (LPCE) et Pierre Vandergheynst du Laboratoire de traitement des signaux (LTS2), a développé un cadre génératif basé sur l’IA, appelé LD-FPG (Latent Diffusion for Full Protein Generation). Il produit des ensembles structuraux complets de protéines composés entièrement d’atomes ainsi que de leurs mouvements.

Un squelette protéique simulé (jaune) est augmenté avec des instantanés générés par l’IA à partir du LD-FPG, représentant les positions des chaînes latérales et les mouvements dynamiques. 2025 LPCE/LTS2 EPFL CC BY SA.

«Les protéines sont comme de minuscules machines qui bougent, s’activent et se désactivent pour travailler. Mais produire ce “film” dans les moindres détails reste un défi, affirme Aditya Sengar, chercheur au LPCE. Notre cadre LD-FPG est le premier à y parvenir. Au lieu d’essayer de prédire les coordonnées exactes des atomes dans l’espace, notre modèle apprend une carte à dimension réduite des changements de forme de la protéine. C’est ce tournant conceptuel qui rend possible la génération d’une dynamique à atomes complets.»

Le nouveau cadre peut notamment générer toute une gamme de mouvements pour des cibles médicamenteuses complexes, comme les récepteurs couplés aux protéines G (RCPG), qui sont dans le viseur de l’industrie internationale du développement de médicaments.

Nos travaux représentent un nouveau paradigme pour la biologie computationnelle et une avancée significative à l’interface de l’IA et de la biologie structurelle

Patrick Barth, Laboratoire de génie protéique et cellulaire

«Le LD-FPG ouvre la voie à la conception de nouveaux médicaments qui ciblent le comportement dynamique d’une protéine, et pas seulement sa forme. Nos travaux représentent un nouveau paradigme pour la biologie computationnelle et une avancée significative à l’interface de l’IA et de la biologie structurelle», déclare Patrick Barth. Les travaux ont été publiés dans les Proceedings of NeurIPS 2025.

Capturer les mouvements d’une protéine

Utilisant l’IA pour prédire la position spatiale de chaque atome d’une protéine, les systèmes tels qu’AlphaFold ont besoin d’une grande puissance de calcul et d’une expertise en biologie et en informatique. Le LD-FPG simplifie ce problème en utilisant ce qu’on appelle un réseau neuronal graphique (GNN). Le GNN traite chaque protéine comme un graphe mathématique, où les atomes représentent des «nœuds» et leurs liaisons entre eux des «arêtes». Cette représentation de niveau faible permet de compresser les données structurelles des protéines en une carte simplifiée, ou latente.

Ensuite, un modèle d’IA étudie cette carte et «apprend» les représentations de la structure et des mouvements de la protéine. Une fois entraîné, le modèle génère des données latentes pour des structures entièrement nouvelles. Enfin, ces données simplifiées sont converties en protéines à haute résolution, incluant leurs chaînes latérales et leurs mouvements dynamiques.

Dans ses tests, l’équipe a généré des représentations dynamiques en haute fidélité du récepteur de la dopamine D2 dans ses états actifs et inactifs. Cette protéine détecte le neurotransmetteur dopamine et contrôle les réponses cellulaires clés, ce qui en fait l’un des RCPG les plus étudiés. Les scientifiques ont publié cet ensemble de données en libre accès pour faciliter les recherches à venir.

«En plus de permettre de mieux comprendre la biologie, nos travaux contribueront à améliorer les processus de criblage virtuels des protéines, qui impliquent actuellement beaucoup d’essais et autant d’erreurs. Ceci devrait accélérer la découverte de médicaments», indique Aditya Sengar.

À l’avenir, l’équipe entend rationaliser le cadre de l’IA pour augmenter la précision et le réalisme, et lui permettre de modéliser des protéines plus grandes. Mais Pierre Vandergheynst souligne que des données de haute qualité resteront la pierre angulaire du succès: «Les gens pensent qu’alimenter les modèles d’IA avec des ensembles de données massifs résoudra automatiquement des problèmes scientifiques ou remplacera les scientifiques. Or, la plupart de ces données contiennent du bruit ou sont mal évaluées. Nous avons besoin de scientifiques humains pour produire les données précises et les références rigoureuses dont l’IA a besoin, tout comme nous avons besoin de journalistes pour nous protéger contre la désinformation.»

Références

Aditya Sengar, Ali Hariri, Daniel Probst, Patrick Barth, Pierre Vandergheynst (2025). Generative Modeling of Full-Atom Protein Conformations using Latent Diffusion on Graph Embeddings. NeurIPS 38 Proceedings.


Source: EPFL

Ce contenu est distribué sous les termes de la licence Creative Commons CC BY-SA 4.0. Vous pouvez reprendre librement les textes, vidéos et images y figurant à condition de créditer l’auteur de l’œuvre, et de ne pas restreindre son utilisation. Pour les illustrations ne contenant pas la mention CC BY-SA, l’autorisation de l’auteur est nécessaire.