L'IA prédit les protéines partenaires d'interaction
Des scientifiques de l’EPFL présentent DiffPALM, une méthode d’IA innovante qui améliore la prédiction des interactions entre protéines et permet potentiellement de mieux comprendre des processus biologiques pertinents pour des applications médicales.
Les protéines sont des éléments constitutifs de la vie. Elles sont impliquées dans pratiquement tous les processus biologiques. Comprendre les interactions entre les protéines est essentiel pour déchiffrer les complexités des fonctions cellulaires, et a des implications importantes pour le développement de médicaments et le traitement des maladies.
Cependant, la capacité à prédire quelles protéines se lient entre elles est une question difficile en biologie computationnelle, notamment en raison de la grande diversité et de la complexité des structures des protéines. Une étude menée par l’équipe d’Anne-Florence Bitbol de l’EPFL pourrait désormais changer cela.
Cette équipe de scientifiques, composée d’Umberto Lupo, Damiano Sgarbossa et Anne-Florence Bitbol, a mis au point DiffPALM (Differentiable Pairing using Alignment-based Language Models). Il s’agit d’une approche basée sur l’IA qui peut considérablement faire progresser la prédiction des interactions entre des séquences de protéines. L’étude est publiée dans la revue PNAS.
DiffPALM tire parti de la puissance des modèles de langage protéiques, un concept avancé d’apprentissage automatique emprunté au traitement du langage naturel, pour analyser et prédire les interactions entre les membres de deux familles de protéines avec une précision sans précédent. DiffPALM utilise ces techniques d’apprentissage machine pour prédire les paires de protéines en interaction. Il s’ensuit une amélioration significative par rapport à d’autres méthodes qui nécessitent souvent de grands ensembles de données suffisamment divers, et qui se heurtent à la complexité des complexes protéiques eucaryotes.
Un autre avantage de DiffPALM est sa polyvalence. En effet, cette approche peut fonctionner même avec de plus petits ensembles de données de séquences et traiter ainsi des protéines rares qui ont peu d’homologues (des protéines d’espèces différentes qui partagent des ancêtres évolutifs communs). Elle s’appuie sur des modèles de langage protéiques entraînés sur des alignements multiples de séquences (MSA), comme le MSA Transformer et le module EvoFormer d’AlphaFold, ce qui lui permet de comprendre et de prédire les interactions complexes entre les protéines avec une extrême précision.
L’utilisation de DiffPALM est également très prometteuse en matière de prédiction de la structure des complexes protéiques, qui sont des assemblages formés par la liaison de plusieurs protéines, et qui sont indispensables à de nombreux processus cellulaires.
Dans l’étude, l’équipe a comparé DiffPALM aux méthodes d’appariement traditionnelles basées sur la co-évolution. Ce domaine étudie l’évolution des séquences de protéines qui sont en étroite interaction. Les modifications d’une protéine peuvent entraîner des modifications de son partenaire d’interaction. Il s’agit d’un aspect extrêmement important de la biologie moléculaire et cellulaire, qui est très bien représenté par les modèles de langage protéiques entraînés sur les MSA. DiffPALM s’avère plus performant que les méthodes traditionnelles sur des données de référence exigeantes, ce qui démontre sa résistance et son efficacité.
L’application de DiffPALM est évidente dans le domaine de la biologie fondamentale des protéines, mais elle va au-delà, car cette méthode pourrait devenir un outil puissant pour la recherche médicale et le développement de médicaments. Par exemple, pouvoir prédire avec précision les interactions entre protéines peut aider à comprendre les mécanismes des maladies et à mettre au point des thérapies ciblées.
Les chercheuses et chercheurs ont permis un accès libre à DiffPALM, en espérant que la communauté scientifique l’adopte largement pour faire progresser la biologie computationnelle et permettre aux spécialistes d’explorer les complexités des interactions entre protéines.
En combinant les techniques avancées d’apprentissage automatique et le traitement efficace de données biologiques complexes, DiffPALM constitue une avancée majeure dans le domaine de la biologie computationnelle. Cette méthode permet non seulement de mieux comprendre les interactions entre les protéines, mais aussi d’ouvrir de nouvelles pistes de recherche médicale, ce qui pourrait faire progresser le traitement des maladies et le développement de médicaments.
Programme de recherche et d’innovation Horizon 2020 de l’Union européenne
Umberto Lupo, Damiano Sgarbossa, Anne-Florence Bitbol. Pairing interacting protein sequences using masked language modeling. PNAS 24 June 2024. DOI: 10.1073/pnas.2311887121