Les modèles simples sont parfois meilleurs que les modèles avancés

Digital Research Genetics and Biology © iStock

Digital Research Genetics and Biology © iStock

Une équipe de l’EPFL a mis au point Systema, un nouvel outil qui permet d’évaluer le fonctionnement des modèles d’IA lors de la prédiction des effets de modifications génétiques volontaires.

Pour comprendre ce que font nos gènes et comment ils sont contrôlés, les scientifiques modifient volontairement des gènes et observent les effets sur les cellules. C'est ce qu'on appelle des perturbations génétiques. Ces connaissances ont d’importantes applications en matière de génie cellulaire et de développement de nouveaux traitements. Aujourd’hui, il est possible de tester de nombreuses perturbations génétiques différentes en laboratoire. Mais les combinaisons possibles sont si nombreuses qu’il est impossible de toutes les tester.

L’intelligence artificielle et l’apprentissage machine ont permis d’utiliser des informations provenant de grands ensembles de données biologiques pour prédire ce qui se passera en cas de modification d’un gène, même si cela n’a jamais été testé en laboratoire. Mais dans quelle mesure ces modèles fonctionnent-ils vraiment?

Évaluer différents modèles de prédiction

Pour évaluer cela, des chercheuses et chercheurs du Laboratoire d’apprentissage machine pour la biomédecine (MLBio) de l’EPFL, affilié à la Faculté informatique et communications et à la Faculté des sciences de la vie, ont testé les meilleurs modèles d’IA, en collaboration avec des collègues internationaux. Ils ont utilisé les données issues de dix expériences différentes et les ont comparées à des approches statistiques simples.

Dans une étude qui vient d’être publiée dans Nature Biotechnology, l’équipe a découvert quelque chose de surprenant. Les approches simples ont fait aussi bien, sinon mieux, que les modèles d’IA avancés sur de nombreux ensembles de données.

«L’observation selon laquelle les approches simples sont aussi performantes que les modèles d’IA avancés nous a amenés à nous demander si les modèles avancés comprennent réellement ce que font les altérations génétiques. Les métriques standard sont-elles adaptées à l’évaluation de ces modèles?», avance Maria Brbic, professeure assistante, responsable du MLBio.

Pourquoi les méthodes simples ont-elles si bien fonctionné?

Les modèles avancés peuvent paraître mieux qu’ils le sont réellement. Cela est dû aux différences systématiques entre les cellules traitées et non traitées. Il se peut que les modèles n’apprennent pas les véritables effets des altérations génétiques, mais identifient simplement des tendances liées à la conception de l’expérience ou des effets qui se produisent pour presque toutes les altérations génétiques.

Les chercheuses et chercheurs ont également constaté que les méthodes courantes de vérification des performances des modèles peuvent être trompeuses. Celles-ci ne tiennent souvent pas compte de ces différences systématiques.

«Pour y faire face, nous avons créé un outil appelé Systema. Il réduit l’influence des biais systématiques et se concentre sur les effets uniques de chaque perturbation génétique. Systema permet également de comprendre plus facilement ce que font réellement les perturbations génétiques», explique Ramon Viñas Torné, chercheur postdoctoral au laboratoire MLBio et principal auteur de l’article.

La prédiction est plus difficile que ne le suggèrent les indicateurs standard

Avec Systema, il reste encore très difficile pour les modèles d’IA de prédire les effets de nouvelles altérations génétiques, ont constaté les scientifiques. Certains modèles ont pu faire des suppositions exactes lorsque les gènes faisaient partie du même processus biologique, mais, dans l’ensemble, le défi demeure.

Systema aide à faire la différence entre les modèles qui ne font que détecter des biais et ceux qui comprennent vraiment comment les modifications génétiques affectent les cellules.

L'équipe suggère d’évaluer les modèles d’IA en fonction de leur valeur biologique. Cela signifie qu’il faut examiner dans quelle mesure les prédictions expliquent les caractéristiques cellulaires.

«À l'avenir, des expériences plus larges et plus variées permettront d’améliorer ces prédictions. De nouvelles technologies qui examinent les cellules de manière plus détaillée, selon leur forme ou leur emplacement, pourraient également nous aider à mieux comprendre comment les altérations génétiques affectent les cellules et les tissus», conclut Maria Brbic.

Références

Pour en savoir plus sur Systema.

Viñas Torné, R., Wiatrak, M., Piran, Z. et al. Systema: a framework for evaluating genetic perturbation response prediction beyond systematic variation. Nat Biotechnol (2025). https://doi.org/10.1038/s41587-025-02777-8


Auteur: Tanya Petersen

Source: EPFL

Ce contenu est distribué sous les termes de la licence Creative Commons CC BY-SA 4.0. Vous pouvez reprendre librement les textes, vidéos et images y figurant à condition de créditer l’auteur de l’œuvre, et de ne pas restreindre son utilisation. Pour les illustrations ne contenant pas la mention CC BY-SA, l’autorisation de l’auteur est nécessaire.