Un cadre d'entrainement open-source pour optimiser l'IA multimodale

Des oranges vues à travers le prisme de multiples modalités, chaque partie montrant une manière différente de percevoir et de comprendre cette scène - 2025 EPFL - CC-BY-SA 4.0

Des oranges vues à travers le prisme de multiples modalités, chaque partie montrant une manière différente de percevoir et de comprendre cette scène - 2025 EPFL - CC-BY-SA 4.0

Une équipe de l'EPFL a développé 4M, un cadre d’entrainement de nouvelle génération pour l’IA. En libre accès, il permet de mettre au point des modèles de fondation multimodaux polyvalents et évolutifs, qui vont bien au-delà du langage.

Les grands modèles de langage (LLM) tels que ChatGPT d’OpenAI ont transformé la manière dont beaucoup d’entre nous accomplissent certaines tâches quotidiennes. Ces robots conversationnels basés sur l’intelligence artificielle générative sont entraînés avec un langage – des centaines de téraoctets de texte «copié» sur Internet et avec des milliards de paramètres.

A l’avenir, les «moteurs» qui alimenteront l’intelligence artificielle générative seront des modèles multimodaux non seulement entraînés sur du texte, mais aussi capables de traiter diverses autres types d’information, notamment des images, des vidéos, des sons et des éléments d’autres domaines tels que les données biologiques ou atmosphériques.

Jusqu’à récemment, l’entraînement d’un modèle unique afin de traiter un vaste ensemble de modalités – les inputs – et de tâches – les outputs – se heurtait à de grandes difficultés. Par exemple, l’entraînement avait souvent pour conséquence de diminuer les performances par rapport aux modèles monotâches et nécessitait généralement des stratégies minutieuses pour réduire les pertes de qualité et maximiser la précision. En outre, l’entraînement d’un réseau sur des modalités telles que le texte, les images ou les vidéos, qui varient considérablement, présentait des difficultés supplémentaires, et les informations essentielles relatives à certaines modalités étaient souvent négligées à tort par le modèle.

Une modélisation multimodale

Dans le cadre d’un projet pluriannuel mené avec le soutien d’Apple en Californie, une équipe du Laboratoire d’intelligence et d’apprentissage visuels (VILAB) de la Faculté informatique et communications (IC) de l’EPFL a développé 4M, pour modélisation masquée massivement multimodale, l’un des réseaux neuronaux uniques les plus avancés au monde, capable de traiter un vaste ensemble de tâches et de modalités.

Les chercheuses et chercheurs ont décrit les avancées de 4M par rapport aux capacités des modèles existants dans un article présenté en décembre lors de la NeurIPS 2024, la conférence annuelle sur les systèmes de traitement de l’information neuronale (pour plus d’informations techniques, voir en bas d’article).

«Grâce à 4M, nous disposons désormais d’un modèle riche qui peut interpréter plus que le langage. Pourquoi est-ce important? L’une des critiques les plus fréquentes des LLM est que leurs connaissances ne sont pas fondées parce que les données d’entraînement sont limitées au langage», explique le professeur assistant Amir Zamir, responsable du VILAB.

«Lorsque nous passons à la modélisation multimodale, nous n’avons pas à nous limiter au langage. Nous apportons d’autres modalités, y compris des capteurs. Par exemple, nous pouvons communiquer sur une orange à l’aide du mot “orange”, comme dans les modèles de langage, mais aussi par une collection de pixels, indiquant à quoi ressemble l’orange, ou par le sens du toucher, capturant la sensation de toucher une orange. Si vous assemblez différentes modalités, vous obtenez une encapsulation plus complète de la réalité physique que nous essayons de modéliser», poursuit-il.

Les chercheurs essaient de modéliser la réalité physique en assemblant différentes modalités. Cette image montre des oranges vues à travers le prisme de multiples modalités, chaque partie correspondant à une manière différente de percevoir et de comprendre cette scène.
De gauche à droite, les modalités représentent les normales de surface (la couleur représente l'orientation de la surface), la profondeur (distance par rapport à la caméra, rouge=proche, bleu=lointain), RVB (l'image originale), la segmentation (objets distincts et régions de l'image) et les bords (limites de l'objet ou de la texture).
2025 EPFL/Visual Intelligence and Learning Laboratory - CC-BY-SA 4.0

Vers un modèle générique open source pour une large utilisation

Malgré ces avancées impressionnantes, Amir Zamir affirme que le développement de 4M a présenté de curieux défis, dont le fait que le modèle ne développe pas une représentation véritablement unifiée entre les modalités, et il a sa propre théorie sur les raisons.

«Nous pensons que, secrètement, sous le capot, les modèles trichent et créent un petit ensemble de modèles indépendants. Un ensemble de paramètres résout un problème, un autre ensemble de paramètres en résout un autre, et, collectivement, ils semblent résoudre le problème global. Mais ils n’unifient pas vraiment leurs connaissances d’une manière qui permette une représentation conjointe compacte de l’environnement qui constituerait un bon portail vers le monde.»

L’équipe du VILAB poursuit son travail de structuration et d’unification de 4M, dans le but de développer une architecture générique open source, permettant aux expertes et experts d’autres domaines de l’adapter à leurs besoins spécifiques, comme la modélisation climatique ou la recherche biomédicale. Elle travaille aussi sur d’autres aspects importants, tels que l’augmentation de l’évolutivité et les méthodes de spécialisation des modèles aux contextes de déploiement.

«L’intérêt du libre accès est que les gens peuvent adapter le modèle pour eux-mêmes avec leurs propres données et leurs propres spécifications. 4M arrive au bon moment et nous sommes particulièrement enthousiastes à l’idée que d’autres domaines adoptent cette ligne de modélisation pour leurs cas d’utilisation spécifiques. Nous sommes impatients de voir où cela nous mènera. Mais les défis sont encore nombreux et il reste beaucoup à faire», estiment Oguzhan Fatih Kar et Roman Bachmann, assistants-doctorants au VILAB et coauteurs de l’article.

L’expérience de 4M et les problèmes fascinants sur lesquels l’équipe continue de travailler soulèvent, selon Amir Zamir, des questions intéressantes sur le développement futur des modèles de fondation. «En tant qu’êtres humains, nous avons cinq sens principaux. En outre, nous apprenons efficacement le langage, ce qui ajoute des caractéristiques et une structure aux connaissances qui étaient déjà enracinées dans ces autres sens. C’est le contraire avec l’IA actuelle. Nous avons des modèles de langage sans accès sensoriel au monde, mais qui sont entraînés à l’aide de données et de ressources informatiques colossales. Notre objectif est d’étudier le rôle de la multimodalité et de développer un modèle universel fondé qui puisse être utilisé efficacement en aval.»

Le projet 4M élargit les capacités des modèles existants sur plusieurs axes clés, notamment:

  • Modalités: 4M offre de nouvelles capacités, telles que la prédiction de dizaines de modalités à partir de dizaines d’autres, la récupération intermodale, la génération contrôlable et de solides performances immédiates. Il a démontré de manière convaincante qu’un seul modèle peut résoudre des dizaines de tâches différentes sans perte de performance par rapport aux modèles monotâches dédiés et à l’état de l’art.
  • Diversité: 4M prend en charge diverses modalités et des données plus structurées, telles que les poses humaines, les instances SAM et les métadonnées pour une génération contrôlable.
  • Tokenisation: 4M étudie la tokenisation discrète de diverses modalités, telles que l’incorporation d’images globales, les poses humaines et la sémantique.
  • Échelle: le modèle public a été étendu à 3 milliards de paramètres et entraîné sur plus de 500 milliards de jetons.
  • Coentraînement: 4M démontre le coentraînement simultané à la vision et à la modélisation du langage.

Auteur: Tanya Petersen

Source: EPFL

Ce contenu est distribué sous les termes de la licence Creative Commons CC BY-SA 4.0. Vous pouvez reprendre librement les textes, vidéos et images y figurant à condition de créditer l’auteur de l’œuvre, et de ne pas restreindre son utilisation. Pour les illustrations ne contenant pas la mention CC BY-SA, l’autorisation de l’auteur est nécessaire.