Des petits modèles de langage IA pour plus d'efficacité

Les petits modèles de langage peuvent reposer sur des données validées, plus fiables. © 2025 KODA
Utiliser les compétences des robots conversationnels sur des corpus contrôlés: les «petits modèles de langage», particulièrement fiables et sûrs, pourraient largement se déployer dans les mois à venir.
Depuis la diffusion à large échelle par OpenAI de son grand modèle de langage, fin 2022, de nombreuses autres compagnies de la «big tech» se sont lancées dans la course. À un rythme qui démontre qu’elles étaient loin d’être prises de court et que les travaux visant à créer des outils d’intelligence artificielle générative en langage naturel étaient en fait en développement depuis plusieurs années, en parallèle.
Il est toutefois frappant de constater la similarité des approches. À quelques nuances près, tous ces modèles reposent sur un même principe : celui de l’ingestion et du traitement par apprentissage profond de milliards de «paramètres», soit de données recueillies parmi des documents disponibles sur les réseaux.
Passé cette étape, ces modèles sont en mesure de générer des contenus — textes, images, sons, vidéos... — selon des principes purement statistiques: ce sont les séquences (de mots, pixels, sons...) les plus probables qui seront produites en réponse à l’instruction. «Mais la méthode comporte ses risques, explique Nicolas Flammarion, responsable du Laboratoire de théorie en apprentissage automatique de l’EPFL. Une grande partie du contenu à disposition peut être toxique, dangereux ou simplement mensonger. Le modèle doit donc passer par une phase de supervision, d’affinage, et se faire imposer de nombreux filtres.»
Éviter de se noyer dans l'information
Nous voilà donc dans une situation étonnante, où des milliards d’octets de données ont été inlassablement «moulinés» dans d’énormes centres de calculs gourmands en énergie, mais dont on ne peut utiliser qu’une infime fraction des résultats. Un peu comme s’il fallait, à chaque requête, ouvrir un par un et feuilleter page par page tous les livres de la Librairie du Congrès jusqu’à tomber sur la bonne phrase...
Trouver le moyen de pouvoir utiliser les performances extrêmes des grands modèles de langage tout en les rendant plus efficaces, sûres et économes semble donc tomber sous le sens. «L’une des méthodes pour le faire consiste à restreindre les sources des modèles pour qu’ils soient parfaitement opérationnels pour des applications spécifiques, sans prétendre à l’universalité», explique Martin Rajman, chercheur et enseignant en intelligence artificielle à l’EPFL.
Entrent donc en jeu les «petits modèles de langage», ou SLM. Leur cure d’amaigrissement peut prendre plusieurs formes, mais la plupart du temps il s’agit de limiter la taille de la base de données à laquelle ils se réfèrent — on parle alors de «génération augmentée de récupération», ou RAG. Le cas de Meditron, ci-après, est exemplaire: ses sources sont des bases de données médicales, fiables et validées.
Cette démarche exclut d’office toute propagation d’informations erronées — toute l’astuce étant dès lors d’appliquer à ces données contrôlées les compétences d’un agent conversationnel entraîné sur de grands modèles. Celui-ci saura lire et connecter les informations afin d’en tirer des ressources utiles.
L’EPFL explore plusieurs projets de petits modèles de langage. Outre Meditron, un pilote est en cours qui porte sur l’ensemble des lois et règlements régissant la vie de l’École — le corpus «Polylex». Un autre entend optimiser la transcription des cours afin de pouvoir les indexer de la façon la plus fiable possible. L’adaptation de plusieurs processus administratifs est aussi à l’étude.
Une utilisation plus économique
En limitant le volume des sources, ces modèles n’ont plus nécessairement besoin de puissants supercalculateurs — certains peuvent même être déployés au sein d’un smart-phone. «Un autre avantage important de ces applications est qu’elles fonctionnent en vase clos et protègent donc les données livrées au travers des instructions, souligne Martin Rajman. A contrario, si on demande à ChatGPT de transcrire puis de résumer une réunion, ce qu’il fait très bien, on n’a pas la moindre idée de ce qui sera fait des informations potentiellement confidentielles ou touchant à la protection des données personnelles qui sont ainsi transmises à des serveurs inconnus.»
Basés sur la puissance de conversation des grands modèles mais limitant une grande partie de leurs dangers, les petits modèles de langage sont donc particulièrement recherchés par les entreprises. Que ce soit pour leur organisation interne ou vis-à-vis de leur clientèle, des robots conversationnels spécifiques peuvent se révéler extrêmement utiles et efficaces. Ça n’est donc pas un hasard si les sociétés qui proposent leur déploiement pullulent désormais aux quatre coins du monde.
Si 2023 a été l’année d’un feu d’artifice de grands modèles de langage, avec leurs forces et leurs faiblesses, 2025 pourrait bien être celle d’une adoption généralisée de ces petits modèles mieux calibrés — et totalement dignes de confiance.
Quand survient une éruption cutanée, une douleur au mollet ou lors d’une prescription médicale, on se rue sur Internet pour en savoir plus. Que ce soit par une recherche classique ou une requête à une IA générative, on essaie de se rassurer, quitte à se perdre dans un délire hypocondriaque. Toutefois, les diagnostics des grands modèles de langage généralistes, tels que ChatGPT ou Claude, reposent sur des sources obscures et de toute nature, qui les fragilisent.
La solution passe par des modèles plus petits, plus ciblés, plus performants, nourris de données plus fiables. À ce jour, dans le domaine médical, Meditron, l’algorithme développé par des scientifiques de l’EPFL et de la Yale School of Medicine, se positionne comme l’outil de diagnostic médical le plus performant du monde. Lancé il y a un peu plus d’un an en open source, il réussit mieux que la moyenne des humains les examens de médecine aux États-Unis et répond de façon raisonnable à nombre de questions. Même si le but de Meditron n’est pas de se substituer au médecin, mais de l’aider à prendre des décisions et à établir des diagnostics; le dernier mot devant toujours revenir à un humain.
La force de Meditron, qui s’appuie sur le modèle en libre accès Llama de Meta, est d’avoir été entraîné avec des sources de données médicales soigneusement sélectionnées. Ces dernières comprennent la littérature médicale évaluée par des pairs et issue de référentiels en libre accès comme PubMed, et un ensemble unique de directives de pratiques cliniques diverses, dont celles du CICR, couvrant de nombreux pays, régions, hôpitaux et organisations internationales.
«Le libre accès est peut-être l’aspect le plus important de Meditron», estime Annie Hartley, professeure au Laboratoire pour les technologies intelligentes de santé mondiale et de réponse humanitaire (LIGHT) à l’EPFL et à Yale. Téléchargeable sur un téléphone portable, il fonctionne dans les zones éloignées de la civilisation où il n’y a peut-être pas ou peu d’accès au réseau. Transparent, contrairement aux boîtes noires des grandes entreprises, Meditron s’améliore à mesure qu’il est utilisé. «Il est en constant développement, et sa force est d’intégrer des données qui proviennent de régions qui sont souvent sous-représentées», poursuit Annie Hartley.
Afin d’être plus universels et de mieux refléter les défis du monde réel, les concepteurs et conceptrices ont lancé une initiative qui invite les professionnels du monde entier à évaluer les performances du modèle dans des scénarios réels et en posant des questions difficiles. «Le fait que ces professionnels se portent volontaires au sein de notre communauté open source pour valider Meditron de manière indépendante est une reconnaissance de sa valeur», note la professeure. «Rien de tout cela n’est disponible avec les modèles fermés développés par les grandes entreprises technologiques», détaille Martin Jaggi, responsable du Laboratoire d’apprentissage machine et d’optimisation.
Autre projet mené à l’EPFL qui mise sur la qualité des données, celui d’Emmanuel Abbé, titulaire de la Chaire de mathématiques de la science des données de l’EPFL, mené en collaboration avec le CHUV, afin de prévenir les infarctus. Grâce à une IA, les images des angiographies – imagerie du cœur et des vaisseau — sont analysées et comparées à de nombreuses autres afin de prédire le risque d’attaque cardiaque. Afin de mieux entraîner leur modèle, les scientifiques vont lancer une vaste étude de cohorte en Suisse qui réunira au moins 1000 patients au cours des trois prochaines années.
Ces types de modèles pourraient aussi ouvrir une porte plus grande à la médecine personnalisée. «Si l’on croise les résultats des modèles avec le dossier personnel du patient et toutes les données collectées par les montres connectées ou certaines applications, le potentiel est énorme, avance Olivier Crochat, directeur du Center for Digital Trust. Mais il s’agira de mettre en place des mesures robustes pour protéger ces données hautement sensibles et garantir une utilisation éthique et équitable de celles-ci.»