Apertus: un modèle de langage multilingue, ouvert et transparent

Apertus est le premier modèle de langage de grande ampleur, multilingue et open source développé en Suisse. - 2025 EPFL/ETH Zurich/CSCS/molinari design

Apertus est le premier modèle de langage de grande ampleur, multilingue et open source développé en Suisse. - 2025 EPFL/ETH Zurich/CSCS/molinari design

L’EPFL, l’ETH Zurich et le Centre national suisse de calcul scientifique (CSCS) ont annoncé aujourd’hui la sortie d’Apertus, le premier modèle de langage de grande ampleur, multilingue et open source développé en Suisse. Il représente une étape majeure pour la transparence et la diversité dans l’intelligence artificielle générative.


En juillet dernier, l’EPFL, l’ETH Zurich et le CSCS avaient annoncé leur collaboration sur le développement d’un grand modèle de langage (LLM). Aujourd’hui, ce projet se concrétise : le premier LLM multilingue, ouvert et à grande échelle conçu en Suisse est désormais disponible et constitue une base pour les développeurs et organisations souhaitant concevoir des applications d’IA telles que des chatbots, des systèmes de traduction ou des outils pédagogiques.

Le nom Apertus, — «ouvert» en latin — reflète la spécificité du modèle: son architecture, ses poids (ou paramètres), ses données d’entraînement et sa méthodologie sont entièrement documentés et librement accessibles, ce qui le distingue de nombreux autres modèles.

Chercheuses et chercheurs en IA, professionnelles, professionnels et passionnées et passionnés peuvent à présent accéder au modèle via un partenaire de déploiement tel que Swisscom, ou le télécharger depuis Hugging Face, une plateforme dédiée aux modèles et applications d’IA, et l’intégrer dans leurs propres projets. Apertus est disponible gratuitement en deux tailles: 8 milliards et 70 milliards de paramètres, le plus petit étant plus adapté à une utilisation individuelle. Les deux modèles sont distribués sous licence Apache 2.0, une licence de logiciel libre permettant son utilisation dans l’enseignement, la recherche, ainsi que pour des applications commerciales et sociétales variées.

Un modèle de langage entièrement open source

En tant que LLM pleinement ouvert, Apertus permet à la communauté scientifique et professionnelle d’explorer en profondeur sa conception et son fonctionnement, et de l’adapter à des besoins spécifiques. Contrairement à d’autres modèles qui ne partagent qu’une partie de leurs composants, Apertus mise sur une ouverture totale.

«Avec cette publication, nous voulons offrir un modèle de référence pour le développement d’une IA de confiance, souveraine et inclusive», déclare Martin Jaggi, professeur en apprentissage automatique à l’EPFL et membre du comité de pilotage de l’initiative Swiss AI. Le modèle sera régulièrement mis à jour par une équipe de développement composée d’ingénieures et ingénieurs spécialisés et de nombreux chercheurs et chercheuses de l’EPFL et de l’ETH Zurich.

Un moteur d’innovation

Avec cette approche ouverte, l’EPFL, l’ETH Zurich et le CSCS s’engagent dans une nouvelle voie. «Apertus ne suit pas le schéma classique de transfert technologique de la recherche vers l’industrie. Nous le considérons plutôt comme un catalyseur d’innovation et un moyen de renforcer les compétences en IA dans la recherche, la société et l’économie», explique Thomas Schulthess, directeur du CSCS et professeur à l’ETH Zurich.

Apertus a été entraîné sur 15 000 milliards de tokens (mots ou parties de mots) issus de plus de 1000 langues. Avec environ 40% de sources non-anglophones, le modèle intègre des langues généralement peu représentées dans les LLM, comme le suisse allemand, le romanche, et bien d’autres encore.

«Apertus est conçu pour le bien commun. Il fait partie des rares LLM de cette envergure à être totalement open source, et il est le premier à intégrer, dès sa conception, des principes fondamentaux comme le multilinguisme, la transparence et la conformité réglementaire», souligne Imanol Schlag, responsable technique du projet LLM et chercheur senior à l’ETH Zurich.

«Swisscom est fier d’être parmi les premiers à déployer ce modèle de pointe sur sa plateforme souveraine d’IA suisse. En tant que partenaire stratégique de l’initiative Swiss AI, nous soutenons l’accès à Apertus lors des Swiss {ai} Weeks. Cela illustre notre engagement envers un écosystème d’IA sûr et responsable, au service de l’intérêt public et de la souveraineté numérique de la Suisse», ajoute Daniel Dobos, directeur de la recherche chez Swisscom.

Accessibilité

Le téléchargement et la configuration du modèle sont simples pour les professionnelles et professionnels et pour les utilisateurs et utilisatrices expérimentés. Toutefois, l’utilisation pratique du modèle requiert des composants additionnels tels que des serveurs, une infrastructure cloud ou des interfaces utilisateur spécifiques. Les hackathons des prochaines Swiss {ai} Weeks offriront la première opportunité aux développeurs et développeuses d’expérimenter directement Apertus, de tester ses capacités et de fournir un retour pour améliorer ses futures versions. Swisscom mettra à disposition une interface dédiée pour les participants, facilitant l'interaction avec le modèle. Dès aujourd’hui, les clients professionnels de Swisscom peuvent accéder à Apertus via leur plateforme souveraine Swiss AI.

En outre, pour les personnes en dehors de la Suisse, la Public AI Inference Utility rendra Apertus accessible dans le cadre d’un mouvement mondial pour une IA publique. “Apertus est actuellement le modèle d’IA publique de référence: un modèle construit par des institutions publiques, pour l’intérêt général. C’est la meilleure preuve à ce jour qu'une IA peut devenir une véritable infrastructure publique, au même titre que les routes, l’eau ou l’électricité.” déclare Joshua Tan, responsable de la Public AI Inference Utility.

Transparence et conformité

La transparence est au cœur d’Apertus, garantissant la reproductibilité complète du processus d’entraînement. En complément des modèles, l’équipe de recherche publie toute une gamme de ressources: documentation complète, code source du processus d’entraînement et des ensembles de données utilisés, poids du modèle incluant des checkpoints intermédiaires — le tout sous licence Apache 2.0, qui permet aussi un usage commercial. Les conditions générales sont disponibles sur Hugging Face.

Apertus a été développé en tenant dûment compte des lois suisses sur la protection des données, des droits d’auteur, ainsi que des obligations de transparence du règlement européen sur l’IA (Loi sur l'IA de l'UE). Un soin particulier a été accordé à l’intégrité des données et au respect des normes éthiques: le corpus d’entraînement repose uniquement sur des données publiquement accessibles et a été filtré rétroactivement pour respecter les demandes d’exclusion lisibles par machine, supprimer les données personnelles et éliminer les contenus indésirables avant l’entraînement.

Un point de départ

«Apertus démontre qu’une IA générative peut être à la fois puissante et ouverte», affirme Antoine Bosselut, directeur du Laboratoire de traitement du langage naturel à l’EPFL et co-responsable de l’Initiative Swiss AI. «Le lancement d’Apertus ne marque pas une étape finale, mais bien le début d’un engagement à long terme pour une infrastructure d’IA ouverte, de confiance et souveraine, pour le bien commun mondial. Nous avons hâte de voir les développeurs et développeuses interagir avec le modèle lors des hackathons des Swiss {ai} Weeks. Leur créativité et leurs retours nous aideront à améliorer les futures générations du modèle.»

Les prochaines versions visent à étendre la famille de modèles, à améliorer leur efficacité, et à développer des variantes spécifiques à certains domaines comme le droit, la santé ou l’éducation. Elles intégreront aussi des capacités de recherche d’informations, permettant l’accès à des données actualisées tout en garantissant la transparence et le respect des normes réglementaires.

À propos d’Apertus et de l’Initiative Swiss AI
Apertus a été développé dans le cadre de l’Initiative Swiss AI, menée par l’EPFL et l’ETH Zurich. Il résulte d’un effort collaboratif réunissant chercheurs, ingénieurs et étudiants de toute la Suisse, avec le soutien technique du Centre national suisse de calcul scientifique (CSCS) qui dispose d’une infrastructure de premier plan en matière de puissance de calcul. Cette expertise collective, issue de plusieurs institutions et disciplines, a rendu le développement d’Apertus possible.

Financement et partenariats stratégiques
Le développement de ce modèle linguistique de grande ampleur, ainsi que la recherche sur les modèles de fondation spécifiques à certains domaines, est financé par le Conseil des EPF, l’organe de direction stratégique du Domaine des EPF (comprenant l’ETH Zurich, l’EPFL, le WSL, le PSI, l’Empa et l’Eawag). Ce financement est complété par la contribution de partenaires stratégiques, notamment Swisscom, premier fournisseur de télécommunications de Suisse.

A propos de Swiss {ai} Weeks
Les Swiss {ai} Weeks sont une initiative collaborative visant à transformer les avancées de la recherche suisse en IA en un impact concret pour la société et l’économie. Par le biais de hackathons, d’événements d’experts, de rencontres publiques et d’incubation de startups, elles rassemblent chercheurs, développeurs, entrepreneurs et citoyens autour d’un objectif commun : promouvoir une IA éthique, ouverte et digne de confiance. Au cœur de cette initiative se trouve le premier grand modèle de langage open source suisse — développé dans l’esprit des valeurs suisses : transparence, responsabilité et multilinguisme. Les Swiss {ai} Weeks insufflent ainsi un élan collectif en faveur d’applications d’IA responsables — décentralisées, pratiques et orientées vers le bien commun. L’initiative est portée par le EPFL AI Center, l’ETH AI Center, Swisscom, Impact Hub Switzerland, Kickstart Innovation, Panter et Wildcard Media.


Auteurs: Melissa Anchisi / EPFL, Florian Meyer ETH Zurich, CSCS

Source: EPFL

Ce contenu est distribué sous les termes de la licence Creative Commons CC BY-SA 4.0. Vous pouvez reprendre librement les textes, vidéos et images y figurant à condition de créditer l’auteur de l’œuvre, et de ne pas restreindre son utilisation. Pour les illustrations ne contenant pas la mention CC BY-SA, l’autorisation de l’auteur est nécessaire.