Avons-nous vraiment besoin de centres de données géants pour l'IA?

Row of modern server racks in a data center illuminated by blue lights © iStock
Une équipe de l’EPFL a développé un logiciel qui permet à l’IA d’exécuter une tâche sans passer par les services «cloud» de tiers. Le système relayé par une start-up pourrait remettre en question le modèle commercial des géants de la Tech.
L’utilisation de l’intelligence artificielle dans les tâches quotidiennes a explosé ces trois dernières années. Les modèles d’IA sont de plus en plus utilisés pour traiter des données sensibles, telles que les dossiers médicaux, les demandes clients ou tout document confidentiel lié au travail.
Chaque fois que l’IA est sollicitée pour effectuer une tâche, la requête commence localement sur l’ordinateur personnel, puis est envoyée dans le cloud où l’IA génère une réponse à l’aide de la puissance computationnelle des centres de données. Un processus appelé inférence. La réponse est finalement renvoyée à l’ordinateur local de l’utilisatrice ou de l’utilisateur.
L’inférence requiert actuellement d’immenses capacités de traitement des données, rassemblées dans de gigantesques centres de données qui servent également à entraîner des modèles d’IA tels que ChatGPT, Gemini ou Claude. Il en résulte que l’inférence et l’entraînement sont actuellement presque exclusivement pilotés par les grandes entreprises technologiques.
Simplification de l’IA distribuée
Gauthier Voron, Geovani Rizk et Rachid Guerraoui, chercheurs au Laboratoire d’informatique distribuée (DCL) de la Faculté informatique et communications de l’EPFL, proposent un nouveau paradigme. Ils ont développé un logiciel qui permet aux utilisatrices et utilisateurs de télécharger des modèles d’IA open source et de les utiliser localement, sans avoir besoin du cloud pour répondre à leurs requêtes ou effectuer des tâches.
Ce nouveau logiciel, appelé AnywaySystems, réunit et coordonne la puissance des ordinateurs distribuée dans un réseau local afin de la regrouper sur place. À l’aide de techniques d’auto-stabilisation robustes, il optimise l’utilisation du matériel local sous-jacent, ce qui contredit l’idée commune selon laquelle de gigantesques centres de données sont nécessaires pour déployer des modèles d’IA.
Le logiciel peut être installé en seulement une demi-heure sur un réseau de machines locales sans qu’aucune donnée ne sorte du réseau, garantissant ainsi confidentialité et souveraineté. Un grand modèle d’IA comme GPT-120B, le dernier et le plus important modèle open source d’OpenAI, peut être téléchargé et déployé sur Anyway systems en quelques minutes. Pas plus de quatre machines équipées chacune d’un GPU de base (soit environ 10'000 francs) sont nécessaires, au lieu d’une armoire de serveurs spécialisés dix fois plus onéreux, jusqu’à présent considérés comme les seuls aptes à exécuter un modèle d’IA.
«Depuis des années, les gens pensent qu’il est impossible d’avoir de grands modèles de langage (LLM) et des outils d’IA sans d’énormes ressources et que la confidentialité, la souveraineté et la durabilité des données n’en sont que les victimes. Mais ce n’est pas tout à fait juste, car des approches plus intelligentes et plus sobres sont possibles», affirme Rachid Guerraoui, professeur au DCL.
Confidentialité, souveraineté et durabilité
Envoyer ses données dans le cloud pose des questions cruciales en matière de sécurité et de confidentialité, en particulier si ces données sont utilisées pour contribuer à entraîner ou améliorer des modèles d’IA. En outre, la dépendance envers de grands fournisseurs mondiaux de cloud pour les services d’IA soulève des questions de souveraineté, car elle transfère le contrôle des actifs nationaux essentiels – données, algorithmes et infrastructures – d’une entité nationale à des entreprises transnationales.
De plus, l’immense puissance de calcul nécessaire pour répondre aux requêtes d’IA dans le cloud – l’inférence représenterait 80 à 90% de la puissance de calcul liée à l’IA – contribue à la multiplication rapide des gigantesques centres de données dédiés à l’IA, consommant d’importantes quantités d’énergie et d’eau.
«Anyway Systems permet de contourner l’inférence, se félicite Rachid Guerraoui. Mais il pourrait aussi contribuer à réduire les ressources nécessaires à l’entraînement. Des tests pilotes ont montré que lorsqu’un modèle est téléchargé et exécuté sur des machines locales disséminées plutôt que sur un cloud immense, nous pouvons perdre un peu en latence – c’est-à-dire du temps de réponse à une requête – mais pas en précision.»
De la blockchain à l’IA?
«Notre logiciel est simple, évolutif et sûr», poursuit Rachid Guerraoui. Les premières variantes de l’algorithme Anyway ont été développées il y a plusieurs années par le DCL, spécialisé dans l’informatique distribuée, la tolérance aux pannes, l’optimisation et la confidentialité. Les premiers algorithmes du DCL apportaient des solutions à d’autres défis technologiques, telles que la blockchain et la cryptomonnaie. Il y a trois ans, Rachid Guerraoui et ses collègues ont eu l’idée d’appliquer des techniques d’auto-stabilisation à l’IA, trouvant une solution presque parfaite.
«En tant que laboratoire, nous sommes peut-être les seuls à travailler à la fois sur l’informatique distribuée robuste et l’apprentissage machine d’un point de vue théorique et pratique. Nous nous sommes concentrés sur l’utilisation de techniques d’auto-stabilisation pour l’IA. Et elles ont fonctionné. En optimisant toujours davantage, elles ont encore mieux fonctionné! Le résultat est presque trop beau pour être vrai», confie Rachid Guerraoui.
Demain, votre propre IA chez vous
La start-up Anyway Systems a récemment été choisi comme l’un des six premiers bénéficiaires du Startup Launchpad AI Track, soutenu par UBS, le premier programme de subventions suisse dédié à l’IA. Sélectionnés parmi plus de 50 propositions, ces projets bénéficient d’un financement et d’un soutien sur mesure pour accélérer leur passage du stade du prototype à la mise sur le marché.
Le logiciel a désormais dépassé la phase de prototype et est actuellement testé dans des entreprises et administrations en Suisse, y compris à l’EPFL. Les premiers utilisateurs et utilisatrices évaluent actuellement les compromis possibles en termes de rapidité, de précision et de qualité.
«Anyway Systems représente une technologie intéressante et séduisante qui optimise l’utilisation des ressources tout en garantissant la sécurité et la souveraineté des données. Elle pourrait changer la donne de l’IA, précise David Atienza, vice-président associé pour les centres et les plateformes de l’EPFL. Son approche durable correspond parfaitement aux besoins des plateformes informatiques avancées de l’EPFL et jouera un rôle majeur dans l’orientation du futur développement de l’IA à l’EPFL, qui vise à consommer moins de ressources grâce au nouveau déploiement de modèles LLM tels qu’Apertus.»
Pour l’instant, le système ne fonctionne pas sur un simple ordinateur de bureau ou un portable chez soi, mais l’histoire de l’informatique montre que l’optimisation est souvent rapide. «Un téléphone contient aujourd’hui des quantités astronomiques d’informations inimaginables il y a quelques années et on peut tout faire avec. Il peut battre les 100 meilleurs champions d’échecs en même temps, alors que l’ordinateur qui a défié Kasparov était colossal. L’histoire montre que les choses se passent comme ça : un jour l’IA pourra travailler localement. On téléchargerait l’IA open source de notre choix, on l’adapterait à nos besoins, et ce sera nous, pas les grandes entreprises technologiques, qui seront les maîtres du jeu», conclut Rachid Guerraoui.
Quelle est la différence entre Anyway Systems et Google AI Edge?
Google AI Edge est destiné à être utilisé sur des téléphones mobiles pour des modèles très spécifiques et de petite taille créés par Google, chaque utilisateur et utilisatrice exécutant un modèle limité par la capacité du téléphone. Il n'y a pas de calcul distribué permettant le déploiement des mêmes modèles d'IA puissants et volumineux, partagés par de nombreux utilisateurs et utilisatrices d'une même organisation de manière évolutive et tolérante aux pannes. Anyway System peut gérer des centaines de milliards de paramètres avec seulement quelques GPU.
Quelle est la différence entre Anyway Systems et d'autres solutions qui permettent aux utilisateurs d'exécuter des LLM locaux tels que Llama ou msty.ai?
La plupart de ces approches permettent de déployer un modèle sur une seule machine, ce qui constitue une source unique de défaillances. Pour déployer les modèles les plus puissants, il faut investir dans des machines très coûteuses, essentiellement du même type que celles que l'on trouve dans un centre de données. Par conséquent, si vous disposez d'une seule machine standard, les solutions citées sont utiles pour déployer de petits modèles. Si vous disposez de plusieurs machines standard, vous ne pouvez pas les combiner efficacement avec les solutions citées pour déployer un grand modèle, et même si vous le pouviez, cela nécessiterait une équipe pour gérer et maintenir le système. Le système Anyway le fait de manière transparente, robuste et automatique. Le fait qu'une machine tombe en panne, quitte ou rejoigne le réseau est transparent dans les systèmes Anyway, à l'exception d'un léger changement dans la latence (le temps de réponse à une requête).
Les modèles d'IA sont constamment améliorés et alimentés, comment ces améliorations se reflètent-elles localement?
Comme le système Anyway permet de déployer localement n'importe quel modèle d'IA open source, l'alimenter avec des données locales et sensibles devient tout à fait sûr et acceptable, redonnant ainsi le contrôle à l'utilisateur.