Recourir à la matrice pour que Meta passe à la vitesse supérieure
En décembre 2004, un million de personnes étaient actives sur Facebook. Près de deux décennies plus tard, les produits de la société mère de Facebook, Meta, sont utilisés par plus de 3 milliards de personnes dans le monde, dont 1,93 milliard sont actives chaque jour sur Facebook. L’EPFL participe à une collaboration unique autour de la recherche sur l’apprentissage profond distribué.
Pour une base d’utilisatrices et d’utilisateurs de cette envergure, des systèmes automatisés à grande échelle sont nécessaires pour comprendre l’expérience des utilisatrices et utilisateurs afin de garantir la précision et le succès. Dirigé par le professeur Martin Jaggi, le Laboratoire d’apprentissage machine et d’optimisation (MLO) de l’EPFL collabore activement avec Meta Platforms, Inc., la société mère de Facebook, pour relever ce défi.
Grâce au financement du centre de recherche EcoCloud de l’EPFL, le MLO travaille avec Meta par le biais de stages au sein de l’entreprise pour les chercheuses et chercheurs du MLO et l’utilisation par Meta d’une invention pionnière: PowerSGD. Le MLO aide Meta à analyser et à mieux comprendre les expériences de millions d’utilisatrices et utilisateurs tout en respectant leur vie privée. Cela nécessite un apprentissage collaboratif, c’est-à-dire l’analyse, dans le respect de la vie privée, d’informations provenant de nombreux appareils pour l’entraînement d’un réseau neuronal qui rassemble, voire prédit, des modèles de comportement.
Pour ce faire, une stratégie clé consiste à répartir l’étude de ces modèles sur «la périphérie», en utilisant à la fois l’appareil de l’utilisateur et les autres appareils qui se trouvent entre lui et le centre de données, comme une forme d’apprentissage distribué. D’où la nécessité d’un flux rapide d’informations et d’une analyse efficace des données. PowerSGD est un algorithme qui comprime les mises à jour du modèle sous forme de matrice, permettant une réduction drastique de la communication requise pour l’apprentissage distribué. Lorsqu’il est appliqué aux référentiels d’apprentissage profond tels que la reconnaissance d’images ou les modèles de conversion de texte, l’algorithme économise jusqu’à 99% de la communication tout en gardant une précision de modèle correcte.
PowerSGD a permis d’accélérer l’apprentissage du modèle XLM-R jusqu’à 2 fois. XLM-R est un modèle de traitement du langage naturel essentiel qui alimente la plupart des services de compréhension de texte de Meta. Facebook, Instagram, WhatsApp et Workplace s’appuient tous sur XLM-R pour leurs besoins en matière de compréhension de texte. Les cas d’utilisation comprennent: 1) Intégrité du contenu: détection des discours haineux, de la violence, des brimades et du harcèlement; 2) Classification des sujets: elle permet le classement des flux de produits comme Facebook; 3) Intégrité de l’entreprise: détection de toute infraction aux directives en matière de publicité dans tous les produits; 4) Magasins: garantir une meilleure compréhension des produits et fournir des recommandations aux magasins.
«Le processus comporte trois aspects. Le premier consiste à développer des algorithmes de compression de gradient pour accélérer l’apprentissage, réduisant ainsi le temps nécessaire à la préparation de ces informations en vue de leur transfert vers un hub centralisé. Le second est l’entraînement efficace du réseau neuronal dans un centre de données. Il faudrait normalement plusieurs semaines pour traiter toutes les informations, mais nous distribuons l’apprentissage, ce qui réduit les calculs de plusieurs mois à quelques jours», explique Tao Lin, chercheur doctorant au MLO.
Troisième aspect, le respect de la vie privée est un facteur constamment pris en considération. «Nous devons faire la distinction entre les connaissances et les données. Nous devons garantir le respect de la vie privée des utilisatrices et utilisateurs en nous assurant que nos algorithmes d’apprentissage peuvent extraire des connaissances sans extraire leurs données personnelles, ce que nous pouvons faire grâce à l’apprentissage fédéré», poursuit Tao Lin.
L’algorithme PowerSGD a gagné en popularité au cours des dernières années. Les développeuses et développeurs du logiciel d’apprentissage profond PyTorch l’ont intégré dans leur suite logicielle (PyTorch 1.10), qui est utilisée par Meta, OpenAI, Tesla et des entreprises technologiques similaires qui s’appuient sur l’intelligence artificielle. La collaboration avec Meta doit se poursuivre jusqu’en 2023.