Une IA plus robuste pour des systèmes plus sûrs et plus fiables
Des scientifiques de l’EPFL ont découvert un problème fondamental dans le cadre de l’entraînement des systèmes d’apprentissage automatique et ont mis au point une nouvelle formulation afin de les renforcer contre les attaques contradictoires.
En repensant complètement la manière dont la majorité des systèmes d’intelligence artificielle (IA) se protègent contre les attaques, des chercheurs de la Faculté des sciences et techniques de l’ingénieur de l’EPFL ont mis au point une nouvelle approche d’entraînement. Le but? S’assurer que les modèles d’apprentissage automatique, notamment les réseaux de neurones profonds, fonctionnent toujours comme prévu, améliorant ainsi grandement leur fiabilité.
L’approche d’entraînement basée sur la pensée à somme nulle a été remplacée avec succès par un nouveau modèle dont le fonctionnement repose sur une stratégie de résistance aux attaques adaptative pour créer un scénario d’entraînement plus intelligent. Les résultats montrent que ce modèle peut être utilisé pour une grande variété d’activités dépendantes de l’intelligence artificielle pour la classification comme, par exemple, la protection des contenus des services de diffusion vidéo en flux continu, les véhicules autonomes et la surveillance. Les premiers travaux de recherche ont été menés dans le cadre d’une collaboration étroite entre le Laboratory for Information and Inference Systems (LIONS) de la Faculté Sciences et Techniques de l’Ingénieur de l’EPFL et des chercheuses et chercheurs de l’université de Pennsylvanie (UPenn).
Dans un monde numérique où le volume de données dépasse les capacités de surveillance de l’être humain, les systèmes d’intelligence artificielle exercent un pouvoir très important dans la prise de décisions critiques. Toutefois, ces systèmes ne sont pas protégés contre certaines attaques subtiles et puissantes. Des personnes malintentionnées peuvent tromper un système en apportant des changements minimes qui leur permettront d’écrire des données et de duper de manière sournoise un modèle d’IA. Le professeur Volkan Cevher et son équipe du laboratoire LIONS, notamment le doctorant Fabian Latorre, ont réussi à renforcer la sécurité pour faire face à ces attaques.
Leurs travaux ont été récompensés par un Best Paper Award lors de l’atelier New Frontiers and Adversarial Machine Learning animé lors de la Conférence internationale sur l’apprentissage automatique 2023. Les scientifiques ont réussi à identifier et à corriger une erreur dans un environnement d’entraînement très bien établi, ce qui a permis d’améliorer les défenses de l’IA face aux manipulations antagonistes. Selon Volkan Cevher, «le nouveau cadre démontre bien que l’une des idées centrales de l’entraînement contradictoire comme jeu à somme nulle et à deux joueurs est imparfait et doit être retravaillé afin d’améliorer de manière durable la robustesse».
Tous les systèmes d’intelligence artificielle sont exposés aux attaques
Le nombre de vidéos hébergées sur les plateformes de vidéos en ligne comme YouTube est bien trop important. Aussi, il est impossible que des êtres humains puissent toutes les analyser. YouTube fait donc appel à l’IA pour classer les vidéos en analysant leur contenu afin de vérifier que celui-ci respecte certaines normes. Ce processus automatique est appelé «classification». Toutefois, les systèmes de classification sont exposés aux attaques et peuvent être sabotés de manière sournoise. En effet, un hacker malveillant, appelé «adversaire» dans le domaine de la théorie des jeux, peut ajouter du bruit de fond à une vidéo présentant du contenu inapproprié. Alors que le bruit de fond ne peut pas être détecté par un être humain, celui-ci est suffisant pour perturber le système d’IA et, ainsi, contourner les dispositifs de sécurité du contenu YouTube. Des enfants peuvent alors tomber sur la vidéo et se retrouver face à du contenu à caractère violent ou sexuel, même si les contrôles parentaux sont activés.
L’exemple de YouTube n’en est qu’un parmi tous les autres. Il met en exergue une faiblesse bien connue dans les systèmes de classification basés sur l’IA. Cette faiblesse est inquiétante car ces systèmes sont de plus en plus utilisés, au point d’avoir une influence sur notre quotidien. En effet, ceux-ci sont notamment utilisés pour garantir la sécurité des véhicules autonomes, améliorer la sécurité dans les aéroports et optimiser les diagnostics médicaux dans les établissements de santé. Pour contrer ces attaques, les ingénieures et ingénieurs renforcent les défenses du système grâce à l’entraînement contradictoire, un mécanisme semblable à la vaccination pour lutter contre les virus. L’entraînement contradictoire se présente généralement sous la forme d’un jeu à somme nulle à deux joueurs. Un défenseur tente de minimiser l’erreur de classification, tandis que l’adversaire cherche à la maximiser. Si l’un gagne, l’autre perd; d’où la notion de somme nulle.
Aller au-delà du paradigme du jeu à somme nulle
Cependant, cette approche théorique est confrontée à des défis lors de la transition du concept à une application dans le monde réel. Pour remédier à cela, les chercheuses et les chercheurs proposent une solution qui altère littéralement le paradigme: une stratégie de jeu à somme non nulle. Le laboratoire LIONS, en collaboration avec les chercheuses et les chercheurs du Département d’ingénierie électrique et des systèmes (Department of Electrical and Systems Engineering) de l’UPenn dont le professeur Hamed Hassani, ancien étudiant de l’EPFL, son étudiant doctorant Alex Robey et son confrère le professeur George Pappas, a mis au point une nouvelle formule d’entraînement contradictoire et un algorithme qui, contrairement à l’approche traditionnelle à somme nulle, nécessite que le défenseur et l’adversaire optimisent plusieurs objectifs différents. Cela a permis de créer une formulation unique, c’est-à-dire une optimisation continue à deux niveaux qu’ils ont nommé «BETA» pour «BEst Targeted Attack». Sur le plan technique, le défenseur minimise une limite supérieure sur l’erreur de classification, tandis que l’adversaire maximise la probabilité d’erreur de classification en utilisant un objectif pour les marges d’erreur.
En créant un modèle contradictoire avec un adversaire plus fort qui reflète au mieux les situations réelles, les systèmes de classification de l’IA peuvent être entraînés plus efficacement. En cas de menace directe, les défenseurs ne se contentent pas uniquement d’optimiser. En effet, ils adoptent une stratégie complète qui prend en compte les pires menaces possibles. Comme le souligne Volkan Cevher, «Fabian et ses collaborateurs et collaboratrices n’ont pas une vision réductrice de l’apprentissage automatique contradictoire. En effet, ils le contextualisent tout en le maintenant ancré dans la théorie de l’apprentissage automatique, la fiabilité et la robustesse. Cette vision d’ensemble de la classification de l’entraînement leur a permis d’identifier une erreur et d’élaborer la formulation de ce qui a été, jusqu’à aujourd’hui, le moyen d’entraîner les modèles d’apprentissage automatique. En corrigeant cette erreur, nous avons réussi à rendre les systèmes d’IA plus robustes».
Les auteurs de cet article ont été récompensés par un Best Paper Award lors du 2e AdvML-Frontiers-Workshop@ICML'23, ce qui souligne l’importance de leur contribution à la communauté scientifique. Selon les auteurs de l’article, «le travail a indéniablement permis de repousser les limites de nos connaissances dans le domaine, voire même de poser les fondations de l’avenir de l’apprentissage automatique contradictoire».
Robey, Alexander; Latorre, Fabian; Pappas, George J.; Hassani, Hamed; Cevher, Volkan, Adversarial Training Should Be Cast As a Non-Zero-Sum Game (2023). arXiv:2306.11035