Peut-on convaincre une IA de répondre à une requête néfaste?

Cyber security hologram with digital shield 3D rendering © iStock

Cyber security hologram with digital shield 3D rendering © iStock

Une recherche de l’EPFL montre que, malgré un entraînement à la sécurité, les grands modèles de langage (LLM) les plus récents restent vulnérables à de simples manipulations de données qui peuvent les amener à se comporter de manière involontaire ou préjudiciable.

Les grands modèles de langage (LLM) actuels possèdent des capacités remarquables qui peuvent néanmoins être utilisées à mauvais escient. Par exemple, une personne malveillante peut les utiliser pour produire du contenu nocif, diffuser de fausses informations et soutenir des activités nuisibles.

L’entraînement à l’alignement sur la sécurité ou au refus – où les modèles sont guidés pour générer des réponses jugées sûres par les êtres humains et pour refuser de répondre à des demandes de renseignements potentiellement préjudiciables – est couramment utilisé pour réduire les risques d’abus.

Pourtant, une nouvelle recherche de l’EPFL, présentée lors de l’atelier sur la prochaine génération de sécurité de l’IA de la conférence internationale sur l’apprentissage automatique 2024, a montré que même les LLM les plus récents et sécurisés ne résistent pas à de simples attaques de «jailbreak» adaptatives. En effet, il est possible d’utiliser des techniques de «manipulation», notamment au niveau du prompt, visant à influencer le comportement d’un modèle et à générer des résultats qui s’écartent de son objectif.

Contourner les garde-fous des grands modèles de langage

Comme le souligne leur article intitulé «Jailbreaking leading safety-aligned LLMs with simple adaptive attacks», les chercheurs Maksym Andriushchenko, Francesco Croce et Nicolas Flammarion du Laboratoire de théorie en apprentissage machine (TML) de la Faculté informatique et communications ont atteint pour la première fois un taux d’attaque de 100 % sur de nombreux LLM de premier plan. Cela inclut les LLM les plus récents d’OpenAI et d’Anthropic, tels que GPT-4o et Claude 3.5 Sonnet.

«Nous montrons qu’il est possible d’exploiter les informations disponibles sur chaque modèle pour créer des attaques adaptatives simples, que nous définissons comme des attaques spécifiquement conçues pour cibler une défense donnée. Nous espérons que nos travaux constitueront une précieuse source d’informations sur la robustesse des LLM frontières», explique Nicolas Flammarion, responsable du TML et coauteur de l’article.

L’outil clé des chercheurs était un modèle d’invite qui a été conçu manuellement et utilisé pour toutes les demandes non sécurisées pour un modèle donné. En utilisant un ensemble de données de 50 requêtes nuisibles, ils ont obtenu un score de jailbreak parfait (100 %) sur Vicuna-13B, Mistral-7B, Phi-3-Mini, Nemotron-4-340B, Llama-2-Chat-7B/13B/70B, Llama-3-Instruct-8B, Gemma-7B, GPT-3.5, GPT-4o, Claude-3/3.5 et le R2D2 entraîné de façon adverse.

Utiliser l'adaptabilité pour évaluer la robustesse

Le point commun derrière ces attaques est l’adaptabilité: différents modèles sont vulnérables à différents prompts. Par exemple, certains modèles présentent des vulnérabilités uniques en raison de leur interface de programmation d’applications, et dans certains contextes, il est essentiel de limiter l’espace de recherche de jetons se basant sur des connaissances préalables.

«Nos travaux montrent que l’application directe des attaques existantes est insuffisante pour évaluer avec précision la robustesse adverse des LLM et conduit généralement à une surestimation significative de la robustesse. Dans notre étude de cas, aucune approche n’a fonctionné suffisamment bien. Il est donc essentiel de tester à la fois les techniques statiques et adaptatives», déclare Maksym Andriushchenko, doctorant à l’EPFL et principal auteur de l’article.

Cette recherche s’appuie sur la thèse de doctorat de Maksym Andriushchenko, Understanding generalization and robustness in modern deep learning, qui, entre autres contributions, a étudié des méthodes d’évaluation de la robustesse adverse. La thèse a exploré la manière d’évaluer et de comparer la résilience des réseaux neuronaux aux petites perturbations d’entrée et a analysé comment ces changements affectent les sorties du modèle.

Améliorer la sécurité des grands modèles de langage

Ces travaux ont servi à éclairer le développement de Gemini 1.5 (comme souligné dans leur rapport technique), l’un des derniers modèles lancés par Google DeepMind et conçus pour des applications d’IA multimodales. La thèse de Maksym Andriushchenko a également récemment remporté le Prix Patrick Denantes Memorial, créé en 2010 pour honorer la mémoire de Patrick Denantes, doctorant en systèmes de communication à l’EPFL, décédé tragiquement dans un accident d’escalade en 2009.

Maksym Andriushchenko © 2024 Maksym Andriushchenko

«Je suis ravi que mon travail de thèse ait abouti aux recherches sur les LLM, qui sont très pertinentes sur le plan pratique. C’est formidable que Google DeepMind ait utilisé les résultats de nos recherches pour évaluer ses propres modèles, souligne Maksym Andriushchenko. J’ai également été honoré de remporter ce prix, car beaucoup d’autres doctorantes et doctorants ont obtenu leur diplôme avec brio cette année.»

Le chercheur estime que la recherche sur la sécurité des LLM est à la fois importante et prometteuse. Alors que la société s’oriente vers l’utilisation des LLM en tant qu’agents autonomes, par exemple comme assistants personnels en IA, il est essentiel de garantir leur sécurité et leur alignement sur les valeurs sociétales.

«D’ici peu les agents d’IA pourront effectuer différentes tâches pour nous, comme planifier et réserver nos vacances, des tâches qui nécessiteraient d’accéder à nos agendas, nos e-mails et nos comptes bancaires. Cela soulève de nombreuses questions concernant la sécurité et l’alignement. Bien qu’il puisse être approprié pour un agent d’IA de supprimer des fichiers individuels sur demande, la suppression d’un système de fichiers complet serait catastrophique pour l’utilisatrice ou l’utilisateur. Cela souligne les distinctions subtiles que nous devons faire entre les comportements acceptables et inacceptables en matière d’IA», explique-t-il. «En fin de compte, si nous voulons déployer ces modèles en tant qu’agents autonomes, il est important de s’assurer qu’ils sont correctement entraînés pour se comporter de manière responsable et réduire au minimum le risque de causer des dommages graves.»

«Nos résultats mettent en évidence une lacune critique dans les approches actuelles de la sécurité des LLM. Nous devons trouver des moyens de rendre ces modèles plus robustes, afin qu’ils puissent être intégrés en toute confiance dans notre vie quotidienne, en veillant à ce que leurs capacités de pointe soient utilisées de manière sûre et responsable», conclut Nicolas Flammarion.

Le Prix Patrick Denantes Memorial est décerné chaque année par un jury à l’autrice ou l’auteur d’une thèse de doctorat exceptionnelle de la Faculté informatique et communications. Un soutien financier est apporté par la famille Denantes et le centre de recherche Nokia.


Auteur: Tanya Petersen

Source: EPFL

Ce contenu est distribué sous les termes de la licence Creative Commons CC BY-SA 4.0. Vous pouvez reprendre librement les textes, vidéos et images y figurant à condition de créditer l’auteur de l’œuvre, et de ne pas restreindre son utilisation. Pour les illustrations ne contenant pas la mention CC BY-SA, l’autorisation de l’auteur est nécessaire.