La voix, une source de données précieuse pour l'IA

©iStock
Avec l’IA, la voix a pris une autre tonalité. Derrière les mots, il y a des données qui peuvent être utilisées tant pour diagnostiquer un problème de santé que pour usurper une identité.
Parler à des machines ne relève plus de la science-fiction. Alexa (Amazon) est dans nos foyers depuis plus de dix ans et de plus en plus d’utilisateurs et d’utilisatrices de chatbot privilégient les interactions orales. Qu’il s’agisse de dicter un message ou demander des directions, cette évolution n’est pas seulement technique – car oui, les systèmes d’IA sont toujours plus performants – mais également sociétale et informe sur la manière dont les humains interagissent avec les machines. Or, derrière les mots, il y a les données.
Contrairement à un mot de passe, la voix ne se modifie pas facilement. Elle est façonnée par des caractéristiques physiologiques, linguistiques et personnelles. Cette empreinte vocale est capable d’identifier un individu et de révéler des attributs sensibles, tels que l’origine ou le genre. La voix est donc une donnée biométrique particulièrement riche.
«Lorsqu’une utilisatrice ou un utilisateur interagit avec un système vocal, il ne transmet pas seulement du contenu, mais aussi des informations implicites : émotions, caractéristiques physiques ou comportements», explique Andrea Cavallaro, professeur et directeur du Laboratoire de systèmes intelligents multimodaux à l’EPFL. La voix, en effet, contient de nombreuses caractéristiques parfois subtiles, telles que le rythme, l’accent, le ton, la vitesse, l’intonation, le volume, le type de vocabulaire employé, etc., qui peuvent toutes trahir son ou sa propriétaire.
Une mine pour la santé
Les travaux de recherche d’Andrea Cavallaro démontrent que ces informations peuvent être exploitées par des systèmes d’analyse, soulevant des enjeux importants en matière de vie privée. Plus qu’un simple canal de communication, la voix est une source de données à part entière.
Les opportunités de les exploiter ne manquent pas, particulièrement dans la santé. Les mêmes caractéristiques qui la rendent identifiable en font un signal riche d’informations. Des variations subtiles dans la parole peuvent révéler, par exemple, des troubles neurologiques, des maladies respiratoires ou des états émotionnels. C’est sur cette base que travaille la start-up Virtuosis AI, dirigée par Lara Gervaise, alumni de l’EPFL. Elle explore l’utilisation de la voix comme outil de diagnostic, ce qui pourrait offrir une approche non invasive du suivi médical. Mais cette promesse implique aussi une responsabilité accrue, car les données de santé sont parmi les plus sensibles.
Avec l’IA, la voix devient un vecteur d'usurpation d'identité à grande échelle
Enjeux juridiques
Dans un tout autre registre, des actrices, acteurs et professionnels du doublage ont engagé des actions en justice contre des entreprises accusées d’avoir utilisé leur voix pour entraîner des modèles d’IA sans leur consentement. Cette accusation repose sur un principe simple : la voix fait partie de l’identité d’une personne et est donc protégée par les droits de la personnalité ou de l’image.
En outre, les outils de clonage vocal sont aujourd'hui accessibles au grand public, parfois gratuitement. Ce n’est donc plus seulement la voix d'un acteur qui peut être imitée, mais celle de n'importe qui.
«Vous pouvez imaginer les cas de figure: passer un appel frauduleux, piéger un proche ou forger une preuve audio. La voix a longtemps été perçue comme une signature personnelle. Avec l’IA, elle devient un vecteur d'usurpation d'identité à grande échelle», prévient Andrea Cavallaro.
Protéger la vie privée dès la conception des modèles
Comment dès lors protéger ses données vocales? Parmi les solutions, l’anonymisation de la voix semble une piste prometteuse. Les travaux d’Andrea Cavallaro proposent de transformer la voix afin de préserver son intelligibilité tout en masquant l’identité ou le genre du locuteur. L’approche consiste à générer des voix «ambiguës», limitant la capacité des systèmes à déceler des informations sensibles.
L’enjeu est de trouver l’équilibre entre utilité et confidentialité. Une transformation trop forte dégrade la qualité du signal, tandis qu’une modification insuffisante laisse fuiter des informations. Ses recherches montrent qu’un compromis est possible. «On voit une évolution plus large vers une privacy by design, où la protection des données est intégrée dès la conception des systèmes», détaille le professeur.
À mesure que la voix s’impose comme une interface dominante, elle oblige à repenser le lien entre technologie, identité et confidentialité. Le fait de s’exprimer oralement semble éphémère, les paroles disparaissent une fois prononcées. Mais avec l’IA, celles-ci deviennent des données captées, analysées et potentiellement conservées.
Du côté des consommateurs et consommatrices, l’utilisation de masse est assumée. Forbes révélait déjà en 2025 qu’environ 60% des utilisatrices et utilisateurs de smartphone employaient leur assistant vocal régulièrement, démontrant une nette augmentation sur les dernières années. Globalement, on estime le nombre d’assistants vocaux à 8,4 milliards, c’est plus que la population mondiale. Cela s’explique par les nombreux appareils utilisés par un seul et même foyer (téléphone, télévision, voiture, etc.).
Cette adoption rapide s’explique par des facteurs techniques, mais aussi comportementaux. Le traitement naturel de langage et l’IA générative permettent des interactions vocales plus fluides, de type conversationnel, sans les mains. Plus qu’une commande vocale, c’est une interaction avec ces systèmes qui transforme la manière dont nous accédons et traitons l’information, les services et la technologie d’IA elle-même.