«Les clauses ambiguës sont débusquées grâce à notre outil»

« Les contrats de confidentialité qui semblent clairs sont en fait très ambigus » estime Hamza Harkous © 2018 Alain Herzog

« Les contrats de confidentialité qui semblent clairs sont en fait très ambigus » estime Hamza Harkous © 2018 Alain Herzog

Les nouvelles législations européennes entrées en vigueur en mai ont suscité un nouvel intérêt du grand public quant à l’utilisation des données privées par les créateurs de sites internet. Un outil basé sur l’AI et créé à l’EPFL, Polisis, offre un résumé facilement lisible des contrats. Hamza Harkous, l’un des auteurs de cet outil, est le premier surpris du nombre de demandes de licences qui ont transité par le Technology Transfer Office de l’École. Le premier accord vient d’être signé avec un moteur de recherche américain, DuckDuckGo. Interview avec Hamza Harkous.

De nombreuses demandes sont parvenues à l’Office de transfert de technologies (TTO) de l’EPFL pour obtenir une licence sur l’intelligence artificielle Polisis, qui résume en un tableau coloré les éléments importants des contrats de protection des données. De qui émanent ces demandes ?

Il y a effectivement eu une vingtaine de demandes pour l’utilisation de Polisis en quelques mois, de la part d’entreprises travaillant dans le service web, de logiciels de management de la sphère privée ou de logiciels pour la monétisation des données. D’autres proviennent d’avocats travaillant sur les textes légaux autour de l’aspect privé des données, notamment dans le but de tester leurs documents. Finalement des publicitaires souhaitent également l’utiliser pour placer des annonces en respectant la législation. Quelques-unes de ces demandes portaient sur un contrat d’exclusivité, ce que nous ne voulons pas. Une licence d’utilisation vient d’être signée avec le moteur de recherche américain DuckDuckGo, dont la marque de fabrique est de vouloir préserver la vie privée, par exemple en ne stockant aucune information personnelle concernant les utilisateurs.

En quoi votre programme est-il intéressant pour ce moteur de recherche ?

Les algorithmes de Polisis seront intégrés dans l’extension « privacy essentials ». Celle-ci comprend déjà un résumé des informations importantes en termes de respect des données privées, mais celui-ci est actuellement effectué manuellement sur la base de quelques dizaines de sites. Avec l’automatisation rendue possible par notre intelligence artificielle, il va pouvoir passer rapidement à des dizaines de milliers. Il est à noter que nos algorithmes n’ont toutefois pas une valeur légale, mais indicative, avec un taux de fiabilité d’environ 80 % pour l’instant.

Était-ce un succès attendu lorsque vous développiez ces algorithmes ?

Nous avons développé cette technologie au Laboratoire de systèmes d’information répartis de l’EPFL, en collaboration avec les Universités du Wisconsin et du Michigan aux États-Unis, durant un an et demi, dans un but de recherche. Or depuis que nous l’avons mise en ligne, non seulement le nombre de demande auprès du TTO a dépassé nos attentes, mais plus de 30'000 utilisateurs l’ont également essayé en ligne. Une partie de ce succès est certainement dû à la simplicité d’utilisation : les gens n’avaient pas besoin d’être des experts pour y avoir accès puisque le résumé sur un graphique en couleur est compréhensible de tous. De plus nous avons été aidés par l’actualité puisqu’en mai de cette année le nouveau règlement européen matière de protection des données à caractère personnel (GDPR) est entré en vigueur. Notre site est clairement le plus facile d’accès pour analyser les différents contrats, souvent interminables, désormais obligatoires pour tous les sites internet. Cela nous a donc également amené une audience de gens simplement curieux. Cela m’a fait presque regretter de n’avoir pas fondé une start-up autour de cette technologie (sourire).

Avez-vous des concurrents ?

Il existe des sites internet qui analysent les termes des contrats, mais ils ont un fonctionnement différent. Ils mettent en évidence des parties de ces textes selon les recherches que l’utilisateur effectue. Il ne fait pas de résumé automatique global sur l’utilisation des données.

Des résultats obtenus par votre programme vous ont-ils étonnés ?

Il était intéressant de constater que des sites peu réputés pour leur gestion de la vie privée des utilisateurs apparaissent comme plutôt respectueux. Leurs éditeurs ont constitué des armées d’avocats qui lissent les textes et utilisent des termes génériques pour passer au travers des filtres. Au final cela produit des clauses très ambiguës avec l’utilisation de termes génériques comme « avec nos partenaires pour différentes raisons », « si nécessaire » ou « effectivement », par exemple. Au premier abord les textes ont l’air très clairs, mais en analysant chaque donnée on s’aperçoit vite que ce n’est pas le cas. Cette tendance continue avec le nouveau règlement européen. Nos algorithmes augmentent la transparence, et font apparaître ce genre de détails qui ont toute leur importance. Pour améliorer encore la reconnaissance de ces termes génériques, nous travaillons actuellement avec le Laboratoire de Kassem Fawaz à l’université du Wisconsin.

Votre intelligence artificielle évalue où passent les données et dans quel but elles sont utilisées, mais y a-t-il pour l’utilisateur une manière de s’assurer que les déclarations de confidentialité sont suivies ?

Effectivement, nous n’avons pas accès au serveur, nos services s’arrêtent donc là. Par contre des extensions, comme celles fournies par DuckDuckGo, peuvent détecter les trackers sur les sites internet et vérifier si ceux-ci sont mentionnés dans le règlement concernant les données privées du site. Il est donc ainsi possible de voir les critiques et problèmes qui auraient pu surgir.