Collaborer sur des données sensibles sans divulguer leurs secrets
Dans un monde où les données jouent un rôle de plus en plus important pour les décisions stratégiques, les collaborations et le partage de données entre différentes organisations et entreprises est en constante augmentation. Afin de garantir la confidentialité des données et d’éviter le vol, la spin-off Tune Insight développe un logiciel qui permet de travailler sur les données chiffrées provenant de plusieurs sources.
Le big data a conduit ces dernières années au développement de nombreuses méthodes statistiques et d’analyse afin d’en tirer des informations toujours plus pointues et spécifiques dans d’innombrables domaines : santé, assurances, politique, transports... Il peut s'agir de données sur des clients ou des patients, d'informations sur les concurrents, de chiffres sur l'impact de produits. Mais la quantité de données qu'une entreprise ou une organisation peut collecter est limitée, à la fois d'un point de vue réglementaire et d'un point de vue pratique. Les analyses, statistiques et prévisions pourraient être affinées et gagner en précision moyennant un élargissement du panel. Les entreprises et organisations sont ainsi de plus en plus nombreuses à conclure des accords bilatéraux de partage des données, non sans crainte, malgré les précautions, quant au vol et à la confidentialité de ces dernières.
Afin de multiplier et faciliter les possibilités de partage, une spin-off du Center for digital trust de l’EPFL, Tune Insight, a mis au point un système unique au monde qui permet de faire parler les données chiffrées de différentes sources de manière décentralisée et sans qu’aucune partie ne puisse prendre connaissance des données des autres. Ce système, pouvant être déployé à grande échelle et à distance, a été testé avec succès sur plusieurs types de données, y compris sur le type de données sans doute le plus sensible, les données médicales. De plus, il permet aux organisations l’utilisant de se conformer aux régulations les plus strictes en matière de protection des données comme le RGPD (Règlement européen sur la protection des données).
Les données restent chiffrées pendant les calculs
Le logiciel mis au point par la start-up évite tout transfert de données et facilite la conformité avec les réglementations sur la protection des données comme la RGPD : il puise les informations nécessaires, mais les communications et les calculs sont chiffrés. Basé sur le principe du chiffrement homomorphe multipartite, un algorithme de chiffrement permet de masquer certaines valeurs numériques tout en conservant les propriétés permettant les opérations souhaitées. « Le résultat des opérations effectuées sur les données chiffrées sera le même que si ces opérations avaient été effectuées sur les données non chiffrées », précise Juan Troncoso-Pastoriza, CEO de la start-up. Il ajoute «nous entrons dans une nouvelle ère en ce qui concerne la protection des données, avec la possibilité de garder les données chiffrées aussi durant leur utilisation, et pas seulement lors de leur stockage et transmission. Tune Insight est un des leaders de cette transition».
Ce nouveau système, issu de nombreuses années de recherche au sein du Laboratoire pour la sécurité des données de l’EPFL, permet à différents groupes de procéder à des analyses statistiques et de développer des modèles d’intelligence artificielle de manière collaborative, sans avoir à échanger les ensembles de données sous-jacents. Pour Juan Troncoso-Pastoriza, « aucun système actuel ne propose une protection suffisante. Ils imposent au minimum de partager des résultats intermédiaires, ou d’ajouter du bruit, c’est-à-dire compliquer la lecture des données pour limiter les fuites, mais la précision des résultats est alors amoindrie ». Cette nouvelle approche ouvre tout un champ de nouvelles possibilités puisque les discussions entre les différents partis pour parvenir à des accords multilatéraux de transfert et d’utilisation des données seront écourtées, grâce aux garanties de sécurité accrues. Par exemple, dans le contexte de la santé, cela permet d'accélérer les processus pour améliorer le diagnostic et les thérapies, surtout dans les domaines de l'oncologie et des maladies rares.
Prototype et tests pilotes en cours
Le système a été testé par le Laboratoire de sécurité des données dans le cadre d’une vaste étude autour de la médecine prédictive, préventive, personnalisée et participative (P4), impliquant le CHUV, les HUG et l’Inselspital à Berne. Une autre partie de cette recherche menée en collaboration avec l’institut Broad et le MIT, qui a fait l’objet d’un article paru dans Nature Communications en octobre, a permis de reproduire avec précision et efficacité deux autres études effectuées sur des données non chiffrées .
Forte d’une première levée de fonds avec Wingman Ventures et de l’obtention de la deuxième étape du prix Venture kick, et présenté dans diverses conférences - notamment au Web Summit de Lisbonne en novembre 2021-, l’entreprise, sise à l’EPFL Innovation Park, propose des versions pilotes dans le domaine de la santé et développe des prototypes dans de nombreux autres domaines : cybersécurité, chaîne d’approvisionnement, assurances, banques…