Prix EPFL de Doctorat - 2025 - Bahar Taskesen

© Anne Ryan www.anneryanphoto.com

© Anne Ryan www.anneryanphoto.com

Reliable Data-Driven Decision-Making through Optimal Transport

Thèse EPFL n°10134

Directeur de thèse : Prof. Daniel Kuhn

Pour ses travaux pionniers à l’intersection de la prise de décision fondée sur les données et du transport optimal. Ses contributions à l’optimisation robuste par rapport à la distribution (distributionally robust optimization) améliorent significativement la fiabilité et l’équité des systèmes de prise de décision automatisée, tout en maintenant leur efficacité computationnelle.

La prise de décision imprègne chaque aspect du développement humain et sociétal, des choix quotidiens des individus aux décisions complexes prises par les communautés et les institutions. Au cœur d’une prise de décision efficace se trouve la discipline de l’optimisation, qui recherche le meilleur choix parmi un ensemble d’alternatives selon des critères spécifiques. Cette thèse porte sur des problèmes d’optimisation alimentés par l’abondance croissante de données. À une époque où les données sont omniprésentes, les algorithmes d’apprentissage automatique offrent un potentiel sans précédent pour améliorer la prise de décision dans des secteurs variés tels que la santé, la finance et la technologie. L’adoption enthousiaste de l’apprentissage automatique dans divers secteurs a rendu nécessaire une approche plus prudente, en constatant que la fiabilité de ces systèmes dans des situations réelles complexes n’est pas toujours garantie.

Au cœur de cette recherche se trouve l’ambition de concevoir des algorithmes capables de prendre des décisions fiables fondées sur les données. Cela implique de relever les défis consistant à garantir des performances robustes hors des environnements d’entraînement, à intégrer des mesures d’équité lorsque cela est nécessaire, et à assurer l’interprétabilité des décisions tout en préservant l’efficacité de calcul. Tenter de satisfaire simultanément toutes ces exigences est une tâche redoutable, compte tenu des défis liés à la collecte des données et à la modélisation.

Dans sa forme la plus générale, notre objectif dans cette thèse consiste à modéliser, développer des outils pour et auditer des systèmes de prise de décision fondés sur des données générées par un mécanisme inconnu. Le fil conducteur des travaux présentés dans cette thèse est l’utilisation du transport optimal. Ainsi, la première partie de cette thèse présente le problème de transport optimal, en étudie la complexité de calcul et propose des solutions numériques. Le reste de la thèse explore deux paradigmes d’apprentissage étroitement liés : la prise de décision statique, où les décisions n’ont pas d’impact immédiat sur les données utilisées lors de l’entraînement, et la prise de décision dynamique, où les décisions influencent activement le processus d’acquisition des données.

Le troisième chapitre s’intéresse ensuite au développement d’estimateurs dans des scénarios marqués par une rareté de données dans le domaine cible, malgré l’abondance de données dans un domaine source apparenté. En recourant au transport optimal, nous proposons des estimateurs robustes qui tirent parti des données sources tout en tenant compte de la rareté des données cibles. Au quatrième chapitre, nous nous concentrons sur la création de modèles à la fois équitables et robustes. Nous introduisons un modèle de régression logistique robuste au sens distributionnel, assorti d’une pénalité d’inéquité, qui contribue à prévenir les discriminations fondées sur des attributs sensibles tels que le genre ou l’origine ethnique. Ce modèle est traitable lorsqu’on utilise un ensemble d’ambiguïté fondé sur le transport optimal.

S’il est important d’entraîner des modèles équitables, il est tout aussi crucial d’examiner rigoureusement les modèles d’apprentissage automatique avant leur déploiement en pratique. Dans le cinquième chapitre, nous mobilisons des idées de la théorie du transport optimal et proposons un test statistique permettant de détecter les classificateurs inéquitables. Le sixième chapitre étend les problèmes de commande linéaire quadratique gaussienne (LQG) à leurs homologues robustes au sens distributionnel en utilisant un ensemble d’ambiguïté fondé sur le transport optimal, offrant des éclairages structurels qui facilitent la conception efficace de solutions numériques.



Images à télécharger

© Bahar Taskesen
© Bahar Taskesen

Partager sur