L'analyse topologique des données pour prédire un krach boursier
En se basant sur cette branche des mathématiques, une équipe de l’EPFL, en collaboration avec la start-up L2F, a développé un modèle robuste capable de prédire l’imminence d’une transition majeure.
L’analyse topologique des données (TDA), c’est, schématiquement, l’art de donner une forme à des nuages de points de données. Et de l’analyser pour en extraire de l’information afin, par exemple, d’opérer des tâches de classification, de reconnaissance ou de prédiction. Une équipe du Laboratoire de topologie et neurosciences, en collaboration avec la start-up de l’EPFL L2F et la HEIG-VD et avec le soutien financier d’Innosuisse, a utilisé la TDA pour développer un outil de prédiction apte à détecter des systèmes au bord de la rupture. Baptisé giotto-tda, disponible en open source, il peut fournir un avertissement avant un krach boursier, un tremblement de terre, un embouteillage, un coup d’Etat, la défaillance d’une locomotive… Et ça marche.
Par définition, les événements catastrophiques – comme les surprises – ont quelque chose d’aberrant. C’est cela qui les rend très difficiles à détecter avec les outils d’analyse classiques. Les spécialistes ont alors choisi de se tourner vers la topologie des ensembles de données pour détecter les signes de rupture imminente. Car le moment où un système s’approche d’une transition critique, par exemple quand l’eau liquide devient glace, les unités qui le caractérisent commencent aussi à s’organiser selon des formes qui changent la structure globale du système même. En effet, en se focalisant sur la forme des nuages de points, la TDA permet d’identifier précisément l’état de ces systèmes et de détecter ainsi l’imminence d’une transition. Avec l’avantage d’être très peu sensible au bruit, c’est à dire aux éléments non pertinents.
Jusqu’à présent, la TDA était surtout utilisée pour des données qui ont une structure topologique évidente telle que dans l’imagerie médicale, la mécanique des fluides, la physique des matériaux, les représentations tridimensionnels (en chimie moléculaire ou biologie cellulaire). En développant giotto-tda, les chercheurs peuvent appliquer le modèle à n’importe quel ensemble de données (ondes gravitationnelles par exemple) et doté de son information topologique nourrir des algorithmes d’apprentissage automatique pour renforcer les prédictions et fournir des signaux d’alerte.
Du bruit et des signaux peu clairs
La preuve de l’efficacité de l’outil en a été donnée par l’étude des deux dernières crises financières de 2000 et de 2008. Les chercheurs ont comparé l’analyse fournie par les prix journaliers du S&P 500, index communément utilisé pour référencer l’état du marché financier, de 1980 à nos jours, et celle donnée par giotto-tda. Le graphique montre une quantité de pics qui dépassent le seuil d’alerte. « Avec les indicateurs traditionnels, les signaux qui vous avertissent que quelque chose ne va pas bien sont très nombreux. Avec tout ce bruit, il est vraiment difficile de savoir auxquels se fier. En fin de compte, si on les suit, on ne va jamais investir, car il y a très peu de moments où le signal est vraiment clair », résume Matteo Caorsi, responsable du projet chez L2F.
Avec la méthode topologique, les graphiques sont beaucoup plus clairs. Quand il y a un pic, il est clairement au-dessus du seuil défini. Conclusion : en périodes de haute volatilité de marchés précédant un krash, l’analyse topologique des données se révèle plus robuste. Certes, ces résultats concernent seulement un marché spécifique et sur une courte période. Raison pour laquelle, le projet se poursuit, bénéficiant d’un second financement Innosuisse. « Il s’agit maintenant d’appliquer les techniques topologiques développées à l’apprentissage profond, explique Matteo Caorsi. Cela nous fournira de précieuses informations sur le modèle lui-même, son interprétabilité et sa robustesse. »
giotto-tda: A Topological Data Analysis Toolkit for Machine Learning and Data Exploration, Guillaume Tauzin, Umberto Lupo, Lewis Tunstall, Julian Burella Pérez, Matteo Caorsi, Anibal M. Medina-Mardones, Alberto Dassatti, Kathryn Hess; Journal of Machine Learning Research, 22(39):1−6, 2021.