La mobilité autonome face à l'imprévisible

© iStock
La mobilité autonome existe déjà… dans une certaine mesure. Construire un véhicule autonome capable de circuler en toute sécurité sur une autoroute vide est une chose. Mais le véritable défi réside dans sa capacité à s’adapter à la réalité dynamique et chaotique des environnements urbains.
Contrairement aux rues quadrillées de nombreuses villes américaines, les routes européennes sont souvent étroites, sinueuses et irrégulières. Il existe une multitude d’intersections sans marquages clairs de zones piétonnes, de ronds-points et de voies partagées entre voitures, bus, trams, motos ou vélos. Concevoir un système de mobilité autonome capable de fonctionner en toute sécurité dans ces conditions nécessite plus que de simples capteurs sophistiqués et des caméras performantes.
Il s’agit avant tout de relever un défi de taille: comprendre comment les humains se déplacent dans l’environnement urbain. Les piétons, par exemple, prennent souvent des décisions spontanées, comme traverser la rue brusquement, changer soudainement de direction ou se faufiler dans la foule. Un enfant peut courir après son chien. Les cyclistes et scooters compliquent également la donne par leurs manœuvres agiles et parfois imprévisibles.

«La mobilité autonome, qu’il s’agisse de voitures ou robots de livraison, doit aller au-delà d’une simple réaction à l’instant présent. Pour naviguer dans notre monde complexe et dynamique, ces systèmes doivent être capables d’imaginer, anticiper et de simuler des futures possibles - tout comme les humains se demandent ce qui pourrait arriver ensuite. En somme, l’IA doit apprendre à anticiper l'avenir», explique Alexandre Alahi, directeur du laboratoire VITA (Visual Intelligence for Transportation Laboratory) de l’EPFL.
Repousser les limites de la prédiction: GEM
Au laboratoire VITA, cet objectif devient réalité. Cette année, l’équipe a vu sept de ses publications de recherche être acceptées à la prestigieuse conférence CVPR (Conference on Computer Vision and Pattern Recognition). Chacune des contributions propose une méthode novatrice pour aider les systèmes d’IA à imaginer, prédire et simuler les scénarios futurs possibles - de la prévision des mouvements humains à la génération de séquences vidéo complètes. Tous les modèles et jeux de données sont publiés en open source, permettant à la communauté de recherche mondiale et à l’industrie de les utiliser. Ensemble, ces contributions représentent un effort coordonné permettant aux agents autonomes de ne pas seulement réagir, mais véritablement anticiper le monde qui les entoure.
L’un des modèles les plus innovants est conçu pour prédire des séquences vidéo à partir d’une seule image capturée par une caméra embarquée (donnant le point de vue en première personne). Baptisé GEM (Generalizable Ego-Vision Multimodal World Model), il aide les systèmes autonomes à anticiper les évènements à venir.
Dans le cadre de la Swiss AI Initiative, l’outil a été entraîné sur 4000 heures de vidéos couvrant la conduite autonome, les activités humaines en vue à la première personne et des prises de vue par drone. Ainsi, GEM apprend comment les personnes et les objets se déplacent dans différents environnements. Il utilise ces connaissances pour générer de nouvelles séquences vidéo qui imaginent ce qui pourrait se passer ensuite - qu’il s’agisse d’un piéton traversant une route ou d’une voiture tournant à une intersection. Ces scénarios imaginés peuvent même être contrôlés en ajoutant des voitures et des piétons, ce qui fait de GEM un outil puissant pour former et tester les systèmes autonomes dans une grande variété de situations réalistes.
Pour effectuer ses prédictions, le modèle analyse simultanément plusieurs types de données, appelés signaux multimodaux. Il exploite les images RGB — c'est-à-dire les images vidéo couleur classiques — pour comprendre le contexte visuel, ainsi que les cartes de profondeur pour appréhender la structure 3D de la scène. Ces deux types de données permettent au modèle de comprendre à la fois le contexte visuel d’une scène, et la profondeur de champ. Autrement dit, ce qui se passe et où cela se passe. GEM prend également en compte les mouvements de la caméra (ego-motion), les postures humaines et la dynamique des objets au fil du temps. En apprenant comment tous ces signaux évoluent ensemble dans des milliers de situations réelles, il peut générer des séquences cohérentes et réalistes qui reflètent les changements possibles d’une scène dans les secondes à venir.

«L'outil peut servir de simulateur réaliste pour les véhicules, les drones et autres robots, permettant de tester en toute sécurité des stratégies de contrôle dans des environnements virtuels avant leur déploiement dans le monde réel. Il peut aussi aider à la planification en anticipant les changements dans l’environnement, ce qui renforce la prise de décision contextuelle», explique Mariam Hassan, doctorante au laboratoire VITA.
Sur la voie de la prédiction
GEM se concentre sur la génération de vidéos prédisant le futur et l’exposition des systèmes autonomes à des scénarios virtuels variés. D’autres projets du professeur Alahi visent des niveaux d’abstraction inférieurs afin d’améliorer la fiabilité, la généralisation et la prise de conscience sociale des prédictions.
Notamment, l’un d’entre eux vise à prédire de manière fiable où les personnes vont se déplacer, même lorsque les données sont incomplètes ou partiellement erronées. Un autre, MotionMap, adopte une approche probabiliste pour gérer l’imprévisibilité inhérente aux mouvements humains. Cette approche permet aux systèmes de se préparer à des mouvements inattendus dans des environnements dynamiques.
Ces efforts forment un cadre de prédiction plus large qui cartographie les interactions complexes à l'œuvre dans les environnements urbains denses. Les défis restent nombreux: maintenir une cohérence à long terme, atteindre une précision spatiale élevée et garantir l’efficacité computationnelle. Au cœur de tout cela, une question cruciale demeure: jusqu’où peut-on prédire le comportement des individus qui ne suivent pas toujours des schémas prévisibles? Les décisions humaines sont façonnées par l’intention, l’émotion et le contexte – des facteurs que les machines ne perçoivent pas toujours.
Lancée en décembre 2023 par l’EPFL et l’ETH Zurich, la Swiss AI Initiative rassemble plus de 10 institutions académiques suisses. Avec plus de 800 chercheurs et chercheuses impliqués et un accès à 10 millions d’heures GPU, elle constitue le plus grand effort mondial en open source dédié aux modèles fondamentaux en IA. Le modèle développé par le laboratoire VITA, en collaboration avec quatre autres institutions (Université de Berne, SDSC, Université de Zurich et ETH Zurich), est l’un des premiers grands modèles issus de cette initiative ambitieuse. Il a été entraîné sur le superordinateur Alps du Swiss National Supercomputing Centre (CSCS), qui fournit la puissance de calcul nécessaire pour traiter d’immenses volumes de données multimodales.
En Suisse, la mobilité totalement autonome n’est pas encore autorisée sur la voie publique. Cependant, depuis mars 2025, les voitures équipées de systèmes avancés d’assistance à la conduite sont autorisées à conduire, accélérer et freiner de manière autonome. Les conducteurs doivent néanmoins rester vigilants et se tenir prêts à reprendre le contrôle. Cela marque une étape importante vers une automatisation du quotidien. Les cantons peuvent approuver des axes spécifiques pour les véhicules totalement autonomes, fonctionnant sans présence humaine à bord et surveillés à distance par des centres de contrôle. Ces trajets seront principalement utilisés par des bus et des véhicules de livraison.
“MotionMap: Representing Multimodality in Human Pose Forecasting”, R. Hosseininejad, M. Shukla, S. Saadatnejad, M. Salzmann, A. Alahi, CVPR’25. Code
“Helvipad: A Real-World Dataset for Omnidirectional Stereo Depth Estimation”, M. Zayene, J. Endres, A. Havolli, C.Corbière, S. Cherkaoui, A. Ben Ahmed Kontouli, A. Alahi, CVPR’25. Code
“FG2: Fine-Grained Cross-View Localization by Fine-Grained Feature Matching”. Z. Xia, A. Alahi, CVPR’25. Code
“Towards Generalizable Trajectory Prediction Using Dual-Level Representation Learning And Adaptive Prompting”, K. Messaoud, M. Cord, A. Alahi, CVPR’25. Code
Sim-to-Real Causal Transfer: A Metric Learning Approach to Causally-Aware Interaction Representations”, A. Rahimi, P-C. Luan, Y. Liu, F. Rajic, A. Alahi, CVPR’25. Code
“Certified human trajectory prediction”, M. Bahari, S. Saadatnejad, A. Askari Farsangi, S. Moosavi-Dezfooli, A. Alahi, CVPR’25 Code
“GEM: A Generalizable Ego-Vision Multimodal World Model for Fine-Grained Ego-Motion, Object Dynamics, and Scene Composition Control”, M. Hassan*, S. Stapf*, A. Rahimi*, P. M. B. Rezende*, Y. Haghighi, D. Brüggemann, I. Katircioglu, L. Zhang, X. Chen, S. Saha,M. Cannici, E. Aljalbout, B. Ye, X. Wang, A. Davtyan, M. Salzmann, D. Scaramuzza, M. Pollefeys, P. Favaro, A. Alahi, CVPR’25. Code