Prédire les résultats électoraux grâce à l'apprentissage automatique

La suisse vote © 2020 iStock

La suisse vote © 2020 iStock

Le 27 septembre prochain, la Suisse votera pour la première fois depuis le début de la pandémie de COVID-19. Elle s’exprimera notamment sur une initiative controversée visant à mettre fin à la libre circulation des personnes avec l’Union européenne. Predikon prédira le résultat final quelques minutes après la publication des premiers résultats municipaux partiels par l’Office fédéral suisse de la statistique.

Très souvent, les sondages préélectoraux et des premiers dépouillements s’avèrent peu fiables. Les deux exemples récents les plus notoires sont peut-être le vote en faveur du Brexit au Royaume-Uni et l’élection de Donald Trump comme président des États-Unis. Dans chaque cas, non seulement la plupart des sondages préélectoraux étaient erronés mais aussi bon nombre d’entre nous ont terminé la soirée avec un premier décompte de votes pour le maintien du Royaume-Uni dans l’UE et pour l’élection de Hillary Clinton comme 45e présidente des États-Unis. Le lendemain matin, les résultats étaient déroutants. 

Depuis ces six dernières années, un groupe de chercheurs du laboratoire INDY (Information and Network Dynamics Lab) de l’EPFL, faisant partie de la Faculté informatique et communications, utilise la modélisation probabiliste, l’analyse de données à grande échelle et l’apprentissage automatique pour développer Predikon. L’objectif de cet outil est de mieux prédire les résultats finaux des élections et des référendums à partir d’un dépouillement partiel et anticipé. En août dernier, ils ont présenté un article sur leur méthode statistique et leurs résultats lors de la conférence ACM KDD sur la découverte des connaissances et l’exploration de données. 

Avec un premier intérêt évident pour la Suisse, le doctorant Victor Kristof et l’étudiant en master Alexander Immer (désormais doctorant à l’ETH Zurich), sous la direction des professeurs Matthias Grossglauser et Patrick Thiran, analysent les données de vote, en cherchant une structure dans le comportement électoral des 26 cantons du pays et des 2 200 communes. «Nous avons besoin de données historiques pour apprendre quelque chose d’intéressant. En Suisse, nous disposons d’une multitude de données grâce à la démocratie directe. Aujourd’hui nous avons pu saisir les résultats de plus de 300 votes différents remontant à 1981 pour ces 2 200 communes. À cet égard, l’Office fédéral suisse de la statistique a fait preuve d’une grande transparence et nous a aidé à comprendre leurs données», déclare Victor Kristof. 

Alors que les communes sont différentes, elles ne sont pas complètement indépendantes. Les chercheurs ont développé un algorithme qui étudie l’influence des intentions de vote (notamment culturelles, démographiques et historiques) sur les résultats des votations. Ils l’utilisent pour établir des prévisions précises à partir de dépouillements partiels. Dans un pays qui compte quatre langues officielles (allemand, français, italien et romanche), la première version de Predikon, sortie en 2014, a permis de mesurer l’influence de la langue d’une commune sur le comportement électoral. Depuis, les algorithmes de l’outil ont évolué. Pour les quatre derniers votes, il a été possible de prédire le résultat à partir des tous premiers résultats d’un petit nombre de communes avec une marge d’erreur d’environ 1%. «Nous prenons les derniers résultats de vote nationaux de chaque commune et développons un modèle qui détermine la façon dont ils sont reliés les uns aux autres. Si nous comptabilisons tous ces résultats, la moyenne variera considérablement mais notre algorithme est capable de corriger diverses tendances linguistiques, culturelles et démographiques. Cela nous permet, à partir de quelques résultats partiels et quel que soit leur ordre d’arrivée, d’établir de meilleures prédictions que si on se base seulement sur la moyenne, comme le font généralement les médias», explique Victor Kristof.

Lors du dernier vote national qui a eu lieu le 9 février avant la crise du coronavirus, Predikon a prédit de manière très précise les résultats pour la modification du code pénal et du code pénal militaire (discrimination et incitation à la haine en raison de l’orientation sexuelle) et pour l’initiative populaire pour davantage de logements abordables seulement quelques minutes après les premiers résultats partiels. Le 27 septembre prochain, Predikon devrait nous indiquer très rapidement si la libre circulation des personnes entre la Suisse et l’UE sera limitée.

© 2020 EPFL

Le modèle de base est général et a été appliqué avec succès pour prédire, outre les référendums suisses, les résultats des élections parlementaires allemandes et du vote populaire de l’élection aux États-Unis en 2016. Concernant les futures applications, Matthias Grossglauser peut imaginer une évolution de Predikon, notamment pour que les données de sondage avant un vote deviennent de meilleures prévisions des résultats. «Nous pourrions essayer d’exploiter notre modèle pour améliorer les prévisions à partir de données participatives ou de sondage. Nous pourrions aussi explorer la dynamique d’évolution des opinions dans différents domaines liée aux changements de population et/ou démographiques.»

Et qu’en est-il de l’impact de Predikon? «Nous développons nos modèles statistiques et algorithmes pour établir des prédictions et des analyser des données, et nous sommes toujours à la recherche de nouveaux champs d’application et opportunités. Victor Kristof dirige avec brio le développement permanent de Predikon. Il se soucie de l’environnement et de la société, et je pense que c’est un projet qui nous a permis de faire quelque chose d’utile et peut-être d’améliorer le processus démocratique», conclut Matthias Grossglauser.

Découvrez Predikon à l’adresse www.predikon.ch