Que peut nous apprendre Wikipédia sur les interactions humaines?

Dans cette visualisation de données, chaque nœud représente un groupe de pages Wikipédia sur un sujet en lien avec des événements mondiaux survenus en 2015. © 2016 Kirell Benzi

Dans cette visualisation de données, chaque nœud représente un groupe de pages Wikipédia sur un sujet en lien avec des événements mondiaux survenus en 2015. © 2016 Kirell Benzi

Des chercheurs de l’EPFL ont étudié la dynamique des structures de réseau en utilisant un des sites les plus consultés au monde: Wikipédia. Outre une meilleure compréhension des réseaux en ligne, leur travail apporte des connaissances passionnantes sur le comportement social et la mémoire collective de l’être humain.

Vous est-il déjà arrivé d’aller chercher une information sur Wikipédia et de vous retrouver à naviguer d’une page à l’autre pour finir sur un sujet complètement différent de celui par lequel vous avez commencé? Si oui, vous n’êtes pas seul; qui plus est, il y a bien des chances que d’autres personnes aient suivi le même circuit, passant par exemple de «Game of Thrones» à «Dubrovnik», «attraction touristique» et «la plus grosse boule de ficelle du monde».

Des chercheurs du laboratoire de traitement des signaux (LTS2), dirigé par le professeur Pierre Vandergheynst, des facultés Sciences et Techniques de l’Ingénieur (STI) et Informatique et Communications (IC) de l’EPFL ont voulu découvrir comment fonctionnait ce processus.

Plus spécifiquement, ils ont entrepris d’étudier la dynamique des structures de réseau en utilisant le traitement des signaux et la théorie des réseaux. Pour ce faire, ils ont mis au point un algorithme capable de détecter automatiquement une activité inhabituelle au sein de systèmes complexes en perpétuel changement tels que Wikipédia.

«Le cerveau de l’humanité»

La capacité d’identifier et d’étudier des événements anormaux survenant sur des réseaux en ligne – par exemple un pic soudain du nombre de visites d’une page Wikipédia pendant une certaine période – peut révéler beaucoup de choses sur les interactions humaines, la mémoire et le comportement collectifs ainsi que l’échange d’informations, affirment les chercheurs.

«Notre idée a été de considérer Wikipédia comme le cerveau de l’humanité. Les visites des pages seraient alors comparables à des pics de l’activité cérébrale», explique Volodymyr Miz. Ce chercheur et doctorant au sein du LTS2 est l’auteur principal d’un article sur ce nouvel algorithme présenté récemment à la World Wide Web Conference 2019 à San Francisco, en Californie (États-Unis).

Kirell Benzi, coauteur, ancien chercheur au LTS2 et professeur en visualisation de données à l’EPFL, qui travaille actuellement comme data artiste, ajoute que c’est l’accessibilité et la taille de Wikipédia qui en ont fait une source de données aussi attrayante.

«Wikipédia enregistre environ 5 milliards de visites par année rien qu’en anglais. Cette technique nous permet d’identifier des groupes de pages qui forment un ensemble», explique-t-il.

De la mémoire collective aux fausses nouvelles

L’algorithme des chercheurs est unique en cela qu’il peut non seulement identifier de telles anomalies, mais aussi nous dire où, comment et pourquoi elles se sont produites.

«La principale différence, c’est que nous fournissons un contexte plus riche en raison de la structure du réseau. Par exemple, si nous prenons la page Wikipédia sur les attaques terroristes de Paris en 2015, nous pouvons voir qu’elle est directement liée à celle sur le magazine Charlie Hebdo ainsi qu’à une série de pages sur les organisations terroristes», détaille Volodymyr Miz.

Les deux chercheurs appellent «mémoire collective» ce type de recherche d’informations, dans la mesure où il peut révéler comment des événements actuels réveillent des souvenirs du passé.

«La recherche sur Wikipédia vise à parvenir à de nouvelles conclusions sur la nature humaine elle-même. Wikipédia constitue un ensemble de données très intéressant parce qu’il reflète plus au moins ce dont l’humanité décide de se souvenir. Collectivement, nous avons le même fil de pensées et consultons les mêmes sujets», explique Kirell Benzi.

Quels sont donc les sujets qui, selon cette étude, préoccupent le plus les gens? Réponse concise: les autres personnes.

«Environ 80% des visites concernent le divertissement ou les célébrités. Lors d’une recherche précédente, nous avons découvert que 40% des liens qui sont cliqués portent sur les gens et leurs relations», poursuit Kirell Benzi, ajoutant que les pages sur des sujets scientifiques représentent moins de 1% des visites.

Le LTS2 collabore actuellement avec des développeurs du navigateur hors ligne gratuit Kiwix, qui vise à rendre accessible des versions compressées de Wikipédia à ceux qui n’ont pas d’accès libre à Internet.

«Notre méthode peut aider considérablement Kiwix à identifier et à compresser seulement les parties pertinentes de Wikipédia, en fonction de la langue et de la culture, par exemple», souligne Volodymyr Miz.

L’algorithme pourrait être aussi utilisé notamment pour étudier comment les fausses nouvelles se répandent sur Twitter en observant les pics de retweets, ou pour mieux comprendre les liens entre la dynamique des réseaux de courriels et les événements du monde réel. Toutefois, ces sujets sont plus difficiles à étudier que Wikipédia du fait de la plus faible quantité de données disponibles librement.

Étude de cas: Game of Thrones

Volodymyr Miz, Kirell Benzi et leurs collègues ont utilisé leur méthode pour détecter une activité anormale sur les pages Wikipédia portant sur la dernière saison de la série à succès de HBO Game of Thrones. L’ensemble de données qui en a résulté leur a permis de créer une visualisation de données de pages en lien avec différents aspects de la série, notamment les acteurs, les personnages, les saisons, les épisodes, etc.

Les chercheurs ont aussi pu utiliser leur méthode pour déterminer la popularité d’un personnage en fonction du nombre de visites de la page Wikipédia qui leur est consacrée. Actuellement, ils essaient de définir pour quelles autres pages la mort d’un personnage dans la série a déclenché un pic de visites. Ce travail s’appuie sur une étude similaire datant de 2016 qui avait analysé l’univers de Star Wars.

Kirell Benzi précise que cette recherche constitue un excellent exemple des humanités numériques, un domaine de recherche dans lequel les méthodes de science des données et les technologies numériques sont appliquées à la sociologie, à la littérature, à l’histoire et à d’autres sciences humaines.

«Les humanités numériques sont un domaine très intéressant, mais pour que la méthode fonctionne, il faut disposer d’une combinaison de différentes compétences en science des données, en ingénierie, en psychologie, en sociologie, en art, etc. Ainsi, la collaboration entre les laboratoires constitue un avantage», souligne-t-il.

Suivez l’évolution de cette étude sur les réseaux sociaux: @mizvladimir, @KirellBenzi