Un algorithme pour enrichir Wikipedia dans toutes les langues
Un chercheur de l’EPFL a développé un système qui scanne Wikipedia pour détecter les articles importants qui manquent dans d’autres langues. Un projet intéressant pour enrichir l’encyclopédie en ligne dans les langues minoritaires, comme le romanche par exemple.
Avec 40 millions d’articles en 293 langues, Wikipedia est la plus grande encyclopédie jamais créée. Mais si les 5,4 millions de pages en anglais sont particulièrement variées, couvrant 60 fois plus de matière que l’Encyclopaedia Britannica, les inégalités entre les langues sont importantes. «Un savoir essentiel à certaines populations n’est pas traduit. Par exemple, il n’y a pas d’article sur le réchauffement climatique en malgache, alors que cette problématique est cruciale pour les habitants de Madagascar», explique Robert West, chercheur au Laboratoire de sciences des données de l’EPFL.
Plus près de chez nous, seuls 3400 articles sont traduits en langue romanche, contre 1,8 million en français et plus de deux millions en allemand. Difficile pour les contributeurs de savoir quoi traduire parmi ces millions de pages pour faire une véritable différence. C’est là qu’intervient le travail de Robert West : le chercheur a utilisé le machine learning pour détecter et classer les pages manquantes les plus importantes pour chaque idiome. Un travail complexe, puisque déterminer la pertinence d’un thème pour une culture n’est pas si simple.
Des machines objectives
Pour aider les machines à déterminer l’importance d’une page en romanche, par exemple, il a fallu calculer combien de visites un article manquant devrait théoriquement générer. «La chanteuse Taylor Swift ou les Pokémons sont certes populaires, mais sont-ils vraiment importants? Pour ne pas tomber dans des travers ethnocentristes, nous avons prédit les statistiques des pages en se basant sur toutes les langues, puis les algorithmes de machine learning déterminent quel poids donner à chaque langage. Par exemple, le japonais aura plus d’importance pour prédire l’impact d’une page en chinois que l’anglais», précise Robert West.
Une fois ce classement le plus neutre possible établi par les algorithmes, les listes de sujets manquants sont indiquées sur la plateforme en ligne Wikimedia GapFinder. Chaque contributeur volontaire se voit proposer un sujet à éditer en fonction des langues qu’il maîtrise et de ses intérêts. À l’humain ensuite de finir le travail, grâce à l’aide à la traduction fournie sur la plateforme. Car à ce stade, pas question de laisser l’intelligence artificielle gérer l’entier de la tâche. «Une intervention humaine est encore obligatoire pour répondre aux standards d’édition de Wikipedia, car la traduction par ordinateur n’est pas encore assez efficace», souligne Robert West.
Ouverte au public, la plateforme développée en collaboration avec l’Université de Stanford et la Fondation Wikimedia permet de générer 200 nouveaux articles par semaine. Un chiffre modeste par rapport aux 7000 textes publiés chaque jour sur Wikipedia, mais qui permet de viser en priorité la qualité des articles plutôt que la quantité. Robert West travaille d’ailleurs sur un second projet qui consiste à déterminer les paragraphes les plus pertinents d’un article grâce à l’exploration de données (data mining). Ceci permettra d’affiner encore le processus d’expansion de l’encyclopédie à travers les langues.