Tous les mots de toutes les langues dans un seul dictionnaire

© 2015 Thinkstock

© 2015 Thinkstock

Afin de poursuivre son objectif de traduire en ligne chacun des sens de chaque mot dans toutes les langues du monde, le projet de dictionnaire universel Kamusi vient d’ajouter 1,2 million de termes provenant plusieurs base de données. Trois langues africaines ainsi que 200'000 mots de Vietnamien vont être intégrés prochainement.

Kamusi, qui signifie dictionnaire en Swahili, a pour objectif de traduire chacun des sens d’un mot de chacune des 7000 langues de la planète dans toutes les autres, avec leur définition et des exemples d’utilisation. Ce vaste projet, démarré il y a une vingtaine d’années, croît désormais de manière exponentielle. Certaines langues, comme l’anglais et le Swahili, sont d’ores et déjà en grand partie disponibles,

Plus qu’un traducteur, ce dictionnaire met en lumière les mots afin que deux significations d’un même terme ne puissent plus être confondues. Prenons le mot anglais «light» par exemple: en français, le traducteur automatique traduira léger ou lumière selon le contexte. Or souvent le sens adopté n’est pas le bon et le texte devient incompréhensible. Le problème est encore plus prononcé lorsqu’il s’agit de langues moins répandues. Kamusi, qui est désormais une ONG, veut dépasser ces écueils. Il ajoute des définitions ainsi que des exemples. Le projet est ambitieux, mais c’est également un vaste défi technologique puisqu’il s’agit de stocker, ordonner, rendre accessible cette énorme quantité de données.

Plus de 1 million de mots en quelques mois
Cet été le Laboratoire de systèmes d’information répartis de l’EPFL a intégré 1,2 million de mots. Les chercheurs ont importé l’ensemble du site participatif de traduction Open Multilingual Word Net (OMW) en apportant des améliorations dans la recherche et les liens entre les différents sens des mots. Le site de Kamusi montre par exemple si une traduction a été effectuée par un ordinateur ou si elle a été confirmée directement par un humain. Il permet également de voir les groupes de mots au sens similaire dans d’autres langages ainsi que des données étendues pour chaque terme.

Outre l’intégration de bases de données déjà constituées, l’équipe de Kamusi compte sur un savoir humain. Des personnes maîtrisant parfaitement plusieurs langues s’attèlent à la traduction d’un maximum de mots. Ce mode participatif est particulièrement utile pour les langues peu utilisées. Le gouvernement du Mali vient justement d’investir 5 millions de francs CFA, soit environ 78'000 CHF afin d’ajouter des mots de trois de ses langues locales. Ces fonds, qui représentent une somme importante dans ce pays, seront principalement investis sur place pour utiliser les éventuelles bases de données déjà existantes ou vérifier peu à peu les différents termes ajoutés par des personnes bilingues.

Afrique, Viêtnam, Europe : un dictionnaire international
«C’est la première fois qu’un gouvernement africain investit ses propres fonds dans ce projet, ce qui constitue une remarquable preuve de confiance», souligne Martin Benjamin, fondateur du projet Kamusi et chercheur au Laboratoire de systèmes d’information répartis de l’EPFL. Cet accord constitue également la première pierre d’une future collaboration pour faire de ce dictionnaire universel en ligne, le premier outil électronique de l’Académie africaine des langues (ACALAN), soit l’organe intergouvernemental de l’Union africaine pour promouvoir et développer les idiomes du continent. «Le développement de l’Afrique et l’accès au savoir passent aussi par un dictionnaire de ce type afin que les gens puissent communiquer entre eux et avec l’extérieur », souligne l’initiateur du projet. Le dictionnaire se développe également en Asie et en Europe puisque 200’000 termes Vietnamiens vont être intégrés grâce à une petite subvention du Secrétariat d’Etat à l’éducation, à la recherche et à l’innovation suisse. L’intégration d’autres bases de données avec des mots bulgares, grecques, croates, slovènes et suédois est également en préparation.

Les origines de Kamusi : En 1995, Martin Benjamin, qui travaille désormais au Laboratoire de systèmes d’information répartis, tentait d’apprendre le Swahili en prévision d’une étude anthropologique en Tanzanie. Sa recherche d’un dictionnaire entre l’anglais et cette langue resta veine. Il eut alors l’idée de mettre en place un site participatif sur internet -qui en était alors à ses balbutiements- afin de créer une base de données swahili-anglais. Aujourd’hui le passage entre ces deux langues est en grande partie disponible. Kamusi est désormais une ONG basée à Genève.



Liens

Images à télécharger

Martin Benjamin, directeur du projet Kamusi © 2015 Alain Herzog
Martin Benjamin, directeur du projet Kamusi © 2015 Alain Herzog

Partager sur