Un dictionnaire multilingue accessible à tous

© 2014 EPFL

© 2014 EPFL

Un dictionnaire multilingue, bénéficiant des contributions des internautes, disponible gratuitement sur la toile dans toutes les langues du monde : tel est l’objectif de Kamusi. Or, développer un tel outil est un véritable défi technologique, car chaque langue possèderait en moyenne 100'000 mots dotés souvent de plusieurs significations. Sachant qu’il existe aujourd’hui jusqu’à 7'000 langues vivantes de par le monde, les correspondances entre tous les mots de toutes les langues représentent donc un réseau de données aux possibilités quasi infinies. Comment relever un tel défi ? Grâce à la rencontre entre un anthropologue féru de langues et un informaticien passionné du Big Data.

Certaines langues s’écrivent, mais pas toutes. Certaines langues possèdent plusieurs cas (nominatif, accusatif, génitif, datif, etc.) qui sont autant de déclinaisons d’un même mot, alors que d’autres aucun. De même, les langues comme l’arabe classique ont jusqu’à 6 formes de pluriel, ce qui offre autant de variations du même mot. L’allemand possède comme genre le masculin, le féminin et le neutre, alors que d’autres langues sont basées sur une opposition du type animé (ce qui vit) et inanimé (ce qui ne vit pas). La plupart des langues possède des mots qui n’existent pas vraiment ailleurs, comme les subtiles nuances des différents mots signifiant "blanc" ou "neige" en inuit.

Dictionnaire bilingue vs dictionnaire multilingue
Face à toutes ces particularités et bien d’autres encore, les dictionnaires traditionnels se cantonnent généralement au bilinguisme, permettant de réunir des paires de mots de langues différentes possédant la même signification. La démarche se complexifie lorsqu’il s’agit de trouver des expressions correspondantes. Un exemple bien connu est celui de "It’s raining cats and dogs" ne pouvant en aucun cas se traduire littéralement, tout comme son équivalent en français moins amusant, mais tout aussi imagé : "Il pleut des cordes". Les outils de traduction en ligne reflètent cette difficulté à intégrer les spécificités de chaque langue, voire de chaque mot. Martin Benjamin, docteur en anthropologie et passionné de linguistique commente : « Si vous introduisez dans n’importe quel outil de traduction en ligne l’expression "the spring in her step", le résultat que vous obtenez généralement en français est symptomatique : "le ressort dans son étape". Une traduction plus adéquate serait : "Sa démarche élancée". Ces outils travaillent mot à mot, alors qu’un mot a souvent plusieurs significations. Il faut donc identifier la bonne. »

L’impossibilité pour un dictionnaire multilingue d’utiliser les anciennes méthodes qui relient les mots sur des critères orthographiques plutôt que sur les significations

Mettre les langues en réseau
Dans le cas d’un dictionnaire multilingue, toutes les significations des mots de toutes les langues sont théoriquement reliées entre elles, ce qui permet d’opérer des vérifications par autocomplétion du réseau de langues. En effet, si "light" a pour signification "lumière" en français, mais également "léger", alors les correspondances en allemand sont "Licht" et "leicht". Ces deux mots allemands peuvent ensuite être reliés à "light" en anglais tout en préservant leur différence telle qu’elle existe en français ou dans d’autres langues. Ainsi, un dictionnaire multilingue permettrait de mieux distinguer les différentes significations que peut avoir un seul et même mot par déduction de correspondances entre les différentes langues.


Kamusi relie les mots en se basant sur leurs significations ce qui permet des connexions multilingues exactes entre de nombreuses langues.

"Kamusi" ou dictionnaire en swahili
Le projet Kamusi démarre en 1994 lorsque Martin, anthropologue alors spécialiste de l’Afrique, constate qu’il n’existe pas de bon dictionnaire en swahili, pourtant la langue la plus communément utilisée à travers le continent africain (au moins 100'000'000 personnes la pratiquent au quotidien). Or, l’objet-même de dictionnaire est coûteux à produire et représente un certain investissement pour l’acheteur. Actuellement, au moins 1/3 de la population des pays africains possède un téléphone portable (soit au moins 1 téléphone pour 80% des ménages), ce dernier permettant souvent d’avoir accès à l’Internet. La téléphonie mobile est en pleine essor et les smartphones de moins en moins chers. Conscient du phénomène, Martin se lance alors dans la création d’un dictionnaire en ligne anglais-swahili dont les contributions sont majoritairement apportées par des bénévoles ayant accès à l’Internet. Ce dictionnaire fait aujourd’hui 60'937 mots. Il décide ensuite de poursuivre dans la voie du dictionnaire multilingue et se rend compte alors que seule une infrastructure informatique extrêmement complexe permettrait d’intégrer toutes ces données et de les relier entre elles de manière pertinente. C’est à ce moment de l’histoire qu’intervient le Professeur Karl Aberer.

La Suisse comme terrain de prédilection
En rencontrant Karl qui est justement spécialiste du Big Data, Martin choisit de poursuivre son projet à l’EPFL en Suisse, un pays par excellence multilingue, aux langues d’origine latines et germaniques et aux multiples dialectes. Un dictionnaire multilingue serait un outil fort pratique pour les nombreuses personnes travaillant dans deux, trois, voire quatre langues. « Les dictionnaires multilingues sont en passe de devenir une pierre angulaire essentielle pour les technologies sémantiques basées sur les techniques linguistiques. De même, du point de vue de l’informatique scientifique, l’utilisation du "crowd-sourcing" (NDLR contributions libres des utilisateurs comme sur Wikipédia) dans la construction de tels dictionnaires est un défi captivant », explique Karl.
Une fois l’infrastructure informatique programmée, il va falloir non seulement importer des données de dictionnaires préexistants, mais également compter sur les communautés d’internautes pour affiner les significations des mots. Les contributeurs pourront se prononcer quant aux équivalents d’une langue à l’autre et même donner leur propre définition d’un mot, lorsqu’aucun dictionnaire préexistant ne propose de réponse. La justesse des contributions sera évaluée par les internautes qui pourront valider le résultat. Après un certain nombre de validations obtenues, la réponse obtiendra un indice de fiabilité élevé.

Le projet de dictionnaire multilingue Kamusi représente un défi scientifique unique grâce à sa matière première – les mots et les langues – d’une complexité fascinante. Grâce à l’informatique et aux systèmes de communication, un tel défi devient concevable.


© US National Science Foundation / Sandy Schaeffer Photography
Martin Benjamin en compagnie de hauts dignitaires lors de l’événement de la Maison Blanche "Data to Knowledge to Action", à Washington en novembre 2013. Ici, il reçoit une distinction dans le cadre du programme fédéral de recherche "Networking and Information Technology Research and Development"