Vos séries TV préférées ? Trouvez-les grâce aux sous-titres !

© 2015 EPFL

© 2015 EPFL

Êtes-vous plutôt Desperate Housewives, Mentaliste, Game of Thrones ou Big Bang Theory ? Des étudiants de l’EPFL ont développé un outil qui comptabilise et classe les mots qui reviennent le plus souvent dans les dialogues des séries. Ceci permet de dégager des thématiques. Cet outil de recommandation inédit peut conseiller les adeptes des séries non plus en fonction des goûts des autres fans mais en fonction des thèmes présents dans le scénario.

Vous aimez les séries en milieu médical avec de la romance (mais pas trop !), une dimension policière (sans trop de violence !) et avec de l’humour ? Comment identifier les séries qui contiennent la juste dose de tous ces ingrédients ?

Lors d’un cours sur le Big Data en Faculté Informatique et Communications, des étudiants ont développé un projet de leur cru. Raphaël Von Aarburg, étudiant leader, avait remarqué que les outils de recommandation habituels de séries fonctionnaient tous selon la même recette : comparer les choix des internautes entre eux. Basées sur les goûts communs des fans, ces recommandations ne tiennent pas compte du scénario. La raison est que contrairement à des informations textuelles, il est difficile d’analyser le contenu même des séries puisqu’il est fait de deux formats différents : une piste audio et une piste vidéo.

La bonne idée ? Utiliser les sous-titres pour analyser les séries

Comment dès lors appréhender ces flux et flots d’informations que constitue le contenu de chaque série ? « Notre initiative était d’analyser la piste audio des séries grâce à leurs sous-titres. C’est autour de cette idée nouvelle que le groupe de 8 étudiants s’est formé. », raconte Raphaël Von Aarburg.

Les étudiants décident de coder un logiciel qui analyse les ingrédients qui composent un scénario comme l’humour, la romance, le suspense ou le drame. Plus ambitieux, le logiciel doit identifier des aspects narratifs comme la drogue, le crime ou le pouvoir grâce aux dialogues. Par exemple, la série South Park est composée des thèmes suivants : 58% de Cartoon (à comprendre par dessin animé), 17% de Vice, 4% de (Counter-)Terrorism, 4% de Politics et 17% de thèmes moins importants. L’objectif est ensuite d’utiliser ces données pour recommander telle ou telle série aux internautes en fonction du pourcentage des ingrédients composant cette dernière parmi les 25 thèmes définis par le logiciel dont College Life, Sexy, Family, Science, Science-Fiction, Crime, Medical, Magic, Supernatural, Action, War, Investigation, etc.

Ces maths qui permettent d’interpréter des mots

Le premier défi pour les étudiants est de trouver une séquence d’instructions (soit un algorithme adéquat) qui regroupe des mots par thèmes. « La difficulté, c’est de trouver des équations mathématiques qui peuvent classer des mots ! Cet algorithme existait déjà en partie (LDA : Latent Dirichlet Allocation), mais il fallait encore le déchiffrer, l’adapter et l’implémenter. », raconte Simon-Pierre Genot, un des étudiants passionnés par cette phase du projet. Par l’adapter, il faut comprendre ajuster les différentes opérations qui composent cet algorithme pour que plusieurs ordinateurs en réseau puissent effectuer ces opérations en même temps. En termes informatiques, on dit "paralléliser l’exécution de l’algorithme". Ceci permet surtout de mettre en œuvre l’algorithme en combinant la puissance de plusieurs ordinateurs et de délivrer des résultats beaucoup plus rapidement qu’en utilisant une seule machine.

Deuxième défi : les 8 étudiants doivent récupérer les données (les sous-titres des séries en anglais sur différents sites internet). Pour ce faire, les étudiants ont construit un script, soit un bout de code qui lance et coordonne l'exécution de logiciels. Ces programmes mis bout à bout vont chercher automatiquement tous les sous-titres sur le web. Une fois ces données collectées, les étudiants procèdent au nettoyage, soit corriger automatiquement les erreurs telles que les fautes d’orthographes, les doublons, identifier les onomatopées (Crash!, Bang! etc.) et les informations pour personnes malentendantes… De plus, il faut éliminer toute sorte de mots comme les connecteurs (or, car, mais, donc, etc.), les déterminants (le, la, les, un, des, etc.) et ne conserver que l’essentiel. « La puissance de cet algorithme provient du fait qu’il ne se contente pas de trier les mots en fonction de thématiques. En effet, il comptabilise ceux qui sont caractéristiques comme « vampire ou surgery » par exemple et non « hello » qui va être omniprésent dans toutes les séries. », explique Khalil Hajji, un des étudiants qui s’est beaucoup investi. La préférence est donnée aux noms et aux adjectifs qui, porteurs de sens, permettent de connoter des séries et de les classer. Ainsi, pour Big Bang Theory, les top-words sont : earth, school, date, class, planet, party, mom, sex, universe, cool, kiss, fun, etc.

Il suffit d’une minuscule erreur dans le code

« À une semaine du rendu, rien ne fonctionnait ! Enfin, pas rien, mais les résultats fournis par l’algorithme n’étaient pas pertinents ! » s’exclame Khalil Hajji. En travaillant d’arrache-pied, les étudiants repassent au peigne fin toutes les étapes du projet et découvrent une erreur dans une ligne de code tirée d’une publication. Il s’agit d’une petite faute dans la parallélisation de l’algorithme. Donc l’algorithme est parfaitement correct, mais son déploiement sur plusieurs ordinateurs comportait cette inexactitude qui fausse les résultats de nos étudiants. « Nous avons écrit à l’auteur de la publication pour l’avertir de cette erreur et il nous a vivement remercié. », relate Raphaël Von Aarburg.

Afin de valoriser le résultat de ce projet, les étudiants ont mis au point un site web (www.submetrics.org). En tapant dans le moteur de recherche la série de votre choix, l’outil vous donne ses thématiques et leur degré d’importance, ainsi que les mots les plus fréquents dans les dialogues. Les résultats sont souvent assez cocasses. Par exemple, les top-words de Game of Thrones sont : sir, power, death, brother ou encore lord, magic et king. À titre de comparaison, les top-words de Breaking Bad sont : car, cop, gun, detective, police, shoot et drug.

« Pour présenter de manière visuelle et attractive les données, nous avons généré des graphs. », explique Claire Musso qui a beaucoup contribué à cette phase conclusive du projet. « C’est un peu comme une cartographie des séries : chaque point représente une série et entre chaque série, il y a des connexions en fonction des similitudes. On peut alors observer que les séries qui se passent dans un hôpital sont "spatialement et thématiquement" éloignées des autres. Au contraire, les séries qui parlent d’environnements policier, politique ou criminel, sont très rapprochées sur la carte. »

British VS American

« Un aspect marrant dans les résultats, décrit Simon-Pierre Genot c’est que l’algorithme parvient à distinguer l’anglais british de l’américain avec des mots comme "mate", "lad", "blimey", "o'clock" ou même grâce à la répétition du mot "tea". Nous avons donc un thème qui s’appelle "British" où des séries comme Docteur Who ou Downton Abbey sont répertoriées. »

Le site recommande également des séries similaires en terme de contenu à celles préférées par l’internaute. « Dans l’idéal, avance Claire Musso, nous aimerions pouvoir un jour coupler notre outils avec les outils de recommandation usuels, afin d’optimiser les résultats de part et d’autres…»

Et aux étudiants de conclure d’une seule voix : « Nous étions 8, mais nous avons réussi à collaborer dans une excellente ambiance et l’encadrement proposé par les doctorants était top ! Nous aimerions donc en profiter pour remercier le professeur Christoph Koch et ses assistants qui nous ont encadrés, Mohammed El Seidy ainsi qu’Amir Shaikha ».

Le site web du projet : www.submetrics.org

Les étudiants en IC : Claire Musso, Florian Simond, Grigory Rozhdestvenskiy, Khalil Hajji, Nassim Drissi El Kamili, Nils Bouchardon, Simon-Pierre Génot et Raphaël von Aarburg


Auteur: Alexandra Walther

Source: EPFL