Les nuances du comportement humain se révèlent en cuisine

© iStock
En équipant une cuisine en laboratoire du mouvement, le professeur de l’EPFL Alexander Mathis propose une nouvelle manière d’observer, de quantifier et de modéliser la mobilité humaine dans toute sa complexité.
Pour explorer en détail le mouvement humain, il n’y a pas de meilleur endroit que la cuisine. C’est en tout cas le pari d’Alexander Mathis, professeur assistant aux instituts Brain Mind et Neuro-X de l’EPFL. Avec une équipe pluridisciplinaire issue de l’EPFL, de l’EPFZ et du Microsoft Joint Swiss Research Center, le spécialiste en neurosciences computationnelles a développé EPFL-Smart-Kitchen-30 dataset. Ce jeu de données unique au monde propose un enregistrement extrêmement exhaustif des gestes exécutés lors de la préparation de repas, capturés sous de multiples angles. Le travail sera présenté début décembre à la conférence NeurIPS à San Diego. Il ouvre la voie à un meilleur suivi des effets de la neuro-rééducation dans la vie quotidienne, ainsi qu’au développement de stratégies thérapeutiques plus efficaces pour la rééducation et l’assistance des fonctions motrices. Il s’appuie sur les recherches menées à l’EPFL par Friedhelm Hummel et Solaiman Shokur.
Le projet vise à suivre, de manière fine, mais non intrusive, la façon dont les personnes exécutent les gestes du quotidien, dans des situations aussi proches que possible de la vie réelle. L’objectif: modéliser les composantes motrices et cognitives de nos gestes, afin de mieux comprendre comment s’organisent le mouvement, la coordination et la planification de l’action. Les applications potentielles sont multiples, des neurosciences fondamentales et translationnelles à l’apprentissage machine, y compris dans le domaine médical.
Pourquoi la cuisine? «Il y a d’abord la question de la vie privée, détaille Alexander Mathis. De toutes les pièces de la maison, la cuisine est celle qui pose le moins de problèmes.» L’autre raison est plus scientifique. «En cuisine, vous effectuez une variété infinie de mouvements: vous marchez, vous vous mettez sur la pointe des pieds, vous ouvrez des portes, vous manipulez des couteaux, des casseroles, des emballages. Il y a de la coordination œil-main, de la planification - pour que tous les ingrédients soient prêts au bon moment - et même l’expression de votre style personnel. C’est vraiment tout le corps et le cerveau qui sont mobilisés.»
Pour passer de cette intuition aux données, l’équipe a construit une vraie cuisine instrumentée sur le Campus Biotech. «Projet longuement mijoté», comme aime plaisanter Alexander Mathis, EPFL-Smart-Kitchen-30 repose sur une plateforme de capture unique: neuf caméras RGB-D fixes ont été disposées autour de la pièce, afin que les mains des sujets soient visibles en permanence depuis plusieurs angles; un casque HoloLens 2 filme en vision subjective, permettant aussi de suivre la trajectoire du regard; des unités de mesure inertielle captent les mouvements du corps et des mains. «Même certains éléments de la cuisine sont instrumentés, détaille le chercheur. Nous avons, par exemple, mis un accéléromètre sur la porte du frigo. Cela nous a permis de mesurer à quelle vitesse on l’ouvre, à quel point le geste est fluide ou hésitant.»
En cuisine, vous effectuez une variété infinie de mouvements: vous marchez, vous vous mettez sur la pointe des pieds, vous ouvrez des portes, vous manipulez des couteaux, des casseroles, des emballages... C’est vraiment tout le corps et le cerveau qui sont mobilisés.
Omelette, ratatouille, pad thaï
Au total, le jeu de données cumule près de 30 heures d’enregistrement. Les 16 personnes observées - des hommes et des femmes âgés de 20 à 46 ans - ont concocté quatre recettes différentes, chaque préparation étant répétée plusieurs fois afin d’observer l’évolution des gestes avec la pratique. Au menu: une omelette avec salade, une ratatouille ou encore un pad thaï. «Ce dernier est un bon choix, car c’était un plat nouveau pour certains, notamment les participantes et participants les plus âgés, note Alexander Mathis. Il a donc nécessité de l’adaptation.» Chacun de ces plats combine gestes simples et contraintes temporelles: on surveille une cuisson tout en préparant une sauce, on anticipe la suite, on s’adapte aux imprévus.
L’une des forces du projet réside dans la précision de son annotation. Chaque session a été analysée par des annotatrices et annotateurs humains, décrivant en continu les gestes de la personne filmée. Quelque 768 types d’actions ont été définis, de gestes très concrets - «prendre l’aubergine», «prendre le couteau», «couper l’aubergine» - à des catégories plus générales, comme «préparer les ingrédients» ou «nettoyer le plan de travail». Résultat: plus de 30 segments d’action observés par minute en moyenne.
Ce matériau nourrit quatre grands modèles de référence destinés à tester les capacités des modèles d’intelligence artificielle, notamment en vision-langage, en reconnaissance d’actions multimodales, en segmentation basée sur la pose et en génération texte-vers-mouvement. Ce dernier consiste à relier des instructions verbales à des trajectoires en 3D. Apprendre ce lien entre langage et mouvement est crucial pour que des systèmes d’assistance ou des robots comprennent réellement ce qu’on leur demande.
Les tests montrent que le défi est encore loin d’être relevé. «Sur la tâche de reconnaissance d’actions, les meilleurs modèles actuels d’IA atteignent environ 40% de précision», note Alexander Mathis. Autrement dit, ils sont encore très loin de pouvoir analyser automatiquement une séance de cuisine avec la fiabilité nécessaire à des applications cliniques. Mais le chercheur reste confiant: «Je suis certain que dans un an ou deux, elles seront bien meilleures. L’IA progresse très vite, et ce type de références va l’aider à franchir de nouvelles étapes.»
Aider les personnes touchées dans leur santé
Derrière ces chiffres se dessine un objectif très concret: aider les personnes touchées dans leur santé à récupérer toute leur mobilité. Parmi les partenaires du projet, les travaux de Friedhelm Hummel, titulaire de la Chaire Fondation Defitech de recherches en neuroingénierie clinique et interactions homme-machine, se concentrent sur la récupération des personnes ayant souffert d’un AVC ainsi que les thérapies personnalisées. Au Laboratoire d’ingénierie translationnelle, le neuro-ingénieur Solaiman Shokur travaille quant à lui sur des interfaces permettant de retrouver des mouvements plus naturels après des lésions graves.
«Prenons le cas d’une personne qui se remet d’un AVC, explique Friedhelm Hummel. Aujourd’hui, on lui demandera, par exemple, de lever le bras et on lui attribuera un score pour ce geste. Mais en observant sa manière de cuisiner, on découvrira beaucoup plus de choses pertinentes en lien avec sa vie quotidienne. Est-ce qu’elle évite certains gestes? Est-ce qu’elle met beaucoup plus de temps pour accomplir des actions qui devraient être simples? Est-ce qu’elle atteint les objectifs qu’elle s’était fixés en préparant ce repas?»
L’idée, à terme, est de pouvoir relier automatiquement ce comportement naturel aux scores cliniques existants, voire d’en inventer de nouveaux. De tels indicateurs pourraient un jour servir à suivre la progression d’une rééducation à domicile, par exemple à partir d’une heure de cuisine analysée chaque semaine.
Au-delà des questions de santé, Alexander Mathis s’intéresse aussi à ce qui fait la différence entre un geste ordinaire et un geste expert. «Comment cuisine-t-on comme un chef, comment joue-t-on de la guitare comme un musicien d’exception? Entre le patient en rééducation et l’expert, il y a tout un continuum de contrôle moteur que nous aimerions décrire.» Une deuxième étude, déjà en préparation, portera sur un nombre plus important de participantes et participants, avec un focus particulier sur l’expertise.