Un nouveau modèle d'IA modulaire

Machine Learning Neural Network © iStock

Machine Learning Neural Network © iStock

Des chercheuses et chercheurs de l’EPFL ont mis au point un nouveau modèle d’apprentissage machine modulaire pour permettre une prise de décision flexible. Ce modèle peut entrer tout type de texte, de vidéo, d’image, de son et de série temporelle, puis produire n’importe quel nombre ou combinaison de prédictions. 

Tout le monde a entendu parler des grands modèles de langage (LLM). Ce sont des modèles d’apprentissage profond à grande échelle entraînés sur d’immenses quantités de texte qui constituent la base des chatbots tels que ChatGPT d’OpenAI. Les modèles multimodaux (MM) de nouvelle génération peuvent apprendre à partir d’entrées autres que du texte, y compris la vidéo, les images et le son.

La création de modèles multimodaux à plus petite échelle soulève des défis majeurs, dont celui de la fiabilité face aux informations manquantes non aléatoires. Il s’agit d’informations dont ne dispose pas un modèle, souvent en raison d’une disponibilité biaisée des ressources. Il est donc essentiel de veiller à ce que le modèle n’apprenne pas les schémas d’absence biaisés en faisant ses prédictions.

MultiModN contourne le problème

Pour remédier à ce problème, des chercheuses et chercheurs du Laboratoire d’apprentissage machine pour l’éducation (ML4ED) et du Laboratoire d’apprentissage machine et d’optimisation (MLO) de la Faculté informatique et communications de l’EPFL ont développé et testé l’exact opposé d’un grand modèle de langage.

Créé sous l’impulsion de la professeure Mary-Anne Hartley, responsable du Laboratory for intelligent Global Health Technologies hébergé conjointement au Laboratoire MLO et à l’École de médecine de Yale, et de la professeure Tanja Käser, responsable du Laboratoire ML4ED, MultiModN est un modèle multimodal modulaire unique, récemment présenté lors de la conférence NeurIPS2023.

À l’instar des modèles multimodaux actuels, MultiModN peut apprendre à partir de textes, d’images, de vidéos et de sons. Contrairement aux modèles multimodaux existants, ce dernier est composé d’un nombre de modules plus petits, autonomes et spécifiques aux entrées, qui peuvent être sélectionnés selon les informations disponibles, puis enchaînés dans une séquence de n’importe quel nombre, combinaison ou type d’entrée. Il peut ensuite produire n’importe quel nombre ou combinaison de prédictions.

«Nous avons évalué MultiModN dans dix tâches réelles, dont l’aide au diagnostic médical, la prédiction des résultats scolaires et les prévisions météorologiques. Grâce à ces expériences, nous pensons que MultiModN est la première approche de la modélisation multimodale intrinsèquement interprétable et résistante aux données manquantes de façon non aléatoire (MNAR)», explique Vinitra Swamy, doctorante aux Laboratoires ML4ED et MLO et co-autrice principale du projet.

Un premier cas d’utilisation: la prise de décision médicale

Le premier cas d’utilisation de MultiModN sera un système d’aide à la décision clinique destiné au personnel médical dans les environnements à faibles ressources. Dans le domaine de la santé, les données cliniques sont souvent manquantes, peut-être en raison de contraintes de ressources (un patient ou une patiente n’a pas les moyens de passer le test) ou d’une abondance de ressources (le test est redondant en raison d’un test supérieur qui a été effectué). MultiModN peut apprendre à partir de ces données réelles sans adopter ses biais, et adapter ses prédictions à n’importe quel nombre ou combinaison d’entrées.

«L’absence est une caractéristique des données dans les environnements à faibles ressources. Lorsque les modèles apprennent ces schémas d’absence, ils peuvent encoder des biais dans leurs prédictions. Le besoin de flexibilité face à des ressources disponibles de manière imprévisible est à l’origine de MultiModN», précise Mary-Anne Hartley, qui est également médecin.

Du laboratoire à la réalité

La publication n’est toutefois que la première étape de la mise en œuvre. Mary-Anne Hartley travaille avec des collègues du Centre hospitalier universitaire vaudois (CHUV) et Inselspital, de l’hôpital universitaire de Berne uBern pour mener des études cliniques axées sur le diagnostic de la pneumonie et de la tuberculose dans des environnements à faibles ressources et recruter des milliers de patientes et patients en Afrique du Sud, en Tanzanie, en Namibie et au Bénin.

Les équipes de recherche ont entrepris une vaste initiative de formation pour apprendre à plus de 100 médecins à collecter systématiquement des données multimodales, y compris des images et des vidéos d’échographie. L’objectif est d’entraîner MultiModN à être attentif aux données réelles provenant de régions à faibles ressources.

«Nous collectons exactement le type de données multimodales complexes pour lesquelles MultiModN a été conçu», déclare Noémie Boillat-Blanco, médecin associée au Service des maladies infectieuses du CHUV. «Nous sommes ravis de voir un modèle qui tient compte de la complexité des ressources manquantes dans nos environnements et de l’absence systématique d’examens cliniques de routine», ajoute Kristina Keitel de l’hôpital universitaire de Berne.

L’apprentissage machine au service de l’intérêt général

Le développement et l’entraînement de MultiModN s’inscrivent dans la mission de l’EPFL visant à adapter les outils d’apprentissage machine à la réalité et pour l’intérêt général. Cela intervient peu de temps après le lancement de Meditron, le LLM open source le plus performant au monde, conçu pour faciliter la prise de décision clinique.

Ces deux outils s’alignent sur la mission du nouveau Centre IA de l’EPFL qui est axé sur la manière dont une IA responsable et efficace peut faire progresser l’innovation technologique au profit de tous les secteurs de la société.

Mary-Anne Hartley est conférencière lors des prochains Applied Machine Learning Days (AMLD) qui se tiendront au SwissTech Convention Center les 23-26 mars 2024. Vinitra Swamy présentera MultiModN à l’occasion de l’événement Applied eXplainable AI Track des AMLD. Découvrez les autres conférencières et conférenciers ici et inscrivez-vous ici.


Auteur: Tanya Petersen

Source: EPFL

Ce contenu est distribué sous les termes de la licence Creative Commons CC BY-SA 4.0. Vous pouvez reprendre librement les textes, vidéos et images y figurant à condition de créditer l’auteur de l’œuvre, et de ne pas restreindre son utilisation. Pour les illustrations ne contenant pas la mention CC BY-SA, l’autorisation de l’auteur est nécessaire.