La communauté EPFL à la rescousse d'un thèse

Kevin Jablonka et un Wordcloud des termes de couleur utilisés dans l'enquête (crédit : K. Jablonka)

Kevin Jablonka et un Wordcloud des termes de couleur utilisés dans l'enquête (crédit : K. Jablonka)

Des scientifiques de l’EPFL ont combiné les sciences citoyennes et l’apprentissage machine pour attribuer des couleurs à des millions de structures cristallines de réseaux organométalliques – des matériaux nanoporeux ayant plusieurs applications dans de nombreux domaines, allant du captage du carbone à la purification de l’eau.

En chimie, il est fréquent de rapporter la couleur d’un cristal une fois synthétisé. Un examen ponctuel de la Cambridge Structural Database (CSD) révélera non seulement des millions de structures cristallines mais aussi la couleur de certaines d’entre elles.

Toutefois, il est difficile de prédire la couleur d’un cristal. Pour y parvenir, des scientifiques sous la direction de Berend Smit à la Faculté des Sciences de Base de l’EPFL ont mis au point une approche d’apprentissage machine afin de recueillir des données CSD pour tous les réseaux organométalliques (MOF). Ces derniers font partie d’une classe de matériaux présentant des pores de taille nanométrique qui les rendent utiles dans de nombreuses technologies comme le captage du carbone, la détection et la purification de l’eau. Des millions de MOF différents peuvent être synthétisés en combinant des liants organiques et des nœuds métalliques. Chaque combinaison génère des cristaux aux couleurs très différentes qui sont directement pertinents pour des applications telles que la photocatalyse, l’éclairage ou la détection.

«Nous étions complètement coincés», déclare Berend Smit. «Nous avons découvert que pour de nombreux cristaux il était impossible d’associer un nom unique à une couleur, notamment si le nom ne figure pas dans les tables de couleurs comme celles sur XKCD.» Ce n’était pas simplement un problème de recherche, mais aussi un obstacle majeur pour Kevin Jablonka, doctorant au laboratoire de Berend Smit dont le doctorat porte sur ce projet.

Les scientifiques ont donc demandé de l’aide auprès de la communauté EPFL. «Nous leur avons demandé de choisir une couleur pour un nom donné», explique Berend Smit. L’appel a été entendu, avec plus de 4 000 personnes qui y ont répondu. «Les réponses nous ont permis de générer une distribution des couleurs pour un nom donné. Avec ces distributions nous avons pu faire correspondre les noms de couleurs distinctes dans la CSD avec les nombres et voir si notre modèle d’apprentissage machine fonctionnait.»

Si, par exemple, le modèle prédisait la couleur d’un cristal comme le «jaune paille», les scientifiques comparaient cette couleur à la distribution des couleurs que la communauté EPFL a décrite comme «jaune paille». Le recoupement de leur prédiction avec cette distribution pouvait permettre alors de quantifier la précision de leurs prédictions.

Mais ce n’était pas tout: les travaux ont également abouti à une nouvelle façon de rapporter les couleurs. «Nous nous sommes également rendu compte que nous ne pouvions pas optimiser davantage notre apprentissage machine à moins d’améliorer la manière dont les couleurs sont rapportées», affirme Berend Smit. «Pour cela, nous avons entamé une collaboration avec Luc Patiny (EPFL) pour développer une application de son Electronic Laboratory Notebook (ELN), en demandant à des chimistes de synthétiser certains MOF de couleur, puis de prendre une photo des cristaux avec une carte d’étalonnage des couleurs et de télécharger la photo dans l’ELN.»

L’application de couleurs qu’ils ont développée reconnaît la carte d’étalonnage des couleurs et corrige automatiquement les différences de luminosité ou de qualité de la caméra. Elle génère une valeur RGB moyenne de l’échantillon, ainsi que son écart-type pour quantifier le degré d’homogénéité de l’échantillon.

«C’est un très bon exemple de sciences citoyennes», affirme Berend Smit. «Et, pour que ce soit vraiment des sciences ouvertes, l’ELN publie automatiquement toutes les photos sur le répertoire Zenodo du CERN, depuis lequel les données peuvent être consultées avec un navigateur web ou téléchargées pour analyse ultérieure.»

Electronic Laboratory Notebook : https://cheminfo.github.io/eln.epfl.ch/

Financement

Programme de recherche et d’innovation Horizon 2020 de l’Union européenne

NCCR-MARVEL

Fonds national suisse de la recherche scientifique

Projet PrISMa de Programme ACT

Office fédéral de l’énergie (OFEN)

Références

Kevin Maik Jablonka, Seyed Mohamad Moosavi, Mehrdad Asgari, Christopher Ireland, Luc Patiny, Berend Smit. A data-driven perspective on the colours of metal–organic frameworks. Chemical Science 28 December 2020. DOI: 10.1039/D0SC05337F