Le machine learning trie d'énormes bases de données de matériaux

Les chercheurs de l’EPFL et du MIT utilisent l’apprentissage automatique pour organiser la diversité des substances chimiques présente dans les bases de données de matériaux de réseaux organométalliques, particulièrement populaires et en développement constant.

Les réseaux organométalliques (metal-organic framework ou MOF) constituent une catégorie de matériaux dotés de pores à l’échelle nanométrique. Ces pores procurent aux MOF des surfaces spécifiques internes qui dépassent tous les records, pouvant mesurer jusqu’à 7800 m2 dans un seul gramme de matériau. En conséquence, les MOF sont extrêmement polyvalents et trouvent de multiples usages, pour n’en citer que quelques exemples: séparation des produits pétrochimiques et des gaz, imitation de l’ADN, production d’hydrogène et extraction de métaux lourds, d’anions fluorures, et même d’or à partir de l’eau.

En raison de leur popularité, les chercheurs en matériaux développent, synthétisent, étudient et cataloguent les MOF à toute vitesse. Il existe actuellement plus de 90 000 MOF publiés et leur nombre grandit chaque jour. Bien qu’excitant, ce nombre de MOF est en soi un problème: «Actuellement, si nous proposons de synthétiser un nouveau MOF, comment pouvons-nous savoir s’il s’agit vraiment d’une nouvelle structure et non d’une quelconque variation mineure d’une structure qui a déjà été synthétisée?», s’interroge le professeur Berend Smit, de l’Ecole polytechnique fédérale de Lausanne Valais-Wallis (EPFL Valais-Wallis) qui abrite une division importante de chimie.

Pour répondre à cette question, le professeur Smit s’est associé au professeur Heather J. Kulik du Massachusetts Institute of Technology (MIT) et a utilisé l’apprentissage automatique pour développer un «langage» permettant de comparer deux matériaux et de quantifier leurs différences. Cette étude est publiée dans Nature Communications.

Armés de ce nouveau «langage», les chercheurs ont commencé à explorer la diversité des substances chimiques des bases de données de MOF. «Avant, nous nous concentrions sur le nombre de structures,» explique Berend Smit. «Désormais, nous avons découvert que les principales bases de données ont toutes sortes de biais en faveur de structures particulières. Il n’est pas intéressant de mener des études de sélection coûteuses sur des structures similaires. Il vaut mieux sélectionner soigneusement un ensemble de structures très diverses, qui donneront de bien meilleurs résultats avec bien moins de structures.»

L’une des autres applications intéressantes est «l’archéologie scientifique»: les chercheurs ont utilisé leur système d’apprentissage automatique pour identifier les structures MOF qui étaient publiées au moment de l’étude et étaient très différentes de celles déjà connues.

«Nous disposons donc maintenant d’un outil très simple qui peut indiquer à un groupe d’expérimentation à quel point leur nouveau MOF est différent des 90 000 autres structures déjà signalées,» explique Berend Smit.

Autres collaborateurs

ShanghaiTech University

Financement

FNS

ERC

NCCR-MARVEL

DARPA Young Faculty Award

NSF Graduate Research Fellowship

Références

Seyed Mohamad Moosavi, Aditya Nandy, Kevin Maik Jablonka, Daniele Ongari, Jon Paul Janet, Peter G. Boyd, Yongjin Lee, Berend Smit, Heather J. Kulik. Understanding the diversity of the metal-organic framework ecosystem. Nature Communications 11, 4068 (2020). DOI: 10.1038/s41467-020-17755-8