GPT-3 transforme la recherche chimique

© EPFL/iStock

© EPFL/iStock

Des scientifiques de l’EPFL démontrent comment GPT-3 peut transformer l’analyse chimique en la rendant plus rapide et plus conviviale.

L’intelligence artificielle est en train de devenir un outil essentiel en recherche en chimie. Elle apporte de nouvelles méthodes pour relever des défis complexes qu’on ne parvient pas à résoudre avec les approches traditionnelles. Un type d’intelligence artificielle de plus en plus utilisé en chimie est l’apprentissage machine. Ce dernier utilise des algorithmes et des modèles statistiques pour prendre des décisions basées sur des données et réaliser des tâches pour lesquelles il n’a pas été explicitement programmé.

Toutefois, pour faire des prédictions fiables, l’apprentissage machine nécessite également de grands volumes de données, qui ne sont pas toujours disponibles dans la recherche en chimie. Les petits ensembles de données chimiques ne fournissent tout simplement pas assez d’informations pour permettre à ces algorithmes de s’entraîner, ce qui limite leur efficacité.

Dans une récente étude, des scientifiques de l’équipe de Berend Smit de l’EPFL ont trouvé une solution basée sur les grands modèles de langage tels que GPT-3. Réputés pour leurs vastes capacités de compréhension et de production de textes identiques à ceux d’un être humain, ces modèles sont pré-entraînés sur des quantités massives de textes. GPT-3 constitue la base de ChatGPT, l’outil d’IA le plus populaire.

Publiée dans la revue Nature Machine Intelligence, l’étude dévoile une nouvelle approche qui simplifie considérablement l’analyse chimique grâce à l’intelligence artificielle. Contrairement au scepticisme initial, cette méthode ne pose pas directement de questions de chimie à GPT-3.

«GPT-3 n’a pas eu connaissance de la plupart des publications en chimie. Donc, si nous posons une question de chimie à ChatGPT, les réponses se limitent généralement à ce que l’on peut trouver sur Wikipédia», déclare Kevin Jablonka, principal chercheur de l’étude. «Au lieu de cela, nous perfectionnons GPT-3 avec un petit ensemble de données converties en questions et en réponses, créant ainsi un modèle capable de fournir des informations chimiques précises.»

Ce processus implique d’alimenter GPT-3 avec une liste de questions-réponses. «Par exemple, pour les alliages à haute entropie, il est important de savoir si un alliage comporte une ou plusieurs phases», explique Berend Smit. «La liste de questions-réponses est du type: Q = Le <nom de l’alliage à haute entropie> comporte-t-il une seule phase? R = Oui/Non.»

Il poursuit: «Dans la littérature, nous avons trouvé de nombreux alliages pour lesquels on connaît la réponse. Nous avons utilisé ces données pour perfectionner GPT-3. Nous obtenons en retour un modèle d’IA perfectionné et entraîné à ne répondre à cette question que par oui ou par non.»

Pendant les tests, le modèle, entraîné avec relativement peu de questions-réponses, a répondu correctement à plus de 95% de problèmes chimiques très divers, dépassant souvent la précision des modèles d’apprentissage machine ultramodernes. « L’essentiel est que cela soit aussi simple que de faire une recherche documentaire, ce qui fonctionne pour de nombreux problèmes chimiques», affirme Berned Smit.

L’un des aspects les plus frappants de cette étude est la simplicité et la rapidité de cet outil. Les modèles d’apprentissage machine traditionnels nécessitent des mois de développement et des connaissances approfondies. En revanche, l’approche développée par Kevin Jablonka prend cinq minutes et ne requiert aucune connaissance particulière.

Les répercussions de l’étude sont importantes. Elle présente une méthode aussi simple qu’une recherche documentaire, applicable à divers problèmes chimiques. La possibilité de formuler des questions telles que «Le rendement d’un [produit chimique] fabriqué avec cette [recette] est-il élevé?» et d’obtenir des réponses précises peut révolutionner la manière de planifier et de mener la recherche en chimie.

Dans l’article, les auteurs précisent : «Parallèlement à la recherche documentaire, l’interrogation d’un modèle de base [par exemple, GPT-3,4] pourrait devenir un moyen habituel de lancer un projet en tirant parti de la connaissance collective intégérée dans ce type de modèle.» Selon Berend Smit, cela va changer la façon de faire de la chimie.

Autres contributeurs

  • Laboratoire d’intelligence artificielle chimique de l’EPFL
  • Institut Helmholtz pour les polymères dans les applications énergétiques (Centre Helmholtz de Berlin et FSU Jena)
Financement

Fonds national suisse de la recherche scientifique

Fondation Grantham pour la protection de l’environnement

RMI Third Derivative

Fondation Carl-Zeiss

Références

Kevin Maik Jablonka, Philippe Schwaller, Andres Ortega-Guerrero, Berend Smit. Is GPT all you need for low-data discovery in chemistry? Nature Machine Intelligence 2023. DOI: 10.1038/s42256-023-00788-1