Les modèles de langage chimique n'ont pas besoin de comprendre la chimie

Une étude prouve que les modèles de transformateurs utilisés en chimie n'apprennent que des corrélations statistiques

17.10.2025
Gregor Hübl/University of Bonn

Jürgen Bajorath et le doctorant Jannik P. Roth de Life Science Informatics à l'université de Bonn.

Les modèles linguistiques sont désormais également utilisés dans les sciences naturelles. En chimie, ils sont utilisés, par exemple, pour prédire de nouveaux composés biologiquement actifs. Les modèles de langage chimique (CLM) doivent faire l'objet d'un entraînement intensif. Cependant, ils n'acquièrent pas nécessairement des connaissances sur les relations biochimiques au cours de la formation. Au contraire, ils tirent des conclusions basées sur des similitudes et des corrélations statistiques, comme le démontre une étude récente de l'université de Bonn. Les résultats viennent d'être publiés dans la revue Patterns.

J. P. Roth und J. Bajorath

Représentation schématique d'un modèle de transformateur pour la prédiction de nouveaux composés à partir de données sur les séquences de protéines.

Les grands modèles de langage sont souvent étonnamment bons dans ce qu'ils font, qu'il s'agisse de prouver des théorèmes mathématiques, de composer de la musique ou de rédiger des slogans publicitaires. Mais comment parviennent-ils à leurs résultats ? Comprennent-ils réellement ce qui constitue une symphonie ou une bonne blague ? Il n'est pas si facile de répondre à cette question. "Tous les modèles linguistiques sont une boîte noire", souligne le professeur Jürgen Bajorath. "Il est difficile de regarder à l'intérieur de leur tête, métaphoriquement parlant.

C'est pourtant ce qu'a tenté de faire Jürgen Bajorath, chercheur en chimioinformatique à l'Institut Lamarr pour l'apprentissage automatique et l'intelligence artificielle de l'université de Bonn. Plus précisément, lui et son équipe se sont concentrés sur une forme particulière d'algorithme d'IA : le CLM transformateur. Ce modèle fonctionne de la même manière que ChatGPT, Google Gemini et le "Grok" d'Elon Musk, qui sont formés à partir de grandes quantités de texte, ce qui leur permet de générer des phrases de manière autonome. Les CLM, quant à eux, sont généralement basés sur beaucoup moins de données. Ils acquièrent leurs connaissances à partir de représentations et de relations moléculaires, par exemple les chaînes dites SMILES. Il s'agit de chaînes de caractères qui représentent les molécules et leur structure sous la forme d'une séquence de lettres et de symboles.

Manipulation systématique des données d'entraînement

Dans la recherche pharmaceutique, les scientifiques tentent souvent d'identifier des substances capables d'inhiber certaines enzymes ou de bloquer des récepteurs. Les CLM peuvent être utilisés pour prédire les molécules actives sur la base des séquences d'acides aminés des protéines cibles. "Nous avons utilisé la conception moléculaire basée sur les séquences comme système de test pour mieux comprendre comment les transformateurs parviennent à leurs prédictions", explique Jannik Roth, un doctorant qui travaille avec Bajorath. "Après la phase d'entraînement, si vous introduisez une nouvelle enzyme dans un tel modèle, celui-ci peut produire un composé capable de l'inhiber. Mais cela signifie-t-il que l'IA a appris les principes biochimiques qui sous-tendent cette inhibition ?"

Les CLM sont formés à l'aide de paires de séquences d'acides aminés de protéines cibles et de leurs composés actifs connus respectifs. Afin de répondre à leur question de recherche, les scientifiques ont systématiquement manipulé les données d'entraînement. "Par exemple, au départ, nous n'avons donné au modèle que des familles spécifiques d'enzymes et leurs inhibiteurs", explique Bajorath. "Lorsque nous avons ensuite utilisé une nouvelle enzyme de la même famille à des fins de test, l'algorithme a suggéré un inhibiteur plausible. Cependant, la situation était différente lorsque les chercheurs ont utilisé une enzyme d'une autre famille dans le test, c'est-à-dire une enzyme qui remplit une fonction différente dans l'organisme. Dans ce cas, le CLM n'a pas réussi à prédire correctement les composés actifs.

Règle statistique empirique

"Cela suggère que le modèle n'a pas appris les principes chimiques généralement applicables, c'est-à-dire la manière dont l'inhibition enzymatique fonctionne habituellement d'un point de vue chimique", explique le scientifique. Au contraire, les suggestions sont basées uniquement sur des corrélations statistiques, c'est-à-dire des schémas dans les données. Par exemple, si la nouvelle enzyme ressemble à une séquence d'entraînement, un inhibiteur similaire sera probablement actif. En d'autres termes, des enzymes similaires ont tendance à interagir avec des composés similaires. Une telle règle empirique basée sur une similarité statistiquement détectable n'est pas nécessairement une mauvaise chose", souligne M. Bajorath, qui dirige le domaine "AI in Life Sciences and Health" à l'Institut Lamarr. "Après tout, cela peut aussi aider à identifier de nouvelles applications pour des substances actives existantes".

Cependant, les modèles utilisés dans l'étude manquaient de connaissances biochimiques pour estimer les similitudes. Ils considéraient que les enzymes (ou les récepteurs et autres protéines) étaient similaires s'ils correspondaient à 50-60% de leur séquence d'acides aminés, et suggéraient donc des inhibiteurs similaires. Les chercheurs pouvaient randomiser et brouiller les séquences à volonté, à condition de conserver suffisamment d'acides aminés d'origine. Cependant, il arrive souvent que seules des parties très spécifiques d'une enzyme soient nécessaires pour qu'elle puisse accomplir sa tâche. La modification d'un seul acide aminé dans une telle région peut rendre l'enzyme dysfonctionnelle. D'autres régions sont plus importantes pour l'intégrité structurelle et moins pertinentes pour des fonctions spécifiques. "Au cours de leur formation, les modèles n'ont pas appris à faire la distinction entre les parties de séquences fonctionnellement importantes et celles qui ne le sont pas", souligne M. Bajorath.

Les modèles se contentent de répéter ce qu'ils ont lu auparavant

Les résultats de l'étude montrent donc que les CLM de transformateurs formés à la conception de composés basés sur les séquences n'ont pas de compréhension chimique plus approfondie, du moins pour ce système d'essai. En d'autres termes, ils se contentent de récapituler, avec des variations mineures, ce qu'ils ont déjà appris dans un contexte similaire à un moment donné. "Cela ne signifie pas qu'ils ne conviennent pas à la recherche sur les médicaments", souligne Bajorath, qui est également membre du domaine de recherche transdisciplinaire (TRA) "Modélisation" à l'université de Bonn. "Il est tout à fait possible qu'ils suggèrent des médicaments qui bloquent réellement certains récepteurs ou inhibent des enzymes". Cependant, ce n'est certainement pas parce qu'ils comprennent si bien la chimie, mais parce qu'ils reconnaissent des similitudes dans les représentations moléculaires textuelles et des corrélations statistiques qui nous restent cachées. Cela ne discrédite pas leurs résultats. Mais il ne faut pas non plus les surinterpréter".

Note: Cet article a été traduit à l'aide d'un système informatique sans intervention humaine. LUMITOS propose ces traductions automatiques pour présenter un plus large éventail d'actualités. Comme cet article a été traduit avec traduction automatique, il est possible qu'il contienne des erreurs de vocabulaire, de syntaxe ou de grammaire. L'article original dans Anglais peut être trouvé ici.

Publication originale

Autres actualités du département science

Actualités les plus lues

Plus actualités de nos autres portails