Simulation de grandes biomolécules avec une précision quantique
Un nouveau modèle d'IA repousse les limites en termes d'universalité, d'efficacité, de précision et d'évolutivité
Une équipe internationale de chercheurs du Berlin Institute for the Foundations of Learning and Data (BIFOLD) à l'Université technique de Berlin, de l'Université du Luxembourg et de Google DeepMind a développé un nouveau modèle de fondation d'apprentissage automatique capable de simuler toutes sortes de molécules avec une précision quantique. Les résultats viennent d'être publiés dans le Journal of the American Chemical Society (JACS). La nouvelle méthode, appelée SO3LR, combine les derniers développements en matière de conception de réseaux neuronaux avec les lois de la physique et a été entraînée avec un ensemble de données spécialement curaté de quatre millions de structures moléculaires différentes. Ainsi, ce modèle est non seulement capable de modéliser des biomolécules complexes, telles que des protéines, des molécules de sucre ou des membranes cellulaires, mais il peut également simuler des molécules très différentes sans devoir être réentraîné. Ce modèle universel ouvre ainsi la voie à une accélération future du développement de médicaments et à une compréhension plus approfondie de la biologie moléculaire.
Les simulations de dynamique moléculaire (MD) permettent de comprendre et de prédire le comportement des molécules. Elles permettent de décrire les interactions moléculaires au fil du temps et fournissent un aperçu de leur structure, de leur dynamique et de leur fonction. La simulation exacte de l'interaction de grandes biomolécules pourrait par exemple permettre de développer de nouveaux médicaments sans devoir réaliser au préalable des expériences coûteuses en temps, en matériel et en argent.
L'amélioration de la précision et de l'applicabilité de ces simulations a une longue tradition dans le domaine de la physique et de la chimie assistées par ordinateur. Depuis des décennies, les chercheurs sont confrontés à un conflit d'objectifs fondamental : les méthodes étaient soit rapides, mais seulement approximatives et non transposables à différentes molécules, soit extrêmement précises, mais extraordinairement complexes et coûteuses en termes de calcul. Ce conflit d'objectifs limitait jusqu'à présent les simulations de haute précision à de petits systèmes de quelques centaines d'atomes. Les biomolécules ou les protéines complexes et de grande taille peuvent toutefois contenir plusieurs dizaines de milliers d'atomes, ce qui limite les possibilités de modéliser et de comprendre avec précision des processus dynamiques fondamentaux tels que le pliage des protéines ou l'organisation cellulaire.
Ces dernières années, les modèles basés sur l'IA ont commencé à combler ce fossé entre les méthodes approximatives (classiques) et les méthodes de haute précision (mécanique quantique). Malgré des progrès importants, deux défis majeurs subsistaient : l'évolutivité de ces approches à des biomolécules de taille réaliste et la modélisation universelle dans un modèle unique. Jusqu'à présent, le principal obstacle à l'application des modèles actuels aux molécules grandes et complexes était l'absence de prise en compte des effets de la mécanique quantique sur de grandes distances. En termes simples, les atomes d'une molécule n'interagissent pas seulement avec leurs voisins immédiats, mais aussi avec des atomes éloignés. Plus la molécule est grande, plus ces effets à distance sont importants. Sans ces interactions à longue distance, la vie telle que nous la connaissons ne serait pas possible, car les biomolécules ne seraient pas fonctionnelles.
Le nouveau modèle SO3LR surmonte ces défis et repousse les limites en termes d'efficacité, de précision, d'évolutivité et d'universalité dans la simulation des molécules organiques. Les chercheurs y sont parvenus en adoptant une approche hybride pour la conception de SO3LR : la tâche complexe de calculer les interactions quantiques entre les atomes est divisée en deux composants complémentaires. Un modèle de machine learning rapide et très précis apprend les interactions complexes de la mécanique quantique à plusieurs particules sur des distances courtes et moyennes. En parallèle, des équations universelles, fondées sur la physique, décrivent avec précision les interactions par paires sur de grandes distances.
"Les simulations fiables à l'échelle biomoléculaire dépendent de ces interactions à longue distance, c'est pourquoi elles sont ancrées dans la conception de SO3LR", explique Adil Kabylda de l'Université du Luxembourg, qui a dirigé le projet. "Ainsi, notre modèle peut concentrer sa forte capacité d'apprentissage sur la capture des effets quantiques complexes qui échappent encore aux modèles traditionnels", ajoute le Dr Thorben Frank, post-doctorant à l'institut BIFOLD. Le deuxième défi à relever était l'applicabilité universelle d'un modèle aux molécules les plus diverses. Pour y parvenir, l'équipe a créé un ensemble de données vaste et varié, composé de plus de 4 millions de structures moléculaires soigneusement répertoriées, grâce auxquelles SO3LR a appris à décrire avec précision la grande diversité des molécules présentes dans la nature. Pour la première fois, ce modèle peut donc simuler des molécules de grande taille très variées - sans devoir être réentraîné au préalable.
La percée du modèle réside dans son universalité.
Pour démontrer la puissance de SO3LR, l'équipe de recherche a effectué une série de simulations sophistiquées pour les quatre principaux types de biomolécules présentes dans la nature. Ils ont par exemple simulé de grandes protéines dans un environnement aquatique explicite, dont la protéine crambine végétale et une glycoprotéine complexe. En outre, ils ont étudié une bicouche lipide-POPC, un système modèle pour les membranes cellulaires humaines.
"L'avancée décisive de SO3LR réside dans son universalité. Au lieu de devoir passer par un long processus de génération de données et d'entraînement ultérieur pour chaque nouvelle molécule, nous fournissons un seul modèle directement utilisable. Cela évite aux chercheurs les étapes de préparation qui demandent beaucoup de temps et de calculs, et permet de tester directement des hypothèses avec une précision de mécanique quantique", explique le professeur Klaus-Robert Müller, codirecteur de BIFOLD. "SO3LR représente un pas décisif dans cette direction. En combinant l'apprentissage automatique avec des principes physiques, nous ouvrons la porte à la modélisation de processus biologiques réalistes avec une précision quantique - avec des implications profondes pour la compréhension moléculaire de la santé et de la maladie, ainsi que pour le développement de la prochaine génération de médicaments", a déclaré le professeur Alexandre Tkatchenko de l'Université du Luxembourg pour résumer l'importance de ce travail.
À une époque où les modèles d'IA sont de plus en plus souvent aux mains d'entreprises privées, cette équipe de scientifiques internationaux a décidé de mettre le modèle et ses ensembles de données sous-jacents à la disposition de la communauté scientifique de manière ouverte afin d'accélérer les progrès dans ce domaine.
Note: Cet article a été traduit à l'aide d'un système informatique sans intervention humaine. LUMITOS propose ces traductions automatiques pour présenter un plus large éventail d'actualités. Comme cet article a été traduit avec traduction automatique, il est possible qu'il contienne des erreurs de vocabulaire, de syntaxe ou de grammaire. L'article original dans Allemand peut être trouvé ici.
Publication originale
Adil Kabylda, J. Thorben Frank, Sergio Suárez-Dou, Almaz Khabibrakhmanov, Leonardo Medrano Sandonas, Oliver T. Unke, Stefan Chmiela, Klaus-Robert Müller, Alexandre Tkatchenko; "Molecular Simulations with a Pretrained Neural Network and Universal Pairwise Force Fields"; Journal of the American Chemical Society, 2025-8-31