Simulación de grandes biomoléculas con precisión cuántica
El nuevo modelo de IA amplía los límites de la universalidad, la eficacia, la precisión y la escalabilidad
Un equipo internacional de investigadores del Instituto de Fundamentos del Aprendizaje y los Datos de Berlín (BIFOLD) de la Universidad Técnica de Berlín, la Universidad de Luxemburgo y Google DeepMind ha desarrollado un nuevo modelo de fundamentos de aprendizaje automático capaz de simular moléculas de todo tipo con precisión de mecánica cuántica. Los resultados se han publicado ahora en la revista Journal of the American Chemical Society (JACS). El nuevo método, denominado SO3LR, combina los últimos avances en diseño de redes neuronales con las leyes físicas y se entrenó con un conjunto de datos especialmente seleccionado de cuatro millones de estructuras moleculares diferentes. Esto significa que este modelo no sólo es capaz de modelizar biomoléculas complejas, como proteínas, moléculas de azúcar o membranas celulares, sino que también puede simular una amplia variedad de moléculas sin necesidad de volver a entrenarlas. Este modelo de aplicación universal allana así el camino para acelerar el desarrollo de fármacos y profundizar en el conocimiento de la biología molecular en el futuro.
Las simulaciones de dinámica molecular (DM) permiten comprender y predecir el comportamiento de las moléculas. Permiten describir las interacciones moleculares a lo largo del tiempo y proporcionan información sobre su estructura, dinámica y función. La simulación exacta de la interacción de grandes biomoléculas podría, por ejemplo, hacer posible el desarrollo de nuevos fármacos sin tener que realizar previamente experimentos que requieren mucho tiempo, material y dinero.
La mejora de la precisión y aplicabilidad de estas simulaciones tiene una larga tradición en la física y la química asistidas por ordenador. Durante décadas, los investigadores se han enfrentado a un conflicto fundamental de objetivos: los métodos eran o bien rápidos, pero sólo aproximados e intransferibles a moléculas diferentes, o bien extremadamente precisos, pero computacionalmente muy complejos y caros. Este conflicto de objetivos ha limitado hasta ahora las simulaciones de alta precisión a sistemas pequeños con unos cientos de átomos. Sin embargo, las biomoléculas o proteínas grandes y complejas pueden contener muchas decenas de miles de átomos, lo que limitaba las posibilidades de modelizar y comprender con precisión procesos dinámicos fundamentales como el plegamiento de proteínas o la organización celular.
En los últimos años, los modelos basados en la IA han empezado a salvar esta distancia entre los métodos aproximados (clásicos) y los de alta precisión (mecánica cuántica). A pesar de los grandes avances, siguen existiendo dos retos fundamentales: la escalabilidad de estos enfoques a biomoléculas de tamaño realista y la modelización universal en un único modelo. El mayor obstáculo para la aplicación de los modelos anteriores a moléculas grandes y complejas ha sido la falta de consideración de los efectos de la mecánica cuántica a grandes distancias. En pocas palabras, los átomos de una molécula interactúan no sólo con sus vecinos inmediatos, sino también con átomos distantes. Cuanto mayor es la molécula, más importantes son los efectos a gran distancia. Sin estas interacciones de largo alcance, la vida tal y como la conocemos no sería posible, ya que las biomoléculas no podrían funcionar.
El nuevo modelo SO3LR supera estos retos y amplía los límites en cuanto a eficacia, precisión, escalabilidad y universalidad en la simulación de moléculas orgánicas. Los investigadores lo han conseguido aplicando un enfoque híbrido al diseño de SO3LR: la compleja tarea de calcular las interacciones mecánicas cuánticas entre átomos se divide en dos componentes complementarios. Un modelo de aprendizaje automático rápido y de gran precisión aprende las complejas interacciones mecánicas cuánticas multipartícula a distancias cortas y medias. Paralelamente, unas ecuaciones universales de base física describen con precisión las interacciones entre pares a largas distancias.
"Las simulaciones fiables a escala biomolecular dependen de estas interacciones de largo alcance, por lo que están ancladas en el diseño de SO3LR", explica Adil Kabylda, de la Universidad de Luxemburgo, que dirigió el proyecto. "Esto permite a nuestro modelo centrar su gran capacidad de aprendizaje en captar los complejos efectos cuánticos que los modelos tradicionales han pasado por alto hasta ahora", añade el Dr. Thorben Frank, postdoctorando en el Instituto BIFOLD. El segundo reto que había que resolver era la aplicabilidad universal de un modelo a una amplia variedad de moléculas. Para lograrlo, el equipo creó un amplio y variado conjunto de datos de más de 4 millones de estructuras moleculares cuidadosamente seleccionadas, que SO3LR utilizó para aprender a describir con precisión la gran diversidad de moléculas de la naturaleza. Por primera vez, este modelo puede simular una gran variedad de moléculas de gran tamaño sin necesidad de reentrenarlas previamente.
El avance del modelo radica en su universalidad
Para demostrar las capacidades del SO3LR, el equipo de investigadores llevó a cabo una serie de sofisticadas simulaciones de los cuatro tipos principales de biomoléculas que se encuentran en la naturaleza. Por ejemplo, simularon grandes proteínas en un entorno acuoso explícito, como la proteína crambina de las plantas y una glicoproteína compleja. También investigaron una bicapa lípido-POPC, un sistema modelo de las membranas celulares humanas.
"El principal avance del SO3LR radica en su universalidad. En lugar de tener que pasar por un largo proceso de generación de datos y posterior entrenamiento para cada nueva molécula, ofrecemos un único modelo directamente aplicable. Esto ahorra a los investigadores los largos e intensos pasos preparatorios desde el punto de vista computacional y permite comprobar directamente las hipótesis con precisión mecánica cuántica", afirma el profesor Klaus-Robert Müller, codirector de BIFOLD. "SO3LR representa un paso decisivo en esta dirección. Al combinar el aprendizaje automático con los principios físicos, abrimos la puerta a la modelización de procesos biológicos realistas con precisión cuántica, con profundas implicaciones para la comprensión molecular de la salud y la enfermedad, así como para el desarrollo de la próxima generación de fármacos", afirma el profesor Alexandre Tkatchenko, de la Universidad de Luxemburgo, resumiendo la importancia del trabajo.
En un momento en que los modelos de IA están cada vez más en manos de empresas privadas, este equipo de científicos internacionales ha decidido poner el modelo y sus conjuntos de datos subyacentes a disposición de la comunidad científica para acelerar los avances en este campo.
Nota: Este artículo ha sido traducido utilizando un sistema informático sin intervención humana. LUMITOS ofrece estas traducciones automáticas para presentar una gama más amplia de noticias de actualidad. Como este artículo ha sido traducido con traducción automática, es posible que contenga errores de vocabulario, sintaxis o gramática. El artículo original en Alemán se puede encontrar aquí.
Publicación original
Adil Kabylda, J. Thorben Frank, Sergio Suárez-Dou, Almaz Khabibrakhmanov, Leonardo Medrano Sandonas, Oliver T. Unke, Stefan Chmiela, Klaus-Robert Müller, Alexandre Tkatchenko; "Molecular Simulations with a Pretrained Neural Network and Universal Pairwise Force Fields"; Journal of the American Chemical Society, 2025-8-31