Predicción más rápida y fiable de la estructura cristalina de moléculas orgánicas
La predicción de estructuras cristalinas de moléculas orgánicas es una tarea crítica en muchas industrias, especialmente en la farmacéutica y en el diseño de materiales funcionales. En los productos farmacéuticos, las estructuras cristalinas influyen directamente en la solubilidad y estabilidad de un fármaco. En los materiales funcionales, como los semiconductores orgánicos, el control de las estructuras cristalinas es crucial para conseguir las propiedades electrónicas deseadas. Sin embargo, la predicción de la estructura cristalina (PEC) es una tarea intrínsecamente difícil debido a las débiles y diversas interacciones intramoleculares e intermoleculares propias de los cristales orgánicos. Incluso pequeñas variaciones pueden dar lugar a disposiciones de empaquetamiento completamente distintas.
El CSP se realiza normalmente en dos etapas: exploración de la estructura y relajación de la estructura. En la primera, se genera un gran número de estructuras potenciales, a menudo al azar, para las que se han desarrollado varios algoritmos de búsqueda. Durante la relajación de la estructura, estas estructuras se refinan para identificar las configuraciones más estables utilizando la minimización de la energía. Sin embargo, la generación aleatoria de estructuras suele producir varias estructuras inestables y de baja densidad, mientras que los métodos convencionales de relajación de estructuras basados en la teoría del funcional de la densidad (DFT) son costosos desde el punto de vista computacional y requieren mucho tiempo.
Para hacer frente a estos problemas, el profesor Takuya Taniguchi, del Centro de Ciencia de Datos, y Ryo Fukasawa, de la Escuela de Postgrado de Ciencia e Ingeniería Avanzadas de la Universidad de Waseda (Japón), desarrollaron un innovador flujo de trabajo CSP basado en el aprendizaje automático (ML), denominado SPaDe-CSP, que aprovecha los predictores de grupo espacial (SP) y densidad de empaquetamiento (PD). "Nuestro flujo de trabajo emplea una estrategia única en la que los modelos de aprendizaje automático predicen primero los grupos espaciales y las densidades de cristal más probables, filtrando los candidatos inestables y de baja densidad antes de los pasos de relajación computacionalmente intensivos", explica Taniguchi. Junto con una red neuronal eficaz para la relajación de estructuras, este método permite identificar de forma más directa y fiable las disposiciones cristalinas observadas experimentalmente". "El estudio se publicó en la revista Digital Discovery el 13 de octubre de 2025.
SPaDe-CSP reduce el espacio de búsqueda de cristales orgánicos, prediciendo primero los probables grupos espaciales candidatos y las densidades cristalinas mediante modelos ML. Para el entrenamiento y las pruebas, los investigadores extrajeron un conjunto de datos de la Cambridge Structural Database (CSD), formado por 32 candidatos a grupo espacial con 169.656 entradas de datos. Ambos modelos de predicción utilizaron MACCSKeys como huella molecular y LightGBM como función de predicción. Los investigadores también interpretaron los modelos entrenados utilizando el análisis de explicaciones aditivas de Shapley (SHAP) para identificar las características estructurales más importantes para realizar predicciones eficaces.
Tras el muestreo reticular, las estructuras no relajadas generadas se someten a una relajación estructural mediante un potencial de red neuronal (NNP) eficaz preentrenado con datos de DFT, produciendo en última instancia el diagrama de densidad de energía de la molécula objetivo. Dos hiperparámetros controlan el proceso SPaDe-CSP: el umbral de probabilidad para filtrar grupos espaciales y la ventana de tolerancia para la densidad cristalina.
Los investigadores probaron el flujo de trabajo primero con una molécula modelo del conjunto de datos CSD para investigar la dependencia de la tasa de éxito de los hiperparámetros, y después con 20 moléculas orgánicas diferentes, incluida la molécula modelo, para comprobar la generalizabilidad. Los resultados se validaron con éxito frente a las estructuras cristalinas experimentales conocidas de las moléculas, y también se compararon con los resultados obtenidos con el PSC aleatorio convencional.
Los resultados revelaron que la probabilidad de éxito aumenta con un umbral de grupo espacial más alto y una ventana de tolerancia de densidad más pequeña. Para el 80% de los compuestos probados, SPaDe-CSP predijo con éxito las estructuras cristalinas experimentales, alcanzando una tasa de éxito dos veces superior a la de Random-CSP. Los investigadores también identificaron un descriptor estructural clave que se correlacionaba linealmente con la tasa de éxito, lo que indicaba influencias estructurales tanto a nivel de cristal como de molécula.
"Nuestra estrategia puede acelerar considerablemente el proceso de diseño y descubrimiento de nuevas moléculas en las industrias farmacéutica y de ciencia de materiales", afirma Taniguchi. "Esto permitirá una identificación más rápida y fiable de la forma física más estable y eficaz de un nuevo fármaco, importante para mantener la solubilidad, la vida útil y la eficacia general, y permitirá el cribado computacional de nuevos materiales funcionales con propiedades electrónicas óptimas".
Al hacer que la CSP sea más rápida y fiable, esta investigación supone un paso importante para acelerar el descubrimiento de medicamentos que salvan vidas y tecnologías de nueva generación.
Nota: Este artículo ha sido traducido utilizando un sistema informático sin intervención humana. LUMITOS ofrece estas traducciones automáticas para presentar una gama más amplia de noticias de actualidad. Como este artículo ha sido traducido con traducción automática, es posible que contenga errores de vocabulario, sintaxis o gramática. El artículo original en Inglés se puede encontrar aquí.