Prédiction plus rapide et plus fiable de la structure cristalline des molécules organiques
La prédiction des structures cristallines des molécules organiques est une tâche essentielle dans de nombreuses industries, en particulier dans le domaine pharmaceutique et dans la conception de matériaux fonctionnels. Dans les produits pharmaceutiques, les structures cristallines influencent directement la solubilité et la stabilité d'un médicament. Dans les matériaux fonctionnels, comme les semi-conducteurs organiques, le contrôle des structures cristallines est crucial pour obtenir les propriétés électroniques souhaitées. Cependant, la prédiction de la structure cristalline (CSP) est une tâche intrinsèquement difficile en raison de la faiblesse et de la diversité des interactions intra- et intermoléculaires propres aux cristaux organiques. Même des variations mineures peuvent donner lieu à des agencements entièrement différents.
Le CSP se déroule généralement en deux étapes : l'exploration de la structure et la relaxation de la structure. Au cours de la première étape, un grand nombre de structures potentielles sont générées, souvent au hasard, pour lesquelles divers algorithmes de recherche ont été mis au point. Au cours de la relaxation de la structure, ces structures sont affinées pour identifier les configurations les plus stables en utilisant la minimisation de l'énergie. Cependant, la génération aléatoire de structures produit souvent plusieurs structures instables et de faible densité, tandis que les méthodes conventionnelles basées sur la théorie de la fonctionnelle de la densité (DFT) pour la relaxation des structures sont coûteuses en temps et en argent.
Pour relever ces défis, le professeur associé Takuya Taniguchi du Center for Data Science et Ryo Fukasawa de la Graduate School of Advanced Science and Engineering de l'université de Waseda, au Japon, ont mis au point un flux de travail CSP basé sur l'apprentissage machine (ML) appelé SPaDe-CSP qui exploite les prédicteurs de groupe d'espace (SP) et de densité d'empaquetage (PD). "Notre flux de travail utilise une stratégie unique dans laquelle les modèles d'apprentissage automatique prédisent d'abord les groupes d'espace et les densités cristallines les plus probables, en filtrant les candidats instables et à faible densité avant les étapes de relaxation intensives en termes de calcul", explique Taniguchi. "Associée à un réseau neuronal efficace pour la relaxation des structures, cette méthode permet d'identifier de manière plus directe et plus fiable les arrangements cristallins observés expérimentalement. "Leur étude a été publiée dans la revue Digital Discovery le 13 octobre 2025.
SPaDe-CSP réduit l'espace de recherche des cristaux organiques en prédisant d'abord les groupes d'espace et les densités cristallines probables à l'aide de modèles ML. Pour l'entraînement et le test, les chercheurs ont extrait un ensemble de données de la Cambridge Structural Database (CSD), composé de 32 groupes d'espace candidats et de 169 656 entrées de données. Les deux modèles de prédiction ont utilisé MACCSKeys comme empreinte moléculaire et LightGBM comme fonction de prédiction. Les chercheurs ont également interprété les modèles entraînés à l'aide de l'analyse des explications additives de Shapley (SHAP) afin d'identifier les caractéristiques structurelles les plus importantes pour des prédictions efficaces.
Après l'échantillonnage du réseau, les structures non relaxées générées sont ensuite soumises à la relaxation de la structure à l'aide d'un potentiel de réseau neuronal efficace (NNP) pré-entraîné sur des données DFT, produisant finalement le diagramme de densité d'énergie de la molécule cible. Deux hyperparamètres contrôlent le processus SPaDe-CSP : le seuil de probabilité pour le filtrage des groupes d'espace et la fenêtre de tolérance pour la densité cristalline.
Les chercheurs ont d'abord testé le flux de travail sur une molécule modèle de l'ensemble de données CSD pour étudier la dépendance du taux de réussite par rapport aux hyperparamètres, puis sur 20 molécules organiques différentes, y compris la molécule modèle, pour tester la généralisation. Les résultats ont été validés avec succès par rapport aux structures cristallines expérimentales connues des molécules, et comparés aux résultats obtenus avec la méthode aléatoire conventionnelle.
Les résultats ont révélé que la probabilité de succès augmente avec un seuil de groupe spatial plus élevé et une fenêtre de tolérance de densité plus petite. Pour 80 % des composés testés, SPaDe-CSP a prédit avec succès les structures cristallines expérimentales, atteignant ainsi un taux de réussite deux fois supérieur à celui du random-CSP. Les chercheurs ont également identifié un descripteur structurel clé en corrélation linéaire avec le taux de réussite, ce qui indique des influences structurelles au niveau du cristal et de la molécule.
"Notre stratégie peut accélérer de manière significative la conception et la découverte de nouvelles molécules dans les industries pharmaceutiques et de la science des matériaux", déclare Taniguchi. "Elle permettra une identification plus rapide et plus fiable de la forme physique la plus stable et la plus efficace d'un nouveau médicament, ce qui est important pour maintenir la solubilité, la durée de conservation et l'efficacité globale, et permettra le criblage computationnel de nouveaux matériaux fonctionnels avec des propriétés électroniques optimales."
En rendant la CSP plus rapide et plus fiable, cette recherche marque une étape importante dans l'accélération de la découverte de médicaments vitaux et de technologies de nouvelle génération.
Note: Cet article a été traduit à l'aide d'un système informatique sans intervention humaine. LUMITOS propose ces traductions automatiques pour présenter un plus large éventail d'actualités. Comme cet article a été traduit avec traduction automatique, il est possible qu'il contienne des erreurs de vocabulaire, de syntaxe ou de grammaire. L'article original dans Anglais peut être trouvé ici.