"Un moteur de recherche sur l'ADN" permet de consulter des millions de données en quelques secondes

Cela peut accélérer considérablement la recherche sur la résistance aux antibiotiques et les agents pathogènes inconnus

13.10.2025
AI-generated image

Les ensembles de données ADN peuvent être recherchés rapidement à l'aide d'une fonction de recherche simple dans l'outil "MetaGraph" (image symbolique).

Des maladies héréditaires rares peuvent être identifiées chez les patients et des mutations spécifiques dans les cellules tumorales peuvent être détectées - Le séquençage de l'ADN a révolutionné la recherche biomédicale il y a plusieurs dizaines d'années. Ces dernières années, les nouvelles méthodes de séquençage (séquençage de nouvelle génération) ont permis de nombreuses avancées scientifiques. En 2020/2021, par exemple, elles ont permis le décodage rapide et la surveillance mondiale du génome du SRAS-CoV-2.

Parallèlement, de plus en plus de chercheurs mettent à la disposition du public les résultats du séquençage de l'ADN. Cela a donné lieu à la création d'énormes volumes de données, qui sont stockés dans des bases de données centrales telles que la SRA (Sequence Read Archive) américaine ou l'ENA (European Nucleotide Archive) européenne. Environ 100 pétaoctets de données y sont stockés, soit à peu près la même quantité que l'ensemble du texte sur l'internet, un pétaoctet étant l'équivalent d'un million de gigaoctets.

Jusqu'à présent, les scientifiques biomédicaux ont eu besoin d'une puissance de calcul énorme et d'autres ressources pour rechercher dans cette quantité de séquences d'ADN et les comparer à leurs propres séquences, ce qui rendait la recherche efficace dans de telles montagnes de données tout à fait impossible. Des informaticiens de l'ETH Zurich ont maintenant résolu ce problème.

Recherche en texte intégral au lieu de télécharger des ensembles de données entiers

Les scientifiques ont mis au point une méthode qui raccourcit et facilite considérablement la recherche. L'outil numérique "MetaGraph" recherche les données brutes de toutes les séquences d'ADN ou d'ARN stockées dans les bases de données - tout comme un moteur de recherche Internet classique. Après avoir saisi une séquence qui les intéresse en texte intégral dans un masque de recherche, les chercheurs peuvent découvrir en quelques secondes ou minutes, selon la requête, où elle est déjà apparue.

"C'est une sorte de Google pour l'ADN", résume le professeur Gunnar Rätsch, data scientist au département d'informatique de l'ETH Zurich. Jusqu'à présent, les chercheurs devaient rechercher les métadonnées descriptives dans les bases de données. Pour accéder aux données brutes, ils devaient télécharger les ensembles de données correspondants. Ces recherches étaient incomplètes, longues et coûteuses.

"MetaGraph" est comparativement avantageux en termes de coûts, comme l'indiquent les chercheurs dans leur étude. La représentation de toutes les séquences biologiques publiques tiendrait sur quelques disques durs d'ordinateur, tandis que les requêtes plus importantes ne devraient pas coûter plus de 0,74 dollar par mégabase.

Le moteur de recherche d'ADN développé par les chercheurs de l'ETH étant à la fois précis et efficace, il peut contribuer à accélérer la recherche génétique, par exemple dans le cas d'agents pathogènes peu étudiés ou de nouvelles pandémies. Ainsi, l'outil pourrait devenir un catalyseur de la recherche sur la résistance aux antibiotiques : par exemple, en identifiant dans les bases de données des gènes de résistance ou des virus utiles capables de détruire les bactéries - appelés bactériophages.

Une compression d'un facteur 300

Dans l'étude publiée le 8 octobre dans la revue Nature, les chercheurs de l'ETH démontrent le fonctionnement de MetaGraph : l'outil indexe les données et les présente sous forme comprimée. Pour ce faire, il utilise des graphiques mathématiques complexes qui améliorent la structure des données, à l'instar des tableurs tels qu'Excel. "D'un point de vue mathématique, il s'agit d'une énorme matrice avec des millions de colonnes et des trillions de lignes", explique M. Rätsch.

L'idée de rendre de grandes quantités de données consultables à l'aide d'index est une pratique courante dans la recherche en informatique. Ce qui est nouveau dans le travail des chercheurs de l'ETH, cependant, c'est le lien complexe entre les données brutes et les métadonnées et la compression par un facteur d'environ 300, semblable au résumé d'un livre : il ne contient plus chaque mot, mais toutes les intrigues principales et les connexions restent intactes - plus compactes, mais sans perte d'information pertinente.

"Nous repoussons les limites du possible afin de conserver les ensembles de données aussi compacts que possible sans perdre les informations nécessaires", explique le Dr André Kahles, qui, comme M. Rätsch, est membre du groupe d'informatique biomédicale de l'ETH Zurich. Contrairement à d'autres masques de recherche d'ADN actuellement étudiés, l'approche des chercheurs de l'ETH est évolutive. Cela signifie que plus la quantité de données interrogées est importante, moins l'outil nécessite de puissance de calcul supplémentaire.

La moitié des données est déjà disponible

Les chercheurs de l'ETH ont présenté MetaGraph pour la première fois en 2020 et n'ont cessé de l'améliorer depuis. L'outil est déjà disponible pour les requêtes. Il offre un moteur de recherche en texte intégral pour des millions de séquences d'ADN et d'ARN, ainsi que de protéines provenant de virus, de bactéries, de champignons, de plantes, d'animaux et d'êtres humains. À l'heure actuelle, un peu moins de la moitié des ensembles de données de séquences disponibles dans le monde sont indexés. Selon Gunnar Rätsch, le reste devrait suivre d'ici la fin de l'année. Étant donné que MetaGraph est disponible en tant que source ouverte, il pourrait également intéresser les entreprises pharmaceutiques qui disposent de grandes quantités de données de recherche internes.

M. Kahles pense même qu'il est possible que le moteur de recherche d'ADN soit un jour utilisé par des particuliers : "Au début, même Google ne savait pas exactement à quoi servait un moteur de recherche. Si l'évolution rapide du séquençage de l'ADN se poursuit, il pourrait devenir courant d'identifier plus précisément ses plantes de balcon."

Note: Cet article a été traduit à l'aide d'un système informatique sans intervention humaine. LUMITOS propose ces traductions automatiques pour présenter un plus large éventail d'actualités. Comme cet article a été traduit avec traduction automatique, il est possible qu'il contienne des erreurs de vocabulaire, de syntaxe ou de grammaire. L'article original dans Anglais peut être trouvé ici.

Publication originale

Autres actualités du département science

Actualités les plus lues

Plus actualités de nos autres portails