La recherche sur le génome s'accélère : un outil d'IA identifie les gènes dans les organismes nouvellement séquencés, sans tests en laboratoire
"C'est comme si vous reconnaissiez soudainement des paragraphes, des chapitres et des mots individuels dans un livre que vous ne connaissez pas du tout
Des chercheurs du Forschungszentrum Jülich et de l'université Heinrich Heine de Düsseldorf ont mis au point un outil qui pourrait transformer considérablement la recherche sur le génome : Helixer identifie les gènes directement à partir des séquences d'ADN - sans expériences de laboratoire ni connaissances préalables sur l'organisme.
Avant de pouvoir se prononcer sur les caractéristiques génétiques d'un organisme, les biologistes doivent d'abord savoir où se trouvent les gènes dans la longue chaîne de lettres de l'ADN. Ce processus, connu sous le nom d'annotation des gènes, est l'une des étapes les plus difficiles de l'analyse du génome. Jusqu'à présent, il nécessitait de nombreuses données expérimentales ou des espèces apparentées bien étudiées à des fins de comparaison. Helixer simplifie et accélère considérablement ce travail. L'IA détecte les caractéristiques typiques d'un gène - les signaux de départ et d'arrêt ainsi que les éléments structurels tels que les exons et les introns - directement à partir de la séquence.
"C'est comme si l'on reconnaissait soudain des paragraphes, des chapitres et des mots individuels dans un livre totalement inconnu", explique Marie Bolger de l'Institut de bioinformatique de Jülich (IBG-4). "Cela accélère considérablement la recherche sur le génome et la rend possible pour de nombreuses espèces.
Helixer est le premier outil d'IA capable d'identifier de manière fiable des gènes dans des groupes d'organismes aussi divers que les plantes, les champignons, les insectes et les vertébrés. Chaque année, des milliers de génomes sont séquencés dans le monde entier, dont beaucoup proviennent d'espèces qui ont à peine été étudiées. Dans ces cas, Helixer peut désormais fournir des informations immédiatement utilisables sur les gènes, ce qui nécessitait auparavant des mois de travail.
L'IA prédit les limites des gènes, atteignant presque la qualité des annotations de référence curatées manuellement - et ce, sans utiliser de données supplémentaires. Chez les vertébrés, Helixer fait preuve d'une grande précision et surpasse systématiquement les outils de prédiction de gènes établis dans un large éventail d'espèces. Grâce à l'apprentissage profond, les prédictions de la structure des gènes d'Helixer affichent des performances nettement supérieures, en particulier pour les plantes.
L'équipe de recherche avait déjà présenté le concept d'Helixer en 2020 et l'a depuis développé pour en faire un outil qui donne des résultats utilisables. Un autre outil d'annotation de gènes basé sur l'apprentissage profond de l'université de Greifswald, Tiberius, qui a été publié en 2024, obtient actuellement des résultats encore meilleurs pour les espèces de mammifères, mais il est limité à ce groupe taxonomique.
Un nouvel élan pour le domaine de la recherche
"Nous avons pu montrer qu'Helixer fonctionne sur une large gamme d'organismes, ce qui est crucial pour son utilisation dans la sélection végétale, la biotechnologie et la recherche environnementale", souligne M. Bolger. "Ces progrès dans l'annotation des gènes par l'IA sont vraiment passionnants pour le domaine".
Le séquençage du génome a été automatisé il y a plus de 20 ans, générant une énorme quantité de données. L'annotation des gènes, en revanche, a longtemps été considérée comme un goulot d'étranglement dans l'analyse du génome. Aujourd'hui, elle est en train de rattraper son retard.
"Pendant près de vingt ans, il n'y a pas eu d'approches fondamentalement nouvelles dans ce domaine", explique Björn Usadel, directeur de l'Institut de bio-informatique du Forschungszentrum Jülich et professeur à l'université Heinrich Heine de Düsseldorf, "Helixer montre que les méthodes modernes d'intelligence artificielle peuvent aider à surmonter ce goulet d'étranglement."
Perspectives
Les résultats, initialement publiés sous forme de préimpression sur bioRxiv et maintenant dans Nature Methods, ont déjà été cités à de nombreuses reprises et ont attiré l'attention de la communauté des chercheurs - un signe de l'importance croissante de l'outil. "Nous voyons déjà Helixer utilisé dans de nombreux projets, qu'il s'agisse de plantes cultivées ou d'insectes qui façonnent des écosystèmes entiers", déclare M. Usadel.
Les développements futurs sont déjà en cours : Felicitas Kindel, doctorante à l'IBG-4, explore des stratégies innovantes pour exploiter les atouts d'Helixer et étendre ses capacités.
Note: Cet article a été traduit à l'aide d'un système informatique sans intervention humaine. LUMITOS propose ces traductions automatiques pour présenter un plus large éventail d'actualités. Comme cet article a été traduit avec traduction automatique, il est possible qu'il contienne des erreurs de vocabulaire, de syntaxe ou de grammaire. L'article original dans Anglais peut être trouvé ici.
Publication originale
Felix Holst, Anthony M. Bolger, Felicitas Kindel, Christopher Günther, Janina Maß, Sebastian Triesch, Niklas Kiel, Nima Saadat, Oliver Ebenhöh, Björn Usadel, Rainer Schwacke, Andreas P. M. Weber, Marie E. Bolger, Alisandra K. Denton; "Helixer: ab initio prediction of primary eukaryotic gene models combining deep learning and a hidden Markov model"; Nature Methods, 2025-11-24