Une technologie d'IA génère des protéines originales à partir de zéro

Un modèle de langage naturel lance la conception de protéines en créant des enzymes actives

23.02.2023 - Etats-Unis

Des scientifiques ont créé un système d'IA capable de générer des enzymes artificielles à partir de rien. Lors de tests en laboratoire, certaines de ces enzymes ont fonctionné aussi bien que celles que l'on trouve dans la nature, même lorsque leurs séquences d'acides aminés générées artificiellement divergeaient considérablement de toute protéine naturelle connue.

Computer-generated image

Image symbolique

L'expérience démontre que le traitement du langage naturel, bien qu'il ait été développé pour lire et écrire des textes linguistiques, peut apprendre au moins certains des principes sous-jacents de la biologie. Salesforce Research a mis au point le programme d'IA, appelé ProGen, qui utilise la prédiction de la séquence suivante pour assembler les séquences d'acides aminés en protéines artificielles.

Les scientifiques ont déclaré que cette nouvelle technologie pourrait devenir plus puissante que l'évolution dirigée, la technologie de conception de protéines récompensée par un prix Nobel, et qu'elle dynamisera le domaine de l'ingénierie des protéines, vieux de 50 ans, en accélérant le développement de nouvelles protéines qui peuvent être utilisées pour presque tout, de la thérapeutique à la dégradation du plastique.

"Les conceptions artificielles sont beaucoup plus performantes que les conceptions inspirées par le processus d'évolution", a déclaré James Fraser, professeur de bio-ingénierie et de sciences thérapeutiques à la faculté de pharmacie de l'UCSF, et auteur de ces travaux, publiés le 26 janvier dans Nature Biotechnology. Une version antérieure de l'article était disponible sur le serveur de préimpression BiorXiv depuis juillet 2021, où il a fait l'objet de plusieurs dizaines de citations avant d'être publié dans une revue à comité de lecture.

"Le modèle linguistique apprend des aspects de l'évolution, mais c'est différent du processus d'évolution normal", a déclaré Fraser. "Nous avons maintenant la capacité de régler la génération de ces propriétés pour des effets spécifiques. Par exemple, une enzyme qui est incroyablement thermostable ou qui aime les environnements acides ou qui n'interagit pas avec d'autres protéines."

Pour créer le modèle, les scientifiques ont simplement introduit les séquences d'acides aminés de 280 millions de protéines de toutes sortes dans le modèle d'apprentissage automatique et l'ont laissé digérer les informations pendant quelques semaines. Puis, ils ont affiné le modèle en l'amorçant avec 56 000 séquences de cinq familles de lysozymes, ainsi qu'avec certaines informations contextuelles sur ces protéines.

Le modèle a rapidement généré un million de séquences, et l'équipe de recherche en a sélectionné 100 pour les tester, en fonction de leur ressemblance avec les séquences de protéines naturelles, ainsi que du degré de naturalisme de la "grammaire" et de la "sémantique" des acides aminés sous-jacents des protéines IA.

À partir de ce premier lot de 100 protéines, qui ont été criblées in vitro par Tierra Biosciences, l'équipe a fabriqué cinq protéines artificielles pour les tester dans des cellules et a comparé leur activité à celle d'une enzyme présente dans le blanc des œufs de poule, appelée lysozyme de blanc d'œuf de poule (HEWL). On trouve des lysozymes similaires dans les larmes, la salive et le lait des humains, où ils se défendent contre les bactéries et les champignons.

Deux des enzymes artificielles ont été capables de briser les parois cellulaires des bactéries avec une activité comparable à celle de l'HEWL, mais leurs séquences n'étaient identiques qu'à environ 18 % l'une à l'autre. Pourtant, leurs séquences n'étaient identiques qu'à environ 18 %. Les deux séquences étaient identiques à environ 90 % et 70 % à toute protéine connue.

Une seule mutation dans une protéine naturelle peut l'empêcher de fonctionner, mais lors d'une autre série de tests, l'équipe a constaté que les enzymes générées par l'IA étaient actives même si seulement 31,4 % de leur séquence ressemblait à une protéine naturelle connue.

L'IA a même été capable d'apprendre comment les enzymes devraient être formées, simplement en étudiant les données brutes de la séquence. Mesurées par cristallographie aux rayons X, les structures atomiques des protéines artificielles étaient exactement comme elles le devaient, même si les séquences ne ressemblaient à rien de connu auparavant.

Salesforce Research a mis au point ProGen en 2020, sur la base d'une sorte de programmation en langage naturel que ses chercheurs avaient initialement développée pour générer des textes en anglais.

Grâce à leurs travaux antérieurs, ils savaient que le système d'IA pouvait s'enseigner à lui-même la grammaire et le sens des mots, ainsi que d'autres règles sous-jacentes qui permettent de composer des textes.

"Lorsque vous entraînez des modèles basés sur des séquences avec de nombreuses données, ils sont vraiment puissants pour apprendre la structure et les règles", a déclaré Nikhil Naik, PhD, directeur de la recherche en IA chez Salesforce Research, et auteur principal de l'article. "Ils apprennent quels mots peuvent cooccurber, et aussi la compositionnalité".

Avec les protéines, les choix de conception étaient presque illimités. Les lysozymes sont des protéines de petite taille, comptant jusqu'à 300 acides aminés. Mais avec 20 acides aminés possibles, il existe un nombre énorme (20300) de combinaisons possibles. Ce nombre est supérieur à celui de tous les humains ayant vécu à travers le temps, multiplié par le nombre de grains de sable sur Terre, multiplié par le nombre d'atomes dans l'univers.

Compte tenu de ces possibilités illimitées, il est remarquable que le modèle puisse générer si facilement des enzymes fonctionnelles.

"La capacité de générer des protéines fonctionnelles à partir de rien démontre que nous entrons dans une nouvelle ère de la conception de protéines", a déclaré Ali Madani, PhD, fondateur de Profluent Bio, ancien chercheur chez Salesforce Research, et premier auteur de l'article. "C'est un nouvel outil polyvalent à la disposition des ingénieurs en protéines, et nous sommes impatients de voir les applications thérapeutiques."

Note: Cet article a été traduit à l'aide d'un système informatique sans intervention humaine. LUMITOS propose ces traductions automatiques pour présenter un plus large éventail d'actualités. Comme cet article a été traduit avec traduction automatique, il est possible qu'il contienne des erreurs de vocabulaire, de syntaxe ou de grammaire. L'article original dans Anglais peut être trouvé ici.

Publication originale

Autres actualités du département science

Actualités les plus lues

Plus actualités de nos autres portails