09.04.2021 - Max-Planck-Institut für Entwicklungsbiologie

Schnellerer Sequenzabgleich für den gesamten Baum des Lebens

Eine Sequenzierungs-Suchmaschine für eine neue Ära von Conservation Genomics

Ein Forscherteam vom Max-Planck-Institut für Entwicklungsbiologie in Tübingen und der Max Planck Computing and Data Facility in Garching entwickelt neue Suchmöglichkeiten, die Vergleiche des biochemischen Aufbaus verschiedener Arten in unterschiedlichen Zweigen des Baums des Lebens ermöglichen werden. Die Kombination von Präzision und Geschwindigkeit dieser Techniken war bislang unerreicht.

Menschen haben viele Nukleotidsequenzen in ihren Genen mit anderen Arten gemeinsam; mit Schweinen ganz besonders viele, aber auch mit Mäusen und sogar Bananen. Dementsprechend können manche körpereigenen Proteine – Ketten von Aminosäuren, die gemäß dem Bauplan der Gene zusammengesetzt werden – ebenfalls mit Proteinen anderer Arten übereinstimmen oder ihnen ähneln. Diese Ähnlichkeiten können manchmal auf eine gemeinsame Abstammung hinweisen oder aber einfach dadurch entstanden sein, dass ein Merkmal oder eine molekulare Funktion zufällig für zwei Arten evolutionär nötig wurde.

Den Goldstandard der vergleichenden Genomik übertreffen

Doch herauszufinden, was man mit einem Schwein oder einer Banane gemeinsam hat, kann natürlich eine monumentale Aufgabe sein; das Durchsuchen einer Datenbank mit allen Informationen über den Menschen, das Schwein und die Banane ist sehr rechenintensiv. Forschende erwarten, dass die Genome von mehr als 1,5 Millionen Eukaryoten – und das beinhaltet alle Tiere, Pflanzen und Pilze – innerhalb des nächsten Jahrzehnts sequenziert werden. „Bereits jetzt, wo wir nur ein paar Hunderttausend Genome genau kennen (von denen die meisten klein sind und zu Bakterien oder Viren gehören), geht es um Datenbanken mit bis zu 270 Millionen Sequenzen. Die meisten derzeit verwendeten Suchmechanismen wären einfach impraktikabel, weil sie zu lange brauchten, um Daten von dem in naher Zukunft erwarteten Ausmaß zu analysieren,“ erklärt Hajk-Georg Drost, Leiter der Gruppe Computational Biology in der Abteilung Molekularbiologie des Max-Planck-Instituts für Entwicklungsbiologie in Tübingen. „Lange war der Goldstandard für derartige Analysen ein Werkzeug namens BLAST,“ erläutert Drost. „Wenn man nachvollziehen wollte, wie ein Protein dank natürlicher Auslese erhalten wurde oder wie es sich in unterschiedlichen phylogenetischen Linien entwickelt hat, gab BLAST die besten Treffer für Anfragen dieser Größenordnung. Es ist aber absehbar, dass die Datenbanken für umfassende BLAST-Suchen zu groß werden.“

Die Nadel im Heuhaufen finden – aber schnell!

Im Kern geht es um das Problem, einen Kompromiss zwischen Geschwindigkeit und Sensitivität finden zu müssen: Genau wie man bei der Ostereiersuche die kleineren oder besser versteckten Eier übersieht, wenn man nur schnell sucht, bringt eine beschleunigte Suche nach Ähnlichkeiten von Proteinsequenzen üblicherweise den Nachteil mit sich, dass einem manche der weniger offensichtlichen Treffer entgehen.
„Deswegen haben wir vor einiger Zeit angefangen, den DIAMOND-Algorithmus zu entwickeln, in der Hoffnung, dass wir dadurch mit großen Datenmengen in überschaubarer Zeit umgehen können,“ erinnert sich Benjamin Buchfink, der in Drosts Forschergruppe als Doktorand mitarbeitet und seit 2013 mit der Entwicklung von DIAMOND befasst ist. „Das war auch der Fall; aber die Kehrseite war, dass uns manche entferntere evolutionäre Beziehungen entgingen.“ Anders gesagt: Während das ursprüngliche DIAMOND vielleicht sensitiv genug ist, um eine gegebene menschliche Aminosäuresequenz bei einem Affen aufzuspüren, ist es gegebenenfalls blind für eine ähnliche Sequenz in einer evolutionär weiter entfernten Art.

Ein leistungsstarkes Werkzeug für künftige Forschung

Während der alte DIAMOND-Suchalgorithmus nützlich für die Untersuchung von direkt aus Umweltproben extrahiertem genetischem Material war, benötigen andere Forschungsziele sensitivere Werkzeuge. Das Forscherteam aus Tübingen und Garching konnte nun DIAMOND so abändern und erweitern, dass es unter Beibehaltung der überlegenen Geschwindigkeit die Sensitivität von BLAST erreicht: mit dem verbesserten DIAMOND werden vergleichende Genomikuntersuchungen mit der Genauigkeit von BLAST, aber 80- bis 360-facher Geschwindigkeit möglich sein. „Außerdem ermöglicht DIAMOND nun, Sequenzabgleiche mit der Sensitivität von BLAST auf einem Supercomputer, einem Hochleistungs-Computercluster oder in der Cloud wirklich massivparallel durchzuführen,“ ergänzt Klaus Reuter von der Max Planck Computing and Data Facility. „Damit sind Sequenzabgleiche in extrem großem Maßstab in überschaubarer Zeit möglich.“
Manche Suchanfragen, für die andere Werkzeuge zwei Monate auf einem Supercomputer brauchen würden, sind mit der neuen DIAMOND-Infrastruktur nun in einigen Stunden möglich. „In Hinblick auf das exponentielle Wachstum der Anzahl verfügbarer Genome ist die Geschwindigkeit und Genauigkeit von DIAMOND genau das, was die moderne Genomik braucht: Damit können wir von der Gesamtheit aller Genome lernen, statt uns durch den Mangel an sensitiven Suchkapazitäten auf nur eine kleine Zahl von Arten beschränken zu lassen,“ prognostiziert Drost. Das Team ist daher überzeugt, dass die Vorteile von DIAMOND sich in den nächsten Jahren vollumfänglich zeigen werden.

Fakten, Hintergründe, Dossiers
Mehr über MPI für Entwicklungsbiologie
Mehr über Max-Planck-Gesellschaft
  • News

    DNA-Bausteine regulieren Entzündung

    Mitochondrien sind die Energielieferanten unserer Körperzellen. Diese winzigen Zellbestandteile besitzen ihr eigenes Erbgut, das bei Freisetzung in das Zellinnere eine Entzündungsreaktion auslöst. Die Gründe für die Freisetzung sind noch nicht bekannt, aber einige Herz- und neurodegenerativ ... mehr

    Mehr als die Summe der Mutationen

    Ein neuer Algorithmus sagt Gene vorher, die an der Entstehung von Krebs beteiligt sein können, deren DNA-Sequenz jedoch nicht zwangsläufig verändert ist. Ein Berliner Forschungsteam hat unterschiedlichste Daten kombiniert, sie mit „künstlicher Intelligenz“ analysiert und so zahlreiche Krebs ... mehr

    Neue App berechnet das Corona-Risiko in Räumen

    Das Risiko, sich in Innenräumen mit dem Coronavirus anzustecken, lässt sich mit einer Web-App jetzt zuverlässiger bestimmen als bislang. Ein Team des Göttinger Max-Planck-Instituts für Dynamik und Selbstorganisation und der Universitätsmedizin Göttingen verwendet in der Web-App namens Human ... mehr

  • Videos

    Epigenetics - packaging artists in the cell

    Methyl attachments to histone proteins determine the degree of packing of the DNA molecule. They thereby determine whether a gene can be read or not. In this way, environment can influence the traits of an organism over generations. mehr

    Biomaterials - patent solutions from nature

    Animals and plants can produce amazing materials such as spider webs, wood or bone using only a few raw materials available. How do they achieve this? And what can engineers learn from them? mehr

    Chaperone - Faltungshelfer in der Zelle

    In der Zelle geht es manchmal zu wie beim Brezelbacken: Damit ein Protein richtig funktionieren kann muss seine Aminosäurekette in die richtige Form gebracht werden. Franz-Ulrich Hartl erforscht, wie die sogenannten Chaperone als Faltungshelfer der Proteine wirken. mehr

  • Forschungsinstitute

    Max-Planck-Gesellschaft zur Förderung der Wissenschaften e.V.

    Max-Planck-Institute betreiben Grundlagenforschung in den Natur-, Bio-, Geistes- und Sozialwissenschaften im Dienste der Allgemeinheit. Die Max-Planck-Gesellschaft greift insbesondere neue, besonders innovative Forschungsrichtungen auf, die an den Universitäten in Deutschland noch keinen od ... mehr