Neues KI-System liest Zahlen aus Fachtexten und entlastet Forschende von Routinearbeit

Framework Quinex strukturiert quantitative Daten automatisch und soll helfen, die wachsende Datenflut zu beherrschen

21.04.2026

Symbolbild

AI-generated image

Anzeigen

Digitale Membranchromatographie öffnet neue Horizonte in der Proteinanalytik

Chemisch definierte Zellkulturmedien für virale Vektoren und Gentherapieanwendungen

Schonende Gegenstromzentrifugation für hervorragende Zellverarbeitungsergebnisse

Zahlen sind die Sprache der Wissenschaft – doch in Forschungsartikeln stecken sie oft verborgen im Text und sind schwer auszuwerten. Jülicher Forschende haben ein KI-System entwickelt, das diese Zahlen automatisch erkennt, einordnet und in strukturierte Daten überführt. Das Framework Quinex macht so aufwendige Handarbeit überflüssig.

Ob in der Energie-, Klima- oder Materialforschung – wissenschaftliche Arbeiten sind voll von Zahlen – oder präziser, quantitativen Daten: Wirkungsgrade, Temperaturen, Kosten, Emissionen. Diese sind oft entscheidend, um Modelle zu verbessern oder Trends zu erkennen. Gleichzeitig nimmt die Anzahl wissenschaftlicher Publikationen stark zu. Für viele Forschungsfragen ist es heute kaum noch möglich, alle relevanten Veröffentlichungen manuell auszuwerten – der Aufwand an Zeit und Ressourcen wäre enorm.

Das von Jülicher Systemforschenden entwickelte Framework Quinex („Quantitative Information Extraction“) basiert auf Sprachmodellen und automatisiert diesen Prozess: Die Künstliche Intelligenz identifiziert Zahlenwerte, ordnet sie passenden Einheiten zu und erkennt, was gemessen wurde, wann, wo und wie. So wird aus einem Satz wie „Für 2025 werden Wirkungsgrade von 63 bis 71 Prozent angenommen“ ein strukturierter Datensatz mit allen relevanten Kontextinformationen – vom Jahr über die Messmethode bis zur Quelle.

Deep Learning erkennt molekulare Muster von Krebs

News lesen

Offene und effiziente KI

Im Gegensatz zu vielen proprietären KI-Lösungen basiert Quinex vollständig auf offenen, relativ kleinen und damit effizienten Sprachmodellen. Diese wurden speziell darauf trainiert, quantitative Informationen in wissenschaftlichen Texten zu erkennen und einzuordnen. Im Vergleich zu ähnlichen Systemen liefert Quinex präzisere Ergebnisse, erfasst Kontextinformationen differenzierter und berücksichtigt auch implizite Eigenschaften.

Trotz seiner Kompaktheit erreicht Quinex eine Erkennungsgenauigkeit (F1-Maß) von rund 98 Prozent bei Zahlen und zugehörigen Einheiten sowie etwa 87 und 82 Prozent bei der Zuordnung der quantifizierten Eigenschaften und Entitäten. Erreicht wurden diese hohen Werte durch speziell erstellte Trainingsdatensätze und methodische Verbesserungen.

„Wir wollten ein Werkzeug entwickeln, das leistungsfähig, aber auch transparent und ressourcenschonend ist“, erklärt Dr. Jann Weinand, Leiter der Abteilung Integrierte Szenarien der Jülicher Systemanalyse. „Quinex macht Künstliche Intelligenz für die Datenauswertung in der Wissenschaft leichter zugänglich.“

Erfolgreicher Praxistest

Um die Praxistauglichkeit von Quinex zu testen, wurde das System auf tausende wissenschaftliche Abstracts aus unterschiedlichen Fachgebieten angewendet. Dabei konnte es erfolgreich Daten zu Stromproduktionskosten verschiedener Energietechnologien, zur maximalen Sauerstoffaufnahme von Menschen, zu Erdbebenstärken und -orten sowie zu den Bandlücken von Photovoltaikmaterialien extrahieren.

Die automatisch gewonnenen Werte stimmten eng mit den jeweiligen Referenzdaten überein. Damit zeigt sich: Quinex eignet sich, um in verschiedensten Forschungsfeldern große Mengen an Fachliteratur auszuwerten und daraus verlässliche Trends abzuleiten.

Neue Perspektiven für die Forschung

„Sprachmodelle eröffnen neue Perspektiven für die Wissenschaft und helfen dabei, den Überblick über ganze Forschungsbereiche zu behalten“, sagt Hauptautor Jan Göpfert. „Sie ermöglichen automatisierte Literaturrecherchen, den Aufbau einheitlich strukturierter Forschungsdatenbanken und Trendanalysen, die Entwicklungen in Wissenschaft und Technik frühzeitig sichtbar machen.“

„Unser Ziel ist es, Forschende von Routinearbeit zu entlasten“, so Dr. Patrick Kuckertz, Leiter der Gruppe Forschungsdatenmanagement. „Quinex soll ihnen helfen, schneller zu Erkenntnissen zu gelangen und die wachsende Datenflut in der Wissenschaft zu beherrschen.“

Grenzen und künftige Verbesserungen

Ganz ohne Fehler arbeitet auch Quinex nicht – doch Transparenz ist Teil seines Designs. „Zahlen und Einheiten erkennt das System sehr zuverlässig“, sagt Jan Göpfert. „Da sie direkt aus dem Text übernommen werden, können sie nicht ‚halluziniert‘ werden. Manchmal kommt es aber zu Fehlinterpretationen, etwa wenn sich wichtige Bezüge über den gesamten Text verteilen.“

Damit bleibt Quinex ein Werkzeug, das Menschen unterstützt, aber nicht ersetzt. „Wir empfehlen, Quinex dort einzusetzen, wo es Forschende informiert und entlastet – die Verantwortung für die Interpretation der Ergebnisse liegt aber weiterhin bei ihnen“, so Göpfert. Jede erkannte Zahl lässt sich bis zur Quelle zurückverfolgen und wird, wenn möglich, im Originaltext markiert.

Das Team arbeitet daran, Quinex mit zusätzlichen Fachdatensätzen und Modellen weiterzuentwickeln und noch effizienter zu machen und so flexibel an verschiedene Forschungsanforderungen anzupassen.

Offene Zusammenarbeit erwünscht

Das Forschungszentrum Jülich stellt Quinex als Open-Source-Projekt zur Verfügung. Damit sollen Forschende weltweit die Möglichkeit erhalten, das System zu testen, zu erweitern und an eigene Fachgebiete anzupassen – von der Energieforschung über die Chemie bis zur Biomedizin.

Originalveröffentlichung

Jan Göpfert, Patrick Kuckertz, Gian Müller, Luna Lütz, Celine Körner, Hang Khuat, Detlef Stolten, Jann Michael Weinand; "Quinex: Quantitative information extraction from text using open and lightweight LLMs"; The Innovation

https://www.bionity.com/de/news/1188534/neues-ki-system-liest-zahlen-aus-fachtexten-und-entlastet-forschende-von-routinearbeit.html