
Maschinenlesbare Erkenntnisse

Statt Maschinen mühsam unsere Sprache beizubringen, entwickeln Forschende einen Open-Source-Ansatz, um wissenschaftliche Erkenntnisse direkt in maschinenlesbarer Form zu produzieren.
09.05.2025 · News · TIB – Leibniz-Informationszentrum Technik und Naturwissenschaften · Mathematik, Natur- und Ingenieurwissenschaften · Forschungsergebnis
Wie ein einfacher Ansatz die Art und Weise, wie Forschungsergebnisse produziert und kommuniziert werden, verändern könnte: Mit vorhandenen Datenanalyse-Tools können Forscher:innen ihre wissenschaftlichen Ergebnisse nun für Menschen und Maschinen lesbar machen, sodass sie leichter reproduziert und wiederverwendet werden können.
Trotz bedeutender Fortschritte bei digitalen Technologien werden moderne wissenschaftliche Ergebnisse noch immer mit veralteten Methoden kommuniziert. In fast vierhundert Jahren hat sich die wissenschaftliche Literatur von physisch gedruckten Artikeln zu PDFs weiterentwickelt. Das Problem dabei: Diese elektronischen Dokumente sind immer noch textbasiert und daher nicht maschinenlesbar. Ein Computer kann die darin enthaltenen Informationen folglich nicht ohne menschliche Hilfe interpretieren.
Angesichts der Millionen wissenschaftlicher Artikel, die jedes Jahr erscheinen, steigt der Bedarf an maschinengestützter Informationsbeschaffung und -verarbeitung rasant. Die meisten Ansätze setzen darauf, mithilfe Künstlicher Intelligenz (KI) Maschinen darin zu schulen, textbasierte Informationen zu interpretieren – meist mit begrenztem Erfolg.
Vor Kurzem schlug ein Forschungsteam der TIB – Leibniz-Informationszentrum Technik und Naturwissenschaften vor, das Problem aus einer anderen Perspektive zu betrachten. Warum produzieren wir Wissenschaft nicht in einer Sprache, die die Maschinen bereits verstehen, anstatt zu versuchen, Maschinen unsere Sprache beizubringen? In einem in Scientific Data veröffentlichten Artikel stellt das Team „Reborn Articles“ vor, einen Open-Source-Ansatz, der es Forscher:innen ermöglicht, wissenschaftliche Erkenntnisse in einem maschinenlesbaren Format zu produzieren.
Dr. Markus Stocker, Erstautor und Leiter des Lab Knowledge Infrastructures an der TIB, erklärt: „Viele Wissenschaftler:innen verwenden bereits Datenanalysetools, die Ergebnisse liefern, die Maschinen lesen können. Die Standardmethode zur Veröffentlichung dieser Ergebnisse besteht jedoch darin, sie in einem PDF-Dokument zu organisieren, das Maschinen nicht lesen können. Das bedeutet, dass alle, die diese Ergebnisse wiederverwenden möchten – was der eigentliche Sinn der Veröffentlichung ist – sie zunächst extrahieren und neu strukturieren müssen. Wäre es nicht effizienter, wenn wir Ergebnisse so veröffentlichen könnten, dass auch ihre ursprüngliche Struktur erhalten bleibt? Genau das ermöglichen Reborn Articles.“
Wie Reborn Articles funktionieren
Der Ansatz der Reborn Articles funktioniert mit gängigen Datenanalysetools wie R und Python und ermöglicht es Forscher:innen, Ergebnisse zu erzielen, die sowohl von Menschen als auch von Maschinen leicht gelesen werden können. Das bedeutet, dass andere Forscher:innen die Analysen selbst reproduzieren und sogar Reborn-Article-Daten als Excel- oder CSV-Dateien herunterladen können, die ebenfalls maschinenlesbar sind.
Dies mag trivial erscheinen, aber die Hauptalternativen für die Wiederverwendung veröffentlichter Daten sind entweder das zeitaufwändige und fehleranfällige manuelle Kopieren und Einfügen einzelner Werte aus PDF-Artikeln oder die Verwendung KI-basierter Tools, die ungenau sind.
Die derzeitige Fixierung auf KI-basierte Informationsextraktion zu überwinden, war eine Herausforderung, wenn es darum ging, zu erklären, wie dieser Ansatz funktioniert. Wie die Co-Autorin und TIB-Postdoktorandin Dr. Lauren Snyder anmerkt: „KI-basierte Extraktionswerkzeuge sind im Moment ein so heißes Thema. Es scheint, als würde jeder Wissenschaftsbereich nach Möglichkeiten suchen, große Sprachmodelle und andere extraktionsbezogene Ansätze zu nutzen. Obwohl sie in bestimmten Situationen ein leistungsstarkes Werkzeug sein können, frage ich mich, ob es uns nicht insgesamt einen Bärendienst erweist, wenn wir uns zu sehr auf sie konzentrieren. Das ist so, als würde man sein Haus renovieren und versuchen, jede Aufgabe mit Bohrern zu bewältigen – das ergibt einfach keinen Sinn. Ich befürchte, dass wir durch unseren derzeitigen Fokus auf die Informationsextraktion Möglichkeiten verpassen, Tools zu entwickeln, mit denen sich bestimmte Aufgaben effizienter bewältigen lassen. Ich hoffe, dass unsere Arbeit andere dazu inspiriert, über die gängigen Ansätze hinauszudenken.“
Stocker fügt hinzu: „Seit mindestens einem Vierteljahrhundert weisen Menschen auf die Ineffizienz unserer wissenschaftlichen Erkenntnisgewinnung hin. In dieser Zeit hat die KI-basierte Extraktion das Problem nicht gelöst, und wenn wir weiterhin der Meinung sind, dass Extraktion alles ist, was wir tun können, werden wir Mitte des Jahrhunderts vielleicht immer noch mit den gleichen Problemen zu kämpfen haben. Wenn wir stattdessen schon lange existierende Technologien genutzt hätten, um sicherzustellen, dass wissenschaftliche Erkenntnisse maschinenlesbar produziert und veröffentlicht werden, hätten wir heute riesige Datenbanken mit organisiertem Wissen. Auch wenn wir vielleicht etwas spät dran sind, ist es nie zu spät, mit bahnbrechenden Ansätzen zu beginnen.“
Originalpublikation
Markus Stocker, Lauren Snyder, Matthew Anfuso, Oliver Ludwig, Freya Thießen, Kheir Eddine Farfar, Muhammad Haris, Allard Oelen und Mohamad Yaser Jaradeh (2025) „Rethinking the production and publication of machine-readable expressions of research findings“ https://doi.org/10.1038/s41597-025-04905-0
Weitere Informationen und Kontakt
Pressemitteilung der TIB – Leibniz-Informationszentrum Technik und Naturwissenschaften (TIB)
Video der Co-Autorin Lauren Snyder über Reborn Articles für "Dance your PhD"