
III · Automatisierte Wissensgewinnung: Maschineninterpretierbare Forschungsdaten schaffen
Damit ließen sich zum einen bisher nicht lösbare Fragestellungen bearbeiten. Zum anderen könnten durch die semantische Suche mit digitalen Werkzeugen neue Forschungshypothesen aufgestellt und überprüft werden, die bei rein disziplinärer Betrachtung gar nicht ans Licht kommen würden. Auf Grundlage der in der Biodatenbank BacDive gespeicherten mikrobiellen Metadaten könnten die Leibniz-Einrichtungen diesen Erkenntnisgewinn exemplarisch in einem kurzen Zeitraum demonstrieren. Durch die semantische Verknüpfung mit weiteren Datenbanken würde sich die disziplinäre Datenbandbreite der Leibniz-Gemeinschaft und der Wissenschaft insgesamt voll entfalten.
Fallbeispiel III
Ein Mediziner entdeckt im Körper eines Patienten ein Bakterium, das resistent gegen diverse Breitbandantibiotika ist. Er lässt den isolierten Bakterienstamm deshalb von einem mikrobiologischen Labor untersuchen. Die Analyse zeigt ein Bakterium, das der Arzt bisher nicht kannte. Er sucht nach weiteren Informationen und möglichen Therapien, wird in seinem verstaubten Mikrobiologie-Lehrbuch jedoch nicht fündig. Hinzu kommt, dass das Bakterium mehrmals umbenannt wurde. Bei seiner Internet-Recherche findet der Mediziner teils widersprüchliche Angaben zur Behandlung.
Allerdings stößt er dabei auch auf ein neues Portal, das Informationen zu Bakterien aus verschiedenen Quellen und Datenbanken zusammenführt. So erfährt er unter anderem, dass ein Leibniz-Institut einen neuen Wirkstoff gegen das gesuchte Bakterium bereits klinisch erprobt und dass kürzlich ein Bakteriophage entdeckt wurde, also ein Virus, das genau dieses Bakterium abtötet. Der über Monate vergeblich mit Antibiotika behandelte Patient wurde daraufhin in die klinische Studie aufgenommen und konnte schließlich geheilt werden.
Ziel des Fallbeispiels ist es, solch ein umfassendes und Maschinen-lesbares Portal zu schaffen.
Bisherige Suchverfahren im lebenswissenschaftlichen Bereich basieren häufig auf Stichwortsuchen. Die Inhalte der einzelnen Suchergebnisse bleiben dabei aber unverknüpft. Wenn Daten entsprechend aufgearbeitet vorliegen, können semantische Suchmaschinen, Integrations- und Prüfverfahren dagegen die verschiedenen Bedeutungen von Begriffen auch thematisch und im richtigen Kontext einordnen. Somit kann bereits existierendes Wissen effizienter und auf neue Art und Weise miteinander verknüpft werden. Kommerzielle Webseiten ermöglichen bereits den Suchmaschinen ihre Daten in einem semantischen Zusammenhang zu erfassen und erreichen damit z. B. eine bessere Präsentation ihrer Produkte bei der Suche durch den Kunden. Allerdings sind die Zusammenhänge in den Lebenswissenschaften deutlich komplexer als bei typischen Konsumwaren. Daher gestaltet sich das Strukturieren von Daten für Suchmaschinen, mit denen sich dann Sinnzusammenhänge oder Synonyme ermitteln lassen, deutlich aufwändiger.
Schlüsseltechniken sind das Resource Description Framework (RDF), das es ermöglicht, semantische Abfragen zu erstellen, sowie die Linked-Data-Paradigmen. Diese Verknüpfungen ermöglichen es, Daten in einer Form zu beschreiben, die nicht nur von Menschen, sondern auch von Maschinen interpretiert werden kann.
Konkret sollen im Fallbeispiel Automatisierte Wissensgewinnung — Maschineninterpretierbare Forschungsdaten schaffen bestehende Inhalte relevanter lebenswissenschaftlicher Datenbanken daher in das RDF-Format umgewandelt werden. Durch Einbeziehung anderer in RDF beschriebener Daten, insbesondere aus Wikipedia (DBpedia, WikiData) sowie aus entsprechenden Datenbanken des European Bioinformatics Institute (EBI), lassen sich Daten gleichzeitig abfragen und vernetzen, ohne sie zuvor aufwendig vorverarbeiten, laden und manuell einbinden zu müssen. Als Ausgangspunkt für dieses Fallbeispiel soll BacDive dienen (https://bacdive.dsmz.de/). Diese Datenbank für mikrobielle Metadaten wurde am Leibniz-Institut DSMZ — Deutsche Sammlung von Mikroorganismen und Zellkulturen entwickelt. In BacDive werden seit 2012 umfassende Datensätze aus mikrobiellen Ressourcenzentren und der Literatur gesammelt, standardisiert und veröffentlicht.
Durch die Kombination einzigartiger, intensiv gepflegter und strukturierter Daten mit den Möglichkeiten moderner semantischer Abfragen lassen sich übergeordnete logische Zusammenhänge herstellen. Insbesondere die semantische Verknüpfung über eine einzelne Datensammlung hinaus erlaubt die Beantwortung von Fragestellungen, die anhand von einzelnen Datensätzen überhaupt nicht bearbeitbar sind. Die vorgeschlagene Strategie ermöglicht also, bislang unbekannte Zusammenhänge aufzudecken und dadurch neuartige Erkenntnisse zu erzeugen.
Semantische Suchen begleiten uns täglich beim Surfen im Internet. Sie tragen in besonderem Maße dazu bei, dass wir nicht nur schnell das Gesuchte finden, sondern auch, dass Suchmaschinen uns zusätzliche, relevante Informationen liefern. Eine wesentliche Voraussetzung dafür sind Maschineninterpretierbare Inhalte, die z.B. im RDF-Format beschrieben sind. Durch die einheitliche Darstellung von Daten und deren Beziehungen zueinander können Suchmaschinen diese Informationen auswerten und Zusammenhänge herstellen. Im Rahmen von RDF werden diese in Form von Subjekt, Prädikat und Objekt (den sogenannten Tripletts) notiert. Dabei handelt es sich um bereits in sich standardisierte Datentypen, die auf Ontologien basieren, also auf einem gemeinsamen Vokabular. Der Menschen-lesbare Satz »Der Pseudomonas lini-Stamm wurde aus der Rhizosphäre isoliert.« kann Maschinen-interpretierbar z. B. mittels des folgenden Tripletts abgebildet werden:
Subjekt:https://bacdive.dsmz.de/strain/13106 (Pseudomonas lini-Stamm)
Prädikat:http://rs.tdwg.org/dwc/terms/MaterialSample (physical results of a sampling event)
Objekt:http://purl.obolibrary.org/obo/ENVO_00005801 (rhizosphere)Diese Uniform Resource Locators (URLs) identifizieren eineindeutig einen Datensatz respektive zwei Konzepte. Deren Abfrage liefert inhaltliche Daten zurück, aber auch weitere weltweit eindeutige Identifikatoren in Form von Uniform Resource Identifiers (URIs). Dadurch lassen sich weitere nützliche Aktionen maschinell durchführen, z. B. eine Ausweitung der Suche. Anknüpfungspunkt für weitere Suchen kann sowohl das Subjekt als auch das Objekt sein.
Die Idee dieses semantischen Webs wurde schon in etlichen Projekten — wie swoogle, Theseus oder Quaero — erfolgreich umgesetzt. Mithilfe des von den großen Suchmaschinen (Google, Bing, Yandex) auf dem Webportal Schema.org veröffentlichten RDF-Vokabulars sind inzwischen etwa 20 bis 30 % des World WideWeb aufbereitet. Begleitend hierzu verfolgen Projekte wie DBpedia das Ziel, strukturierte Informationen — hier aus Wikipedia — in Form von RDF-Schemata optimiert für Anwendungen des semantischen Webs bereitzustellen. Die RDF-Plattform des EBI stellt dabei den Zugang zu molekularbiologischen und bioinformatischen Daten sicher.
Obwohl semantische Technologien zum Auffinden und Verknüpfen von Daten in der Webentwicklung schon länger etabliert sind, finden sie im Bereich der wissenschaftlichen Datenbanken, insbesondere der natur- und lebenswissenschaftlichen Disziplinen, bisher kaum Verwendung. Hier verlässt man sich weiterhin auf die lokale Auswertung von Daten, die man manuell zum Beispiel in einer gezielten Literatursuche miteinander kombiniert. Erst in jüngster Zeit wird das Potenzial von geteilten, standardisierten Daten erkannt. Beispiele dafür sind die FAIR Data Principles (Findable, Accessible, Interoperable, Reuseable) und die European Open Science Cloud (EOSC) sowie auf eine Harmonisierung von existierenden wissenschaftlichen Standards abzielende Portale wie fairsharing.org.
Das vorliegende mikrobiologische Fallbeispiel nutzt ausgewählte, bestehende Datenbanken wie BacDive und die RDF-Plattform des EBI, um an diesen Beispielen zu demonstrieren, wie sich die semantische Datenvernetzung und damit die Aufdeckung unbekannter Zusammenhänge sowie die Generierung neuartiger Erkenntnisse realisieren lässt. BacDive stellt mit den gesammelten Metadaten für zurzeit 63.399 Bakterien und Archaeen eine weltweit einzigartige Datenressource dar. Die Datenbank vereint Informationen aus verschiedenen Quellen, wie Sammlungsdaten mikrobiologischer Ressourcenzentren oder Daten der Speziesbeschreibung in der Primärliteratur. BacDive stellt diese Informationen in derzeit über 150 Datenfeldern öffentlich zur Verfügung.
Für BacDive können zwei typische Fallbeispiele beschrieben werden: Entweder suchen Nutzer nach Informationen zu einem konkreten Organismus oder sie suchen nach Organismen mit spezifischen Eigenschaften. In beiden Fällen würde die Darstellung der Daten in Maschinen-interpretierbarer Form Nutzeranfragen deutlich effizienter machen und neue Ergebnisse liefern. Für den ersten Fall würde die Aufbereitung der Daten in RDF die Indizierung der BacDive-Daten durch Suchmaschinen verbessern. Nutzer würden dadurch die Daten direkt über die Suchmaschine (z. B. Google) finden. Für den zweiten Fall muss ein sogenannter SPARQL-Endpunkt eingerichtet werden. Er erlaubt es dem Nutzer, eigene semantische Abfragen selbst durchzuführen. Darüber lassen sich dann z. B. neue Zusammenhänge zwischen physiologischen Bedingungen wie Temperatur, pH-Wert III und Kohlenstoffquelle sowie der Antibiotikaresistenz und der Toxinbildung eines Mikroorganismus herstellen. Von besonderem Mehrwert ist die Einbindung weiterer Datenquellen des EBI und von Wikipedia, die bereits jetzt über SPARQL abrufbar sind. So ist vorstellbar, dass darüber Informationen zu Krankheitsausbrüchen aus der Primärliteratur (über PubMed, eine Meta-Datenbank für medizinische Literatur) oder Daten aus einer anderen Quelle zu neuen Wirkstoffen des Bakteriums mit in die Abfrage eingebunden werden. Möglich ist auch, Informationen über den Wirt eines Krankheitserregers mit in die Auswertung einzubeziehen. Durch die dann verfügbaren Suchoptionen potenzieren sich die Abfragemöglichkeiten. Man kann davon ausgehen, dass durch diese Technologie viele neue, bisher noch nicht bekannte Anwendungsfälle möglich werden. Zudem werden mit der Etablierung weiterer SPARQL-Endpunkte kontinuierlich weitere Optionen hinzukommen, um neues Wissen zu generieren und zu integrieren.
Im Rahmen des vorgeschlagenen Projekts soll exemplarisch ein SPARQL-Endpunkt für Bac-Dive eingerichtet sowie verschiedene Datenfelder durch eine Umwandlung ins RDF-Format beispielsweise für die am EBI gehostete Datenbank Europe PubMed Central angebunden werden.
Das Leibniz-Institut DSMZ sammelt als eines der größten mikrobiologischen Ressourcenzentren weltweit seit über 40 Jahren Metadaten zu Mikroorganismen. Seit 2012 veröffentlicht die DSMZ alle Fakten zu Mikroorganismen in der Datenbank BacDive, wo diese um Informationen aus anderen Quellen ergänzt werden. BacDive bietet dadurch eine weltweit einzigartige Sammlung von Metadaten für zurzeit 63.399 Stämme.
Als zentrale Fachbibliothek für Technik sowie Architektur, Chemie, Informatik, Mathematik und Physik bietet die Technische Informationsbibliothek (TIB) — Leibniz-Informationszentrum Technik und Naturwissenschaften seit 15 Jahren Dienstleistungen rund um das Forschungsdatenmanagement an. Dazu gehört z. B. der DOI- Service (Digital Object Identifier, das heißt persistente Identifikatoren für digitale Objekte, ähnlich einer permanenten Webadresse) für Forschungsdaten und die Schaffung von gemeinsamen Begriffswelten in den technischen Forschungsdisziplinen und den Naturwissenschaften. Die in diesem Vorhaben beabsichtigte Einführung einer semantischen Beschreibung am Beispiel der Datenbank BacDive soll zu einer effizienten Nachnutzung von Forschungsdaten durch maschinelle Lesbarkeit beitragen und somit ein Fallbeispiel für die Umsetzung der oben genannten FAIR Data Principles darstellen, die Grundsätze für nachhaltig nachnutzbare Forschungsdaten und Forschungsdateninfrastrukturen formulieren.
In diesem Bereich gibt es keine vergleichbaren Projekte. Die in BacDive gesammelten Daten stellen eine weltweit einzigartige Sammlung dar. Das Vorhaben profitiert zudem von der Einbeziehung weiterer Datenbanken, sofern deren Daten ebenfalls über einen SPARQL-Endpunkt zugänglich gemacht werden.
In diesem Fallbeispiel werden die mikrobiellen Daten der DSMZ sowie die Expertisen der TIB und des Museums für Naturkunde — Leibniz-Institut für Evolutions- und Biodiversitätsforschung (MfN) im Bereich der Semantik, des FAIRen-Forschungsdatenmanagements und der nachhaltigen Entwicklung wissenschaftlicher Software miteinander kombiniert. Zudem ist die DSMZ Mitglied des Deutschen Zentrums für Infektionsforschung (DZIF) und bietet daher einen direkten Anknüpfungspunkt zur Gesundheitsforschung und Epidemiologie.
Quellenübergreifende Abfragen und Analysen über ein Interface im Web zu realisieren, ist zukunftsweisend. Auf diese Weise können Daten neu kombiniert und daraus weitere Erkenntnisse gewonnen und Zusammenhänge identifiziert werden. Dies trägt dazu bei, dass auch stark heterogene Forschungsdaten unterschiedlicher Forschergruppen vergleichbarer und dadurch besser nachnutzbar werden. Durch die semantische Beschreibung der (Meta-)Daten über RDF wird verhindert, dass sich disziplin- bzw. communityspezifische »Datensilos« bilden. Darüber hinaus werden die Forschungsdaten so aufbereitet, dass sie in die visionäre europaweite Vernetzung von Forschungsdaten durch die European Open Science Cloud eingebunden werden können. Des Weiteren erlaubt die semantische Darstellung, dass sich wissenschaftliche Erkenntnisse durch Analysetools, wie z. B. Jupyter Notebooks, deutlich besser nachnutzen und im Rahmen eines Open Knowledge Graph, also einer offenen Such- und Verknüpfungssystematik, visualisieren lassen.
Jupyter Notebooks oder andere Skript-basierte, reproduzierbare Dokumentationen einer wissenschaftlichen Analyse profitieren dabei von Softwarepaketen,die domänenspezifische Funktionalität standardisieren und einfach nutzbar machen. An der TIB wurde daher der (in der von Bioinformatikerinnen und Bioinformatikern oft verwendeten Programmiersprache R etablierte) Beispielcode aktualisiert, paketiert, und damit selbst FAIRer gemacht. Die Publikation des resultierenden R-Pakets »BacDiveR« als Referenzimplementierung für die programmatische Nutzung der Bac-Dive-Dienste ist via ROpenSci.org möglich.
Auch mittel- und langfristig ergibt sich aufbauend auf der semantischen Datenpublikation und Vernetzung eine sehr interessante Perspektive, die Relevanz für die Wissenschaften insgesamt hat. Antrieb für wissenschaftliches Arbeiten sind derzeit vor allem Arbeitshypothesen. Ausgehend von einer Hypothese werden z. B. Daten beschafft, integriert und analysiert. Inzwischen verbreiten sich in vielen anderen Gebieten Methoden, bei denen Zusammenhänge und Muster beispielsweise durch Verfahren des Maschinellen Lernens automatisiert erkannt werden. Werden derartige Methoden auf das wissenschaftliche Arbeiten angewendet, könnten Hypothesen ebenfalls automatisiert generiert werden, wenn viele Daten aus unterschiedlichen Quellen in dem einheitlichen Beschreibungs-Format RDF vorliegen. Übertragen auf ein solches Datennetzwerk aus vielen verschiedenen SPARQL-Endpunkten könnten Zusammenhänge und Muster in den Daten automatisiert erkannt werden, ohne von einer vorherigen Arbeitshypothese auszugehen. Im Anschluss müsste wissenschaftlich untersucht werden, ob die statistische Korrelation dieser Muster und Verknüpfungen auch einem tatsächlichen kausalen Zusammenhang entspricht.
Nachdem ein SPARQL-Interface geschaffen wurde, werden die Datenbankinhalte sukzessiv für die verschiedenen Datenfelder von BacDive in RDF umgewandelt. Der Aufwand dafür hängt wesentlich davon ab, ob für das jeweilige Datenfeld bereits ein RDF-Modell vorliegt und wie vielfältig das Feld ist. So lassen sich Datenfelder mit bereits festgelegtem Vokabular und/oder geringer Diversität in kurzer Zeit in RDF transformieren. Besonders vielfältige Datenfelder müssen hingegen zunächst einen zeitaufwendigen Zuordnungsprozess durchlaufen. Parallel zur Server-seitigen SPARQL-Implementierung wird BacDiveR um die Fähigkeiten ergänzt, auch dieses SPARQL-Interface zu nutzen.
Es ist konsequent, für weitere Leibniz-Datenressourcen SPARQL-Endpunkte zu etablieren und dadurch Abfragen über verschiedene Leibniz-Datenressourcen hinweg zu ermöglichen. Eine Liste mit öffentlich zugänglichen Daten(-banken) weiterer potenzieller Partner innerhalb der Leibniz-Gemeinschaft wäre ein erster Schritt in diese Richtung. Im Hinblick auf Infektionskrankheiten und Wirkstoffforschung gibt es weitere Verbindungen zum Leibniz-Institut für Naturstoff-Forschung und Infektionsbiologie — Hans-Knöll-Institut (HKI) in Jena, zum Forschungszentrum Borstel — Leibniz Lungenzentrum (FZB) und zum Leibniz-Institut für Pflanzenbiochemie (IPB) in Halle.
Kontakt
Leibniz-Institut DSMZ – Deutsche Sammlung von Mikroorganismen und Zellkulturen, Braunschweig
T 0531 2616 352
Joerg.Overmann@dsmz.de
Jörg Overmann ist wissenschaftlicher Direktor des Leibniz-Instituts DSMZ — Deutsche Sammlung von Mikroorganismen und Zellkulturen in Braunschweig und Professor für Mikrobiologie an der Technischen Universität Braunschweig. An der DSMZ leitet er die Abteilung mikrobielle Ökologie und Diversität und forscht mit seinen Mitarbeiterinnen und Mitarbeitern u. a. zu den evolutionären Grundlagen der Bakteriendiversität sowie Evolution, Ökophysiologie und molekulare Grundlagen bakterieller Multizellularität. Ein weiterer Arbeitsschwerpunkt umfasst die Mobilisierung und Bereitstellung von Metadaten für Biodiversitätsanalysen.
Downloads
Links
Weitere Ansprechpersonen
Partner
- Leibniz-Institut DSMZ — Deutsche Sammlung von Mikroorganismen und Zellkulturen, Braunschweig
- Technische Informationsbibliothek — Leibniz- Informationszentrum für Technik und Naturwissenschaften (TIB), Hannover
- Museum für Naturkunde — Leibniz-Institut für Evolutions- und Biodiversitätsforschung (MfN), Berlin
