Demonstratoren zur Arbeit mit bibliographischen Daten
Hintergrund
Bibliographische Daten sind für die Geisteswissenschaften von zentraler Bedeutung. Viele Ressourcen, Tools und Softwareentwicklungen setzen bibliographische Daten voraus und decken Teile des Datenlebenszyklus ab, wie beispielsweise das Extrahieren, Archivieren, Verfeinern, Analysieren oder Visualisieren. Im Rahmen des DESIR-Projekts - DESIR steht für DARIAH ERIC Sustainability Refined - befasste sich ein Arbeitspaket mit bibliographischen Daten in den Geisteswissenschaften und erarbeitete drei Demonstratoren, die Anwendungen aus der Organisation, Analyse und Visualisierung bibliographischer Daten bereitstellen. Da die zugrundeliegende Software bereits vorhanden war, konzentrierte sich die Arbeit darauf, die Komponenten in eine zusammenhängende Verarbeitungskette zu bringen und die Funktionalitäten der Software zu erweitern. Das Ergebnis dieser Arbeit wird vom Projekt CLARIAH-DE auf dieser Website archiviert, um die Demonstratoren zu verbreiten und die weitere Nutzung oder Adaption der Software zu fördern. Nachstehend werden die drei Demonstratoren beschrieben, die als Webdienste zugänglich sind. Auch die entsprechende Dokumentation ist im DARIAH ERIC GitHub Repository verfügbar.
DARIAH Code Sprints 2018/2019

- A: Extrahieren bibliographischer Daten und Zitate aus PDFs unter Anwendung von GROBID
- B: Import und Export bibliographischer Daten aus BibSonomy und Erfassung in bestehenden Sammlungen
- C: Visualisierung prozessierter Daten mit zusätzlichen Dimensionen für Journals, bestimmten Themengebiete oder Abhängigkeitsgrafiken
- D: Sicherung von Online-Diensten in der DARIAH-AAI mit SAML/Shibboleth

GROBID
Hauptfunktionen/-entwicklungen in DESIR:
- Erstellung eines neuen Modells für das Parsen von Bestätigungen sowohl in Form von Rohtexten als auch PDF-Dateien mit GROBID (https://github.com/kermitt2/grobid) und DeLFT (https://github.com/kermitt2/delft/).
- Erstellung eines Bestätigungs-Webdienstes in GROBID.
- Integrierte Ergebnisse des GROBID-Anerkennungsparsers in einen Demonstrator (https://github.com/DARIAH-ERIC/DESIR-CodeSprint-TrackA-TextMining).

BibSonomy

Im Mittelpunkt stand die Vereinfachung der Dateneingabe, beispielsweise durch die Möglichkeit des Imports aus ORCID oder per Drag'n'Drop aus PDF-Dateien und die Nutzung von BibSonomy als Backend zur Speicherung und Organisation von Literaturnachweisen. Mit seiner REST-API ermöglichte es die kollaborative Speicherung und Abfrage bibliographischer Metadaten. Es wurde ein Werkzeug zum Extrahieren bibliographischer Metadaten aus PDF-Dateien unter Verwendung von GROBID und zum Speichern in BibSonomy entwickelt. Auf diese Weise können bibliografische Metadaten leicht und mit geringem Aufwand zu BibSonomy hinzugefügt werden. Das Tool verfügt über eine benutzerfreundliche Oberfläche. Der vollständige Java-Code und eine Installationsanleitung sind auf GitHub veröffentlicht: https://github.com/DESIR-CodeSprint/trackB.
Hauptfunktionen/-entwicklungen in DESIR:- Es wurden zwei neue Möglichkeiten der Datenübermittlung implementiert, 1) die Textdateien hochzuladen sowie 2) Text direkt im Browser über ein Textfeld zu übermitteln, so dass Nutzende Textteile aus anderen Quellen direkt kopieren und einfügen können.
- Das Tool wurde mit einem individuellen Login für BibSonomy ausgestattet, sodass Nutzende bibliographische Einträge zu ihren eigenen BibSonomy-Konten hinzufügen können.
- Die Anwendungsoberfläche wurde durch das Hinzufügen neuer hilfreicher Funktionen verbessert, z.B. das Entfernen bestimmter Elemente aus der Liste der extrahierten bibliographischen Elemente.
Visnow/VIStory
Vorhandene Bausteine des generischen Visualisierungsframeworks VisNow wurden in Kombination mit Web-Frameworks verwendet. Das prototypische Web-Frontend für die 3D-Graphen-Visualisierung wurde um eine Individuum-zentrierte Ansicht von Knotenpunkten in Personennetzwerken, die die Autoren repräsentieren, sowie deren Randbereichen für Publikationen mit anderen Autoren in Personennnetzwerken erweitert. Die 3D-Interaktionskonzepte wurden neu gestaltet, und es wurden beispielhafte 2D-Karten erstellt. Im 3D-Interaktionsteil des Web-Frontends wurden eine Reihe von Erweiterungen implementiert und getestet, um die Interaktionsschemata zwischen dem Anwendenden und der 3D-Graphen-Visualisierung zu entwickeln. Es wurden Datenimport-Codes für die Interaktion mit Bibsonomy-Datenexportdateien und der Bibsonomy-API erstellt. Modifikationen der Backend-Datenstrukturierung für die Graphenerstellung wurden mit einer zusätzlichen Datenverarbeitungs- und Sortierebene im Backend getestet. Eine zusätzliche 2D-Visualisierung wurde auf der Frontend-Seite mit der deskriptiven High-Level-Sprache Vega-Lite eingeführt.
Der ViStory-Demonstrator ist hier verfügbar.
Hauptfunktionen/-entwicklungen in DESIR:- Entwurf und Entwicklung eines internen generischen Datenmodells zeitlicher Entitätsbeziehungen.
- Konzeptualisierung, Entwurf und Implementierung von Zeitachsen (einschließlich Koautorenschaft und Zitationsgraphen).
- Webbasierte 3D-Visualisierung.
- Erstellung eines Mappings vom RDF-Modell zum integrierten Modell.
- Erstellung eines Mappings vom JSON-Modell zum integrierten Modell.
- Erstellung eines Mappings vom BibSonomy REST API-Modell zum integrierten Modell.

Danksagung
Das DESIR Arbeitspaket 4 untersuchte Möglichkeiten zur Verbesserung bestehender Dienste für bibliographische Metadaten für DARIAH. Der Schwerpunkt des Arbeitspakets lag auf entitätsbasierter Suche, wissenschaftlichem Contentmanagement, Visualisierung und textanalytischen Diensten. Die Arbeit wurde von 2017 bis 2019 durchgeführt und kulminierte in zwei Code Sprints mit externen Teilnehmenden und zwei Workshops zur Software- und Infrastrukturnachhaltigkeit und -qualität sowie schließlich in einer Dokumentation der durchgeführten Arbeiten und Ergebnisse im DARIAH ERIC GitHub Repository. DESIR hat unter der Grant Agreement Number 731081 Mittel aus dem Forschungs- und Innovationsprogramm Horizont 2020 der Europäischen Union erhalten. INFRADEV-03-2016-2017 - Individual support to ESFRI and other world-class research infrastructures.