Daten edieren und annotieren

Daten erstellen, bearbeiten und (nach)nutzen

CLARIAH-DE stellt Tools und Services zur Verfügung, die das Erstellen, Bearbeiten und (Nach)nutzen von Daten und Ressourcen unter Verwendung etablierter Standards und Grundsätzen ermöglichen.

Bei der Erstellung und Herausgabe digitaler Ressourcen wie Editionen oder Textkorpora ist die Entscheidung für einen Standard und seine konsequente Anwendung von großer Bedeutung. So kann gewährleistet werden, dass die entstehenden Daten beispielsweise mit entsprechenden Werkzeugen bearbeitet und in größere Korpora eingegliedert werden können. Dies steigert deren Sicht- bzw. Auffindbarkeit und damit auch die Möglichkeiten zur Nachnutzung (auch im Sinne der Fair Data Principles). Die Modellierung der Daten, aus der sich die Art der Annotation ergibt, wird dabei stets von dem zu edierenden Material, den eigenen Forschungsinteressen, der Fachdisziplin sowie zahlreichen weiteren Faktoren bestimmt. Selbst bei der Verwendung etablierter Datenformate wie dem XML-Format der Text Encoding Initiative (TEI) ist eine große Varianz möglich, die die Entwicklung und Anwendung standardisierter Werkzeuge, aber auch die Weiterverwendung der entstandenen Daten zumindest erschwert. Ein Lösungsansatz, der im Kontext des CLARIAH-DE-Projekts erprobt und angewandt wird, ist die Verwendung von verbreiteten TEI-Anpassungen (customizations), wie beispielsweise dem Basisformat des Deutschen Textarchivs (DTABf). Solche Austausch- oder Pivotformate, die bei einer Überführung von Daten zwar möglicherweise nicht alle vormalig kodierten Informationen in der ursprünglichen Tiefe abbildbar machen, können als ein Kerndatensatz verstanden werden und somit Mehrwerte auch im Hinblick auf die Kuratierung von Daten schaffen.

Die nachfolgenden Anwendungsszenarien illustrieren beispielhaft die Möglichkeiten, die sich durch die Zusammenführung von Daten und Werkzeugen aus CLARIN-D und DARIAH-DE für Nutzerinnen und Nutzer ergeben, und verdeutlichen gleichsam die Bedeutung, welche der Entwicklung und Etablierung einheitlicher Standards und Workflows als Voraussetzung für eine erfolgreiche Zusammenführung zukommt.

Angesprochen werden sollen zum einen Wissenschaftlerinnen und Wissenschaftler, die digitale Ressourcen bereits produziert haben oder beabsichtigen, eine digitale Ressource erstellen, zum anderen Forschende, die mit entsprechend aufbereiteten Textkorpora arbeiten wollen. Aufgrund dieses breiten Zuschnitts bestehen in diesem Kontext Anknüpfungspunkte zu ganz unterschiedlichen Phasen des Forschungsdatenzyklus (hier vor allem Erstellung, Übernahme und Nutzung von Forschungsdaten).

Daten aufbereiten und integrieren

Die Aufbereitung und Integration von Daten ermöglicht die weitergehende Nutzung von Daten. Ein Beispiel dafür ist eine Historikerin, die eine nach den Richtlinien der TEI ausgezeichnete digitale Edition abgeschlossen hat, und sich über die Möglichkeiten informieren möchte, diese Daten durch die Verwendung bestehender Softwareanwendungen auch linguistisch zu annotieren, analysieren und durch die Eingliederung in ein größeres Textkorpus sichtbarer zu machen.

Die im Rahmen des CLARIAH-DE-Projekts derzeit zusammengestellten Informationen zu bestehenden digitalen Editionen tragen zu ihrer Orientierung bei, welche dieser Ressourcen ihrem eigenen Material ähnlich sind, etwa in Bezug auf das verwendete editorische Grundmodell, die Materialgrundlage etc., und zeigen somit best practice-Beispiele auf. Andererseits zeigen sie exemplarisch Wege, wie eine Überführung bestehender Daten zu einem Austauschformat durchgeführt werden kann, das dann die Nutzung der Software mit ihrem eigenen Material ermöglicht. Zusätzlich stehen ihr zentralisiert entsprechende Handreichungen zur Verfügung, die diese Vorgänge und Softwaretools näher erläutern.

Daten für die Lehre

Daten werden auch vielfach in der akademischen Lehre eingesetzt. Lehrende im Bereich der Digital Humanities möchten ihren Studierenden z. B. im Rahmen einer Einführungsveranstaltung zum Thema „Digitales Edieren“ einen möglichst breiten Überblick über bestehende digitale Editionen und digitale Werkzeuge (TextGridLab etc.) und Ressourcen allgemein (Lexika, Wörterbücher etc.) bieten, sowie über weitere Softwareanwendungen, die bei der Analyse der verfügbaren Daten helfen.

Die Zusammenführung aufbereiteter Ressourcen und digitaler Werkzeuge aus den bestehenden Repositorien der Verbünde DARIAH-DE und CLARIN-D im Rahmen des Projekts CLARIAH-DE, sowie die damit einhergehende Standardisierung und Etablierung einheitlicher Workflows, können das notwendige Handwerkszeug bieten, um das Seminar erfolgreich durchzuführen: Tools sowie entsprechend aufbereitete Daten sind leicht auffindbar und zentral zugänglich, ausführliche Dokumentationen und detaillierte Anleitungen ermöglichen den Studierenden das selbstständige Arbeiten.

Schlüsselwörter:

Annotation, Edition, Daten annotieren, Daten edieren, TEI, DTABf