Ressourcen nutzen

CLARIAH-DE bietet einen zentralen Zugang zu vielfältigen Datenrepositorien. Die darin enthaltenen Ressourcen können von Forschenden, Lehrenden und Studierenden in unterschiedlichen Kontexten genutzt und kombiniert werden.

So suchen zum Beispiel Lehrende für Deutsch als Fremdsprache Medien zum Hörverständnis, die sie im Unterricht einsetzen können. Im Forschungs- und Lehrkorpus Gesprochenes Deutsch (FOLK) finden sie Audio- und Videodateien aus verschiedenen Gesprächskontexten sowie Transkriptionen. Daneben suchen Forschende aus der Literaturwissenschaft und der Computerlinguistik für ein Forschungsprojekt eine Gedichtsammlung, um diese dann mit digitalen linguistischen Werkzeugen gemeinsam zu bearbeiten. Diese können sie sich aus dem TextGrid Repository und dem Deutschen Textarchiv zusammenstellen und direkt über die Anbindung zum Language Resources Switchboard analysieren. Ein weiteres Anwendungsbeispiel wären Studierende der Germanistik, die eine Hausarbeit zum aktuellen Thema Hate Speech schreiben und lexikalische Ressourcen suchen, um eine Wortrelations- und Wortfeldanalyse durchzuführen. In dem deutschen Wortnetz GermaNet können entsprechende Belege gefunden werden. Darüber hinaus bietet CLARIAH-DE mit der Datenbank für gesprochenes Deutsch (DGD) des IDS Mannheim und dem DARIAH-DE Repository Zugang zu multimodalen Daten (bspw. Audio- und Videoaufnahmen) sowie zu weiteren Quellen des digitalen Kulturguts (Fotografien, Objekte etc.).

Unabhängig von der anbietenden Institution können die Ressourcen zentral mit einem universitären Nutzerkonto oder über andere Forschungseinrichtungen (via eduGAIN) genutzt werden. Zusätzlich ist der Zugang auch vom europäischen CLARIN-Verbund oder über DARIAH-DE möglich (siehe [10DatenNutzenFinden]). Dies ermöglicht einen bequemen Zugang zu Ressourcen und Diensten.

Die folgende Liste zeigt beispielhaft die Vielfältigkeit der in CLARIAH-DE angebotenen Forschungsdaten.

  • Das Deutsche Referenzkorpus (DeReKo) ist die weltweit größte Sammlung deutschsprachiger Korpora der Gegenwart als empirische Basis für die linguistische Forschung und wird am Leibniz-Institut für Deutsche Sprache entwickelt und gepflegt. Forschende und Studierende können über die Suchplattformen KorAP oder COSMAS II auf diese Daten zugreifen.
  • Das TextGrid Repository bietet unter anderem die Sammlung “Digitale Bibliothek”, die deutsche und ins Deutsche übersetzte Werke aus Belletristik und Sachliteratur von Beginn des Buchdrucks bis zum frühen 20. Jahrhundert von ca. 600 Autorinnen und Autoren erfasst. Daneben enthält das Repositorium eine stetig wachsende Anzahl von Texten und Bildern (z.B. Manuskripte) aus Editions- und Digital-Humanities-Projekten. Die Texte sind neben dem reinen Textformat überwiegend auch XML/TEI-kodiert, was eine vielfältige Nachnutzung ermöglicht. Forschende können diese Daten herunterladen, eigene Sammlungen per Regalfunktion erstellen und sie über die Anbindung an Werkzeuge zur digitalen Analyse (u.a. Language Resources Switchboard) direkt weiterverarbeiten.
  • Das Deutsche Textarchiv (DTA) bietet einen disziplin- und gattungsübergreifend ausgewogenen Grundbestand deutschsprachiger Texte ab dem frühen 16. bis zum frühen 20. Jahrhundert an. Das DTA-Kernkorpus besteht aus ca. 1500 Werken. Darüber hinaus integriert das DTA eine Vielzahl weiterer Texte aus einem Zeitraum von der Mitte des 15. bis zur Mitte des 20. Jahrhunderts als DTA-Erweiterungen (DTAE). Alle Dokumente sind einheitlich gemäß dem Basisformat des Deutschen Textarchivs (DTABf), einem vollständig TEI-konformen Standard, kodiert. Zusätzlich werden weitere Download-Formate angeboten sowie die zugehörigen Bildvorlagen zugänglich gemacht. Die DTA-Textsammlung kann mit etablierten Forschungswerkzeugen bearbeitet und analysiert werden.
  • Lexikalische Ressourcen stehen mit dem Leipziger Wortschatz und dem deutschen Wortnetz GermaNet für die Forschung zur Verfügung. Das GermaNet kann online durchsucht und die vollständigen Daten können für die akademische Forschung kostenlos lizenziert werden.
  • Das DARIAH-DE Repository ist ein Langzeitarchiv für geistes- und kulturwissenschaftliche Forschungsdaten. Typischerweise befinden sich hier für die Öffentlichkeit zugänglich gemachte Daten aus geisteswissenschaftlichen Forschungsprojekten. Diese können ganz unterschiedliche Formate und Inhalte haben. Zur Wiederauffindbarkeit sind Daten im DARIAH-DE Repository in Kollektionen organisiert und insgesamt an den FAIR-Prinzipien orientiert. Daher können quer zu Formaten und Disziplinen Daten gefunden und nachgenutzt werden, denn alle Daten sind nach Open Access frei zugänglich. Alle veröffentlichten Daten erhalten via Datacite einen persistenten Identifier (DOI) und sind so dauerhaft auffindbar und zitierbar.

Schlüsselwörter:

Datenangebot, Forschungsdaten, Nachnutzung, Repositorien, Werkzeuge, Ressourcen, Datenbank