Daten publizieren und archivieren
In CLARIAH-DE können Forschende ihre Forschungsdaten über Repositorien entsprechend den FAIR-Prinzipien publizieren und damit nachhaltig archivieren sowie der Community zur Verfügung stellen.
Forschungsdaten, die im Rahmen der eigenen Forschung entstehen oder nachgenutzt und angereichert werden, sollen in geeigneten Forschungsdatenrepositorien publiziert und aufbewahrt werden. Dafür gibt es verschiedene gute Gründe: Zum einen werden Forschungsergebnisse so für die akademische Öffentlichkeit reproduzierbar. Ferner können Daten anderen Forschenden als Grundlage für weitere Forschung dienen und werden zitierbar und so Teil der dokumentierten wissenschaftlichen Leistung. Daneben ist die Archivierung und Publikation der Daten Teil der guten wissenschaftlichen Praxis und wird zudem von Förderorganisationen verlangt oder vorausgesetzt.
Forschungsdaten in den Geisteswissenschaften, die von CLARIAH-DE-Partnern archiviert werden, sind sehr vielfältig. Sie reichen von Textsammlungen und Sprachaufnahmen samt literaturwissenschaftlicher oder linguistischer Annotation über lexikalische Daten mit Wörterbüchern und ähnlichen Ressourcen bis zu kritischen Editionen, die digital unterschiedliche Ausgaben und Versionen geschriebener Werke auch unter Einbeziehung von Faksimiles vergleichen. Für diese Bandbreite an unterschiedlichen Forschungsdaten bieten CLARIAH-DE und seine Partner verschiedene Dienste an, die vom TextGrid Repository für digitale Korpora und Editionen bis hin zu sprachwissenschaftlich ausgerichteten Sammlungen wie dem Bayerischen Archiv für Sprachsignale reichen.
FAIRes publizieren und archivieren
Archivierte und publizierte Forschungsdaten ermöglichen die Zitation und Nachnutzung von Daten. Um dies zu gewährleisten, werden die Daten entsprechend der FAIR-Prinzipien archiviert und abgelegt. CLARIAH-DE fördert und unterstützt Forschende beim Publizieren und Archivieren von Forschungsdaten nach diesen Grundsätzen.
Weitere Hintergrundinformationen zu den FAIR-Prinzipien stellen die Initiatoren der FORCE11 auf ihrer Website zur Verfügung.
Archivieren und publizieren mit CLARIAH-DE
Die CLARIAH-DE-Partner betreiben auf unterschiedliche fachliche Schwerpunkte ausgerichtete Repositorien, die Daten langfristig speichern und zugänglich machen. In diesen Repositorien werden die Forschungsdaten zusammen mit einer formalen Beschreibung, den Metadaten, gespeichert. Forschungsdaten, die in CLARIAH-DE-Repositorien archiviert und zugänglich gemacht werden, erhalten eine eindeutige Identifikationsmöglichkeit, einen persistenten Identifikator (PID), zur dauerhaften Auffindbarkeit und Zitierbarkeit, z. B. einen Handle oder einen DOI. Außerdem werden sie mit Metadaten beschrieben, mit denen sie in den gängigen Suchmaschinen und über spezifische Suchmöglichkeiten via CLARIAH-DE gefunden werden können. Die CLARIAH-DE-Partner teilen diese Metadaten über gängige technische Protokolle mit nationalen und internationalen Partnern, so dass sie auch mit anderen Suchwerkzeugen gefunden werden können.
Der Weg zur Publikation wird in auf den Webseiten der Repositorien von CLARIAH-DE ausführlich dokumentiert. Der Aufwand soll für die Forschenden minimiert werden, hängt aber von dem Interesse zur Nachnutzung im jeweiligen Repositorium ab. Außerdem sind die Repositorien teilweise auf unterschiedliche Datentypen, Sprachen, Epochen, Modalitäten und Datenformate spezialisiert.
Über den Helpdesk unterstützt CLARIAH-DE Nutzende dabei, die für ihre Daten kompatiblen Partner zu finden und mit ihnen in Kontakt zu kommen.
Repositorien zur Archivierung von Forschungsdaten
Über verbundene Einrichtungen bietet CLARIAH-DE die Möglichkeit, Forschungsdaten zu archivieren und zu publizieren. Dabei gibt es unterschiedliche fachliche Schwerpunkte, die sich nach der Art der Daten, Sprache, Datenformaten und technischen Vorgaben unterscheiden. Auch eine Ausgewogenheit der Daten (“balancierte Korpora”) kann ein relevantes Kriterium sein, z. B. für das Deutsche Referenzkorpus (DeReKo) und das Deutsche Textarchiv. Einige Repositorien stellen Oberflächen für quantitative Experimente zur Verfügung Für Editionen, die mit Hilfe von TextGrid erstellt wurden, bietet sich so zum Beispiel das TextGrid Repositorium an. TEI-repräsentierte Editionen, die im DTA-Basisformat vorliegen, lassen sich dagegen gut ins Deutsche Textarchiv integrieren. Gesprochensprachliche Daten können am Hamburger Zentrum für Sprachkorpora, am Bayersichen Archiv für Sprachsignale oder dem Institut für Deutsche Sprache archiviert werden. Manche Repsoitorien bieten Unterstützungswerkzeuge für Nutzende, die nur selten Daten bereitstellen, z. B. im Rahmen von Editionsprojekten in Qualifikationsarbeiten. Hierfür könnte z. B. das DARIAH-Repository Nutzende durch den DARIAH-Publikator unterstützen einfach, schnell und formatunabhängig Forschungsdaten zu publizieren, während das TextGrid-Repository durch den Weg über das TextGridLab und die Formatvorgabe (XML) eine größere Hürde darstellt, aber auch eine engere disziplinäre Einordnung und Nachnutzung garantiert.
Die folgende Liste stellt eine Übersicht von evaluierten und meist zertifizierten Repositorien dar, die von CLARIAH-DE-Partnern betrieben werden.
Institution |
Schwerpunkt |
Kontaktinformation |
Zertifikat |
BBAW Berlin |
Deutsche Sprache, Lexika, diachrone Korpora (vor 1900), digitale Editionen, Texterfassungsmethoden (OCR) |
geyken@bbaw.de |
|
DARIAH-DE Repository |
Geistes- und kulturwissenschaftliche Forschungsdaten, Kollektionen |
info@de.dariah.eu |
|
EKUT Tübingen, |
Annotierte Korpora (Baumbanken), lexikalische Daten, Experimentaldaten, linguistische Wissenskomponenten und Webservices |
clarin-repository@sfs.uni-tuebingen.de |
|
IDS Mannheim |
Deutsche Sprache, große Korpora des Deutschen (nach 1900), Korpora des gesprochenen Deutsch, insbesondere Variations- und Interaktionskorpora |
witt@ids-mannheim.de |
|
LMU München, BAS |
Deutsche Sprach- und multimodale Daten, phonetische Tools und Services, Sprachstatistiken, Aussprache-Lexika |
bas@bas.uni-muenchen.de |
|
TextGrid Repositorium |
TEI basierte Editionen |
info@de.dariah.eu |
|
UDS Saarbrücken |
Multilinguale Korpora und Korpuswerkzeuge |
e.teich@mx.uni-saarland.de |
|
UHH Hamburg, HZSK |
Mehrsprachige gesprochene Korpora, Transkriptionswerkzeuge, Gebärdensprache |
kristin.buehrig@uni-hamburg.de |
|
Universität Leipzig, ASV |
Andere Sprachen (nicht Deutsch), Gegenwartssprache, lexikalische Daten, Webservices, spezielle Referenzkorpora, öffentliche Daten |
heyer@informatik.uni-leipzig.de |
|
Universität Stuttgart, IMS |
Computerlinguistische Software, z.B. Korpora und Korpuswerkzeuge, parametrisierbare Tools u. Webservices, geschriebene Sprache |
clarin@ims.uni-stuttgart.de |
Schlüsselwörter:
Repositorien, FAIR, Metadaten, Daten archivieren, Daten publizieren, Persistente Identifikatoren