Daten finden

Ressourcen suchen und finden

CLARIAH-DE bietet verschiedene Möglichkeiten zur umfangreichen Suche in und nach Forschungsdaten, Diensten und Werkzeugen, bereitgestellt durch eine große wissenschaftliche Gemeinschaft.

Forschende haben ein großes Interesse an effizienten Recherchemöglichkeiten zu Daten und Werkzeugen für ihre jeweiligen Forschungsfragen. Um diesen unterschiedlichen Interessen und der Vielfalt wissenschaftlicher Arbeit gerecht zu werden, stellt CLARIAH-DE verschiedene Suchanwendungen zur Verfügung, über die viele unterschiedlich strukturierte und formatierte Datensätze, bereitgestellt von einer Vielzahl von Institutionen, auffindbar sind: von Textkorpora aus Artikeln und Büchern, über lexikalische Ressourcen und Wörterbücher, Fotografien, Codices, Karten und Pamphleten bis hin zu Audio- und Videodateien. Hinzu kommen Angebote für digitale Werkzeuge und Services für unterschiedlichste Anwendungsbereiche.

CLARIAH stellt die folgenden Suchanwendungen zur Verfügung die im Folgenden detaillierter erläutert werden:

Generische Suche

Die Generische Suche (GS) ist eine individuell anpassbare Suchanwendung, die es ermöglicht, den Beschreibungstext und die Inhalte von Daten in entsprechenden Archiven gemeinsam zu durchsuchen. Diese Suche steht für zahlreiche Sammlungen zur Verfügung und erlaubt diverse Visualisierungen der jeweiligen Ergebnisse. Durchsucht werden zum einen die Metadaten der Ressourcen, zum anderen der Inhalt der Ressourcen selbst. Die Implementierung dazugehöriger Datenmodelle stellt die effiziente Erkundung der vorliegenden Ressourcen sowohl in der Breite als auch Tiefe sicher. Das generische Konzept der GS auf Basis des Data Modeling Environment ermöglicht dabei die Repräsentation und Abfrage praktisch jedes Datenmodells und erleichtert zudem eine Nachnutzung in unterschiedlichen Kontexten, beispielsweise als übergreifende Suche des MWW-Forschungsverbunds.

Eine Nutzerdokumentation ist verfügbar.

Abb. 1: Facetten-basierte Suche durch Kollektionen der Generischen Suche (GS) am Beispiel von “Deutsche Texte über Bienen

Föderierte, inhaltsbasierte Suche

Auch für das Auffinden konkreter Belegstellen in umfangreichen Textsammlungen oder Korpora kann man über CLARIAH-DE auf eine optimierte Suchanwendung zugreifen. Die Federated Content Search (FCS) erlaubt die verteilte Suche in hunderten Textsammlungen und stellt Ergebnisse übersichtlich und zur einfachen Weiterverarbeitung bereit dar. Genauere Erklärungen zeigen ein Tutorial und sowie eine Schritt-für-Schritt-Anwendung.

Abb. 2: Zeitgleiche Suche nach “EU” in vielfältigen Korpora

Virtual Language Observatory (VLO)

Um bei der Suche im Virtual Language Observatory (VLO) die im Forschungskontext einschlägigen Daten zu finden, wird eine Suche über die Beschreibung der Daten (Metadaten) mittels Suchfacetten ermöglicht. Über eine Million Ressourcen sind über das VLO auffindbar. Deren Weiterverarbeitung und Visualisierung durch verschiedenste Anwendungen ist in vielen Fällen bereits durch eine entsprechende Weiterleitung möglich. Wie Forschende das VLO nutzen können, um z.B. historische wissenschaftliche Lehrbücher und deren Metadatenbeschreibung aufzufinden, zeigt ein Nutzungsszenario.

Abb. 3: Relevante Ressourcen für spezifische Fragestellungen über Suchfacetten des VLO am Beispiel von “Korpora gesprochener deutscher Sprache”

In einer gemeinsamen Anwendung lässt sich die Ausgabe der verschiedenen Suchanwendungen vergleichen. So kann man sehen, wie sich diese bei der Suche nach einfachen Wörtern, nach Namen von Datensätzen oder nach anderen Eigenschaften unterscheiden. Während der Projektlaufzeit wird fortlaufend geprüft und evaluiert, wie diese Suchmöglichkeiten sowohl in Bezug auf die technische Zusammenführung als auch durch die Schaffung gemeinsamer Nutzerschnittstellen integriert werden können. Parallel werden Konzepte zur Zusammenarbeit der Suchmaschinen entwickelt, die langfristig und über die Projektlaufzeit hinaus Anwendung finden.

Schlüsselwörter:

Suchanwendung, Daten finden, Generische Suche, Federated Content Search, Virtual Language Observatory, TechLab