Anwendungsbeschreibungen
Anwendungsbeschreibungen zum Stichpunkt CLARIAH-DE AP2
Status der Dienste
Liner2 (hosted by D4Science) UP
HTTP OK: HTTP/1.1 200 OK - 3151 bytes in 0.221 second response time
WebLicht POSTags Lemmas DE UP
HTTP OK: HTTP/1.1 302 Found - 1040 bytes in 0.103 second response time
Concraft -> Bartek UP
HTTP OK: HTTP/1.1 200 OK - 8217 bytes in 0.079 second response time
WebLicht NamedEntities SL UP
HTTP OK: HTTP/1.1 302 Found - 1040 bytes in 0.072 second response time
OAI-PMH-31 DOWN
OAI-PMH CRITICAL: HTTPSConnectionPool(host='clarino.uib.no', port=443): Max retries exceeded with url: /oai?verb=Identify (Caused by SSLError(SSLError("bad handshake: Error([('SSL routines', 'tls_process_server_certificate', 'certificate verify failed')],)",),))
Concraft -> Sentipejd UP
HTTP OK: HTTP/1.1 200 OK - 8217 bytes in 0.134 second response time
WebLicht Dep Parsing NL ALPINO UP
HTTP OK: HTTP/1.1 302 Found - 1040 bytes in 0.116 second response time
CSTLemma (hosted by D4Science) UP
HTTP OK: HTTP/1.1 200 OK - 3055 bytes in 0.190 second response time
Concraft -> Bartek -> NicolasSummarizer UP
HTTP OK: HTTP/1.1 200 OK - 8217 bytes in 0.133 second response time
OAI-PMH-43 WARNING
OAI-PMH WARNING: XSD validation failed
CLARIN-D project web site UP
HTTP OK: HTTP/1.1 200 OK - 65980 bytes in 0.242 second response time
CLARIN Centre Registry [UI][prod] UP
HTTP OK: HTTP/1.1 200 OK - 3032 bytes in 0.060 second response time
OAI-PMH-19 WARNING
OAI-PMH WARNING: XSD validation failed
WebLicht Lemmas EN UP
HTTP OK: HTTP/1.1 302 Found - 1040 bytes in 0.069 second response time
CLARIN DS status proxy [prod] UP
HTTP OK: HTTP/1.1 200 OK - 3032 bytes in 0.108 second response time
Voyant Tools UP
HTTP OK: HTTP/1.1 200 OK - 6508 bytes in 0.498 second response time
WebLicht Lemmas DE UP
HTTP OK: HTTP/1.1 302 Found - 1040 bytes in 0.067 second response time
CLARIN VCR [UI][prod] UP
HTTP OK: HTTP/1.1 200 OK - 2798 bytes in 0.039 second response time
WebLicht Const Parsing DE UP
HTTP OK: HTTP/1.1 302 Found - 1040 bytes in 0.066 second response time
Concraft->Spejd UP
HTTP OK: HTTP/1.1 200 OK - 8217 bytes in 0.081 second response time
OAI-PMH-53 WARNING
OAI-PMH WARNING: XSD validation failed
SRU/CQL-23 WARNING
SRU/CQL WARNING: XSD validation failed
Automatic Transcription of Dutch Speech Recordings (Wav file) UP
HTTP OK: HTTP/1.1 200 OK - 7889 bytes in 0.134 second response time
WebLicht Const Parsing EN UP
HTTP OK: HTTP/1.1 302 Found - 1040 bytes in 0.070 second response time
WebLicht Advanced Mode UP
HTTP OK: HTTP/1.1 302 Found - 1040 bytes in 0.065 second response time
Automatic Transcription of Dutch Speech Recordings (MP3 file) UP
HTTP OK: HTTP/1.1 200 OK - 7889 bytes in 0.132 second response time
Concraft -> Nerf UP
HTTP OK: HTTP/1.1 200 OK - 8217 bytes in 0.144 second response time
WebLicht POSTags Lemmas IT UP
HTTP OK: HTTP/1.1 302 Found - 1040 bytes in 0.065 second response time
CLARIN VLO [UI][prod] UP
HTTP OK: HTTP/1.1 200 OK - 3032 bytes in 0.034 second response time
WebLicht Dep Parsing EN UP
HTTP OK: HTTP/1.1 302 Found - 1040 bytes in 0.070 second response time
DARIAH-DE Geo-Browser (KML) UP
HTTP OK: HTTP/1.1 200 OK - 9227 bytes in 0.086 second response time
WebLicht Morphology DE UP
HTTP OK: HTTP/1.1 302 Found - 1040 bytes in 0.067 second response time
Distanbol WARNING
HTTP WARNING: HTTP/1.1 400 - 243 bytes in 0.175 second response time
CMDI Explorer UP
HTTP OK: HTTP/1.1 200 OK - 1880 bytes in 0.182 second response time
WebLicht Tokenization TUR UP
HTTP OK: HTTP/1.1 302 Found - 1040 bytes in 0.070 second response time
HTTPS CLARIN-D project wiki UP
HTTP OK: HTTP/1.1 301 Moved Permanently - 541 bytes in 0.016 second response time
Spacy (hosted by D4Science) - DE UP
HTTP OK: HTTP/1.1 200 OK - 3489 bytes in 0.211 second response time
NagVis access UP
HTTP OK: HTTP/1.1 302 Found - 1077 bytes in 0.023 second response time
BASWebService UP
clarin.phonetik.uni-muenchen.de
HTTP OK: HTTP/1.1 200 200 - 238465 bytes in 6.756 second response time
WebLicht POSTags Lemmas FR UP
HTTP OK: HTTP/1.1 302 Found - 1040 bytes in 0.090 second response time
NLP-HUB (multiple NER tools) UP
HTTP OK: HTTP/1.1 302 Found - 698 bytes in 0.197 second response time
WebLicht Morphology EN UP
HTTP OK: HTTP/1.1 302 Found - 1040 bytes in 0.070 second response time
WebLicht POSTags Lemmas EN UP
HTTP OK: HTTP/1.1 302 Found - 1040 bytes in 0.069 second response time
SRU/CQL-40 WARNING
SRU/CQL WARNING: XSD validation failed
HTTP UP
HTTP OK: HTTP/1.1 301 Moved Permanently - 552 bytes in 0.012 second response time
HTTP UP
HTTP OK: HTTP/1.1 301 Moved Permanently - 557 bytes in 0.071 second response time
CLARIN OAI-PMH Validator UP
HTTP OK: HTTP/1.1 200 OK - 588 bytes in 0.190 second response time
Automatic Transcription of Dutch Speech Recordings (Ogg file) UP
HTTP OK: HTTP/1.1 200 OK - 7889 bytes in 0.159 second response time
HTTP UP
HTTP OK: HTTP/1.1 301 Moved Permanently - 541 bytes in 0.054 second response time
Sonatype Nexus UP
HTTP OK: HTTP/1.1 200 OK - 3032 bytes in 0.069 second response time
OAI-PMH-47 WARNING
OAI-PMH WARNING: XSD validation failed
Spacy (hosted by D4Science) - EN UP
HTTP OK: HTTP/1.1 200 OK - 3352 bytes in 0.240 second response time
WebLicht NamedEntities DE UP
HTTP OK: HTTP/1.1 302 Found - 1040 bytes in 0.068 second response time
WebLicht NamedEntities EN UP
HTTP OK: HTTP/1.1 302 Found - 1040 bytes in 0.103 second response time
LINDAT Translation UP
HTTP OK: HTTP/1.1 200 OK - 15531 bytes in 0.082 second response time
WebLicht Dep Parsing DE UP
HTTP OK: HTTP/1.1 302 Found - 1040 bytes in 0.069 second response time
Concraft -> DependencyParser UP
HTTP OK: HTTP/1.1 200 OK - 8217 bytes in 0.133 second response time
HTTP CLARIN-D project wiki UP
HTTP OK: HTTP/1.1 302 Found - 509 bytes in 0.041 second response time
IMS Fedora Commons UP
HTTP OK: HTTP/1.1 200 OK - 4465 bytes in 0.124 second response time
Handle retrieve /10932/00-017B-E190-A83E-6F01-5 UP
HTTP OK: HTTP/1.1 302 - 546 bytes in 0.618 second response time
Handle resolve /10932/00-017B-E190-A83E-6F01-5?noredirect UP
HTTP OK: HTTP/1.1 200 - 2223 bytes in 1.672 second response time
Data from monitoring.clarin.eu
Unsere Diensteliste
Alpino

Alpino is a dependency parser for Dutch, developed in the context of the PIONIER Project Algorithms for Linguistic Processing, developed by Gertjan van Noord at the University of Groningen. You can upload either tokenised or untokenised files (which will be automatically tokenised for you using ucto), the output will consist of a zip file containing XML files, one for each sentence in the input document.
Kurzbeschreibung
Dokumentation
Beschreibung der Zielgruppe und ihrer Größe
Lizenzen
Dateiformate und Sprachen
- SprachenNiederländisch
- text/plainPlain-Text-Datei
- alpinooutput
- text/folia+xmlDatei im Format Format for Linguistic Annotation (FoLiA)
- tokoutput
Anwendungstyp
Datenblatt (Fact sheet)
Ansprechpartner
- technische*r Ansprechpartner*inproycon@anaproy.nl, Maarten van Gompel
Version
Kategorie
Unterkategorie
Datenübertragung: Verschlüsselung
Datenschutzrichtlinie
Authentifizierung
Anmeldebedingungen
Yes. Before tool use, please register at https://webservices-lst.science.ru.nl/register.
Autor*innen
Gertjan van Noord (University of Groningen), Maarten van Gompel (webservice only, CLST, Radboud University Nijmegen)
Hoster
Nutzungseinschränkungen für Nutzer*innen
zulässige Länder
Apache Stanbol Enhancer

Apache Stanbol provides a set of reusable components for semantic content management. A number of EnhancementEngines extract features from passed content, for details see https://stanbol.apache.org. The resulting RDF enhancements are returned in JSON format.
Kurzbeschreibung
Dokumentation
Beschreibung der Zielgruppe und ihrer Größe
Dateiformate und Sprachen
- SprachenEnglisch
- text/plainPlain-Text-Datei
- application/jsonJSON-Daten
Anwendungstyp
Datenblatt (Fact sheet)
Ansprechpartner
- technische*r Ansprechpartner*inacdh-tech@oeaw.ac.at, Matej Durco
Version
Kategorie
Unterkategorie
Datenübertragung: Verschlüsselung
Datenschutzrichtlinie
Authentifizierung
Autor*innen
Apache Foundation (software), Austrian Centre of Digital Humanities (enhancement chains and configuration)
Hoster
Nutzungseinschränkungen für Nutzer*innen
zulässige Länder
Colibri Core (folia+xml)

Colibri core is an NLP tool as well as a C++ and Python library for working with basic linguistic constructions such as n-grams and skipgrams (i.e patte rns with one or more gaps, either of fixed or dynamic size) in a quick and memory-efficient way.
Kurzbeschreibung
Dokumentation
Beschreibung der Zielgruppe und ihrer Größe
Dateiformate und Sprachen
- SprachenNiederländisch, Englisch, Deutsch, Französisch, Spanisch, Portugiesisch, Friesisch
- text/folia+xmlDatei im Format Format for Linguistic Annotation (FoLiA)
- Tadpole Columned Output Format
- text/folia+xmlDatei im Format Format for Linguistic Annotation (FoLiA)
Anwendungstyp
Datenblatt (Fact sheet)
Ansprechpartner
- technische*r Ansprechpartner*inproycon@anaproy.nl, Maarten van Gompel
Version
Kategorie
Unterkategorie
Datenübertragung: Verschlüsselung
Datenschutzrichtlinie
Authentifizierung
Anmeldebedingungen
Yes. Before tool use, please register at https://webservices-lst.science.ru.nl/register.
Autor*innen
Maarten van Gompel, Ko van der Sloot (CLST, Radboud University Nijmegen)
Hoster
Nutzungseinschränkungen für Nutzer*innen
zulässige Länder
Colibri Core (plain text)

Colibri core is an NLP tool as well as a C++ and Python library for working with basic linguistic constructions such as n-grams and skipgrams (i.e patterns with one or more gaps, either of fixed or dynamic size) in a quick and memory-efficient way.
Kurzbeschreibung
Dokumentation
Beschreibung der Zielgruppe und ihrer Größe
Lizenzen
Dateiformate und Sprachen
- SprachenNiederländisch, Englisch, Deutsch, Französisch, Spanisch, Portugiesisch, Friesisch
- text/plainPlain-Text-Datei
- Tadpole Columned Output Format
- text/folia+xmlDatei im Format Format for Linguistic Annotation (FoLiA)
Anwendungstyp
Datenblatt (Fact sheet)
Ansprechpartner
- technische*r Ansprechpartner*inproycon@anaproy.nl, Maarten van Gompel
Version
Kategorie
Unterkategorie
Datenübertragung: Verschlüsselung
Datenschutzrichtlinie
Authentifizierung
Anmeldebedingungen
Yes. Before tool use, please register at https://webservices-lst.science.ru.nl/register.
Autor*innen
Maarten van Gompel (CLST, Radboud University Nijmegen)
Hoster
Nutzungseinschränkungen für Nutzer*innen
zulässige Länder
Collection Registry
Collection Registry - dient als Katalog von Sammlungen, die im Rahmen von Forschungsprojekten entstanden sind oder als Grundlage für diese dienen. - verknüpft Daten, deren Datenmodelle und die Beschreibung einer Sammlung zur technischen Wiederverwendung durch Dienste wie Such- oder Analysewerkzeuge. - dient auch der Verwaltung von Sammlungsbeschreibungen. Dazu können neben digital zugänglichen auch analoge, geschützte oder Offline-Sammlungen gehören.
Der Zweck der Collection Registry ist
- verteilte Sammlungen an einer Stelle zu beschreiben und sie gemeinsam in anderen Diensten (z.B. Generische Suche, Cosmotool) zu bearbeiten.
- Sammlungen, die sonst nur schwer auffindbar sind, im Sammlungsregister sichtbar zu machen.
- eigene Sammlungen zu dokumentieren und für andere Wissenschaftler nachweisbar zu machen.
- um relevante Sammlungen im Sinne eines internen Katalogs verwalten zu können.
Kurzbeschreibung
Dokumentation
Beschreibung der Zielgruppe und ihrer Größe
Dateiformate und Sprachen
- SprachenDeutsch
- application/xmlXTML-Datei, Schema
- json, application/xml
Anwendungstyp
Datenblatt (Fact sheet)
Ansprechpartner
- technische*r Ansprechpartner*intobias.gradl@uni-bamberg.de, Tobias Gradl (Developer)
Version
Kategorie
Unterkategorie
Datenübertragung: Verschlüsselung
Datenschutzrichtlinie
Authentifizierung
Hoster
Nutzungseinschränkungen für Nutzer*innen
zulässige Länder
Concraft

Morphosyntactic tagger for Polish based on constrained conditional random fields. Part of: Multiservice, a robust linguistic Web service for Polish.
Kurzbeschreibung
Dokumentation
Beschreibung der Zielgruppe und ihrer Größe
Dateiformate und Sprachen
- SprachenPolnisch
- text/plainPlain-Text-Datei
- text/htmlHTML-Datei
- application/jsonJSON-Daten
- CoNLL format
- Visualization
Anwendungstyp
Datenblatt (Fact sheet)
Ansprechpartner
- technische*r Ansprechpartner*inrjawor@amu.edu.pl, MultiService
Version
Kategorie
Unterkategorie
Datenübertragung: Verschlüsselung
Datenschutzrichtlinie
Authentifizierung
Autor*innen
Institute of Computer Science, Polish Academy of Sciences, Poland
Hoster
Nutzungseinschränkungen für Nutzer*innen
zulässige Länder
Concraft -> Bartek

A statistical tool chain for performing Coreference Resolution. Part of: Multiservice, a robust linguistic Web service for Polish.
Kurzbeschreibung
Dokumentation
Beschreibung der Zielgruppe und ihrer Größe
Dateiformate und Sprachen
- SprachenPolnisch
- text/plainPlain-Text-Datei
- text/htmlHTML-Datei
- application/jsonJSON-Daten
- CoNLL format
- Visualization
Anwendungstyp
Datenblatt (Fact sheet)
Ansprechpartner
- technische*r Ansprechpartner*inrjawor@amu.edu.pl, MultiService
Version
Kategorie
Unterkategorie
Datenübertragung: Verschlüsselung
Datenschutzrichtlinie
Authentifizierung
Autor*innen
Institute of Computer Science, Polish Academy of Sciences, Poland
Hoster
Nutzungseinschränkungen für Nutzer*innen
zulässige Länder
Concraft -> Bartek -> NicolasSummarizer

Java coreference-based summarization tool; its creation was cofunded by the European Union from resources of the European Social Fund -- Project PO KL 'Information technologies: Research and their interdisciplinary applications'. Part of: Multiservice, a robust linguistic Web service for Polish.
Kurzbeschreibung
Dokumentation
Beschreibung der Zielgruppe und ihrer Größe
Dateiformate und Sprachen
- SprachenPolnisch
- text/plainPlain-Text-Datei
- text/htmlHTML-Datei
- application/jsonJSON-Daten
- CoNLL format
- Visualization
Anwendungstyp
Datenblatt (Fact sheet)
Ansprechpartner
- technische*r Ansprechpartner*inrjawor@amu.edu.pl, MultiService
Version
Kategorie
Unterkategorie
Datenübertragung: Verschlüsselung
Datenschutzrichtlinie
Authentifizierung
Autor*innen
Institute of Computer Science, Polish Academy of Sciences, Poland
Hoster
Nutzungseinschränkungen für Nutzer*innen
zulässige Länder
Concraft -> DependencyParser

The Polish dependency parser is trained on the extended version of the Polish dependency treebank (Składnica zależnościowa) with the publicly available parsing systems – MaltParser or MateParser. MaltParser is a transition-based dependency parser that uses a deterministic parsing algorithm. The deterministic parsing algorithm builds a dependency structure of an input sentence based on transitions (shift-reduce actions) predicted by a classifier. The classifier learns to predict the next transition given training data and the parse history. MateParser, in turn, is a graph-based parser that defines a space of well-formed candidate dependency trees for an input sentence, scores them given an induced parsing model, and selects the highest scoring dependency tree as a correct analysis of the input sentence. Part of: Multiservice, a robust linguistic Web service for Polish.
Kurzbeschreibung
Dokumentation
Beschreibung der Zielgruppe und ihrer Größe
Dateiformate und Sprachen
- SprachenPolnisch
- text/plainPlain-Text-Datei
- text/htmlHTML-Datei
- application/jsonJSON-Daten
- CoNLL format
- Visualization
Anwendungstyp
Datenblatt (Fact sheet)
Ansprechpartner
- technische*r Ansprechpartner*inrjawor@amu.edu.pl, MultiService
Version
Kategorie
Unterkategorie
Datenübertragung: Verschlüsselung
Datenschutzrichtlinie
Authentifizierung
Autor*innen
Institute of Computer Science, Polish Academy of Sciences, Poland
Hoster
Nutzungseinschränkungen für Nutzer*innen
zulässige Länder
Concraft -> Nerf

Statistical named entity recognition tool based on linear-chain conditional random fields. Part of: Multiservice, a robust linguistic Web service for Polish.
Kurzbeschreibung
Dokumentation
Beschreibung der Zielgruppe und ihrer Größe
Dateiformate und Sprachen
- SprachenPolnisch
- text/plainPlain-Text-Datei
- text/htmlHTML-Datei
- application/jsonJSON-Daten
- CoNLL format
- Visualization
Anwendungstyp
Datenblatt (Fact sheet)
Ansprechpartner
- technische*r Ansprechpartner*inrjawor@amu.edu.pl, MultiService
Version
Kategorie
Unterkategorie
Datenübertragung: Verschlüsselung
Datenschutzrichtlinie
Authentifizierung
Autor*innen
Institute of Computer Science, Polish Academy of Sciences, Poland
Hoster
Nutzungseinschränkungen für Nutzer*innen
zulässige Länder
Concraft -> Sentipejd

A morphosyntactic tagger extended with a semantic category, expressing properties of positive or negative sentiment. Part of: Multiservice, a robust linguistic Web service for Polish.
Kurzbeschreibung
Dokumentation
Beschreibung der Zielgruppe und ihrer Größe
Dateiformate und Sprachen
- SprachenPolnisch
- text/plainPlain-Text-Datei
- text/htmlHTML-Datei
- application/jsonJSON-Daten
- CoNLL format
- Visualization
Anwendungstyp
Datenblatt (Fact sheet)
Ansprechpartner
- technische*r Ansprechpartner*inrjawor@amu.edu.pl, MultiService
Version
Kategorie
Unterkategorie
Datenübertragung: Verschlüsselung
Datenschutzrichtlinie
Authentifizierung
Autor*innen
Institute of Computer Science, Polish Academy of Sciences, Poland
Hoster
Nutzungseinschränkungen für Nutzer*innen
zulässige Länder
Concraft->Spejd

Tool for partial parsing and rule-based morphosyntactic disambiguation. Part of: Multiservice, a robust linguistic Web service for Polish.
Kurzbeschreibung
Dokumentation
Beschreibung der Zielgruppe und ihrer Größe
Dateiformate und Sprachen
- SprachenPolnisch
- text/plainPlain-Text-Datei
- text/htmlHTML-Datei
- application/jsonJSON-Daten
- CoNLL format
- Visualization
Anwendungstyp
Datenblatt (Fact sheet)
Ansprechpartner
- technische*r Ansprechpartner*inrjawor@amu.edu.pl, MultiService
Version
Kategorie
Unterkategorie
Datenübertragung: Verschlüsselung
Datenschutzrichtlinie
Authentifizierung
Autor*innen
Institute of Computer Science, Polish Academy of Sciences, Poland
Hoster
Nutzungseinschränkungen für Nutzer*innen
zulässige Länder
ConedaKOR
ConedaKOR erleichtert die Verwaltung und Präsentation akademischer Sammlungen von Objekten aus den bildbasierten Kultur- und Geisteswissenschaften. Sie erlaubt es, beliebige Dokumente zu speichern und sie mit Beziehungen zu verknüpfen. Sie können riesige semantische Netzwerke für eine unbegrenzte Anzahl von Domänen aufbauen. ConedaKOR integriert ein hochentwickeltes Ontologie-Verwaltungstool mit einer einfach zu bedienenden Mediendatenbank.
Kurzbeschreibung
Dokumentation
- User Guide (Sprache: Deutsch)
- Tutorium (Sprache: Englisch)
- Handbuch (Sprache: Englisch)
- Beispiel
Beschreibung der Zielgruppe und ihrer Größe
Dateiformate und Sprachen
Anwendungstyp
Netzwerk- bzw. Sicherheitsanforderungen
- Arbeitsspeicherbedarf4GB
- Prozessor2
Entwicklerdokumentation
Datenblatt (Fact sheet)
Ansprechpartner
- technische*r Ansprechpartner*ininfo@coneda.net, info@wendig.io, info@daasi.de, info@de.dariah.eu, Moritz Schepp (Developer)
- inhaltliche*r Ansprechpartner*ininfo@wendig.io
Version
Kategorie
Unterkategorie
Quellcode verfügbar
Datenschutzrichtlinie
Authentifizierung
Autor*innen
- Coneda UG in Frankfurt, GitHub
- Moritz Schepp
- Thorsten Wübbena [ORCID, VIAF, GND]
Hoster
Teil einer Anwendungssuite
Nutzungseinschränkungen für Nutzer*innen
zulässige Länder
COSMAS II
COSMAS II ist eine am IDS konzipierte Datenbank (Corpus Search, Management and Analysis System) für die korpusbasierte Erforschung der Sprache
- in umfangreichen Korpora (über 13 Mrd. Wortformen, zur Verfügung gestellt vom Projekt DEREKO);
- in linguistisch und strukturell annotierten Korpora; z.B. Wortklassen (über 1,7 Mrd. Nomen), Überschriften etc.;
- in benutzerdefinierten Korpusquerschnitten (anhand von bis zu acht bibliografischen Kriterien);
- in unterschiedlichen Sprachkorpora mit eigenen Tagsets, die in einem grafischen Assistenten eingebettet sind;
- mittels zahlreicher Such-, Abstands- und Bereichsoperatoren, die einfache bis komplexe Sachverhalte bzw. grammatikalische Muster formulieren können.
Die Ergebnisse werden
- anhand von bibliografischen Kriterien zusammengefasst und sortiert;
- mittels Häufigkeitsmaßen in Bezug auf ihre Verteilung bewertet;
- mittels einer Kookkurrenzanalyse analysiert, sortiert und tabellarisch dargestellt;
- als KWIC und Belege sortiert, analysiert und präsentiert;
- (auf Wunsch) mittels eines Zufallsgenerators auf eine repräsentative überschaubare Menge reduziert.
Kurzbeschreibung
Dokumentation
Beschreibung der Zielgruppe und ihrer Größe
Dateiformate und Sprachen
- text/plain+cosmas2Cosmas II Anfrage
- application/rtf
- text/plainPlain-Text-Datei
Lokalisierung
Anwendungstyp
Entwicklerdokumentation
Datenblatt (Fact sheet)
Ansprechpartner
- technische*r Ansprechpartner*incosmas2@ids-mannheim.de, https://www.ids-mannheim.de/cosmas2/
- inhaltliche*r Ansprechpartner*incosmas@ids-mannheim.de, https://www.ids-mannheim.de/cosmas2/
Version
Kategorie
Unterkategorie
Datenübertragung: Verschlüsselung
Datenschutzrichtlinie
Authentifizierung
Autor*innen
Hoster
Nutzungseinschränkungen für Nutzer*innen
CosmoTool
CosmoTool ist ein digitales Werkzeug, das biographische Informationen aus verschiedenen Quellen zu inter- und nationalen Bewegungsprofilen historischer Persönlichkeiten kombiniert. Daraus sollen Rückschlüsse auf Merkmale und Regeln gezogen werden, die als internationale Kriterien angesehen werden können. Das CosmoTool basiert auf der Verbandsarchitektur von DARIAH-DE und erlaubt die Extraktion von Daten aus unstrukturiertem Text. Zur Zeit befindet sich CosmoTool in der Entwicklungsphase und bietet noch eingeschränkte Funktionalität.
Kurzbeschreibung
Dokumentation
Beschreibung der Zielgruppe und ihrer Größe
Dateiformate und Sprachen
- SprachenDeutsch
- application/xmlXTML-Datei
- json
- txt/csv
- json
Anwendungstyp
Datenblatt (Fact sheet)
Ansprechpartner
- technische*r Ansprechpartner*intobias.gradl@uni-bamberg.de, Tobias Gradl (Developer)
Version
Kategorie
Unterkategorie
Datenübertragung: Verschlüsselung
Datenschutzrichtlinie
Authentifizierung
Hoster
Nutzungseinschränkungen für Nutzer*innen
zulässige Länder
CSTLemma (hosted by D4Science)

This is an experimental integration of a D4Science NLP processing service (CSTLemma). The CSTLemma Lemmatizer for English reduces all words in a text to their base form, the lemma.
Kurzbeschreibung
Dokumentation
Beschreibung der Zielgruppe und ihrer Größe
Dateiformate und Sprachen
- SprachenEnglisch
- text/plainPlain-Text-Datei
- text/csvTabularische Daten, kommasepariert
Anwendungstyp
Datenblatt (Fact sheet)
Ansprechpartner
- technische*r Ansprechpartner*inswitchboard@clarin.eu, D4Science Support
Version
Kategorie
Unterkategorie
Datenübertragung: Verschlüsselung
Datenschutzrichtlinie
Authentifizierung
Autor*innen
Bart Jongejan (tool), D4Science staff (WAR upload)
Hoster
Nutzungseinschränkungen für Nutzer*innen
zulässige Länder
Cyril Belica: Kookkurrenzdatenbank CCDB
Vor dem Hintergrund eines korpusgeleiteten empirisch-linguistischen Ansatzes ist es von grundlegender Bedeutung, eine wissenschaftsmethodisch kohärente Methodik zu konzipieren, die es ermöglicht, die im Sprachgebrauch manifesten emergenten Strukturen systematisch aufzudecken, zu inventarisieren, zu interpretieren und theoretisch zu begründen. Als empirische Basis für dieses Forschungsvorhaben wurde im Programmbereich Korpuslinguistik des Leibniz-Instituts für Deutsche Sprache auf der Grundlage eines Korpus geschriebener Gegenwartssprache von ca. 2,2 Milliarden laufenden Textwörtern eine große Sammlung von Kookkurrenzprofilen zu ca. 220.000 verschiedenen Lemmata aufgebaut. Die Sammlung enthält zu jedem Lemma die Ergebnisse von bis zu fünf verschiedenen Kookkurrenzanalysen in Form von Hierarchien von ähnlichen Verwendungen, mit bis zu 100.000 Verwendungsbeispielen pro Lemma und Analyse.
Durch die explorative Analyse dieses Sprachmaterials geleitet bemühen wir uns, neue Einsichten in die Strukturen, Gesetzmäßigkeiten, Eigenschaften und Funktionen von Sprache zu erlangen. Derzeit konzentrieren wir uns dabei auf Themenbereiche wie Ähnlichkeit von Kookkurrenzprofilen und semantische Nähe, auf die Wechselbeziehungen zwischen lokalen, lexikalischen und globalen, situativen Kontexten und auf diverse Untersuchungen zur Quasisynonymie.
Über diese Webseite möchten wir Teile unserer Denk- und Experimentierplattform im Sinne eines "gläsernen Labors" auch allen interessierten Fachkollegen zugänglich machen.
Kurzbeschreibung
Dokumentation
Beschreibung der Zielgruppe und ihrer Größe
Dateiformate und Sprachen
- text/plain; format-variant=ccdbCCDB Anfrage
- image/svg+xml
- image/x-wmf
- text/htmlHTML-Datei
Lokalisierung
Anwendungstyp
Entwicklerdokumentation
Datenblatt (Fact sheet)
Ansprechpartner
- technische*r Ansprechpartner*inbelica@ids-mannheim.de, http://corpora.ids-mannheim.de/ccdb/
- inhaltliche*r Ansprechpartner*inbelica@ids-mannheim.de, http://corpora.ids-mannheim.de/ccdb/
Version
Kategorie
Unterkategorie
Datenübertragung: Verschlüsselung
Datenschutzrichtlinie
Authentifizierung
Autor*innen
Hoster
Nutzungseinschränkungen für Nutzer*innen
D4Science NER (GATE's Annie)

This is an experimental integration of a D4Science NLP processing service (based on GATE's ANNIE). This service identifies names of persons, locations, organizations, as well as money amounts, time and date expressions in English texts automatically.
Kurzbeschreibung
Dokumentation
Beschreibung der Zielgruppe und ihrer Größe
Dateiformate und Sprachen
- SprachenEnglisch
- text/plainPlain-Text-Datei
- application/xmlXTML-Datei
Anwendungstyp
Datenblatt (Fact sheet)
Ansprechpartner
- technische*r Ansprechpartner*inswitchboard@clarin.eu, D4Science Support
Version
Kategorie
Unterkategorie
Datenübertragung: Verschlüsselung
Datenschutzrichtlinie
Authentifizierung
Autor*innen
D4Science staff
Hoster
Nutzungseinschränkungen für Nutzer*innen
zulässige Länder
DARIAH DKPro-Wrapper: Constituency Parsing DE
Der DARIAH DKPro Wrapper ist ein Wrapper für DKPro Core, einem Werkzeug für linguistische Annotation.
Kurzbeschreibung
Dokumentation
- User Guide (Sprache: Deutsch)
- Tutorium (Sprache: Englisch)
- Handbuch (Sprache: Englisch)
- Beispiel
Beschreibung der Zielgruppe und ihrer Größe
Dateiformate und Sprachen
- SprachenDeutsch
- text/plainPlain-Text-Datei
- text/xmlXML-Datei
- text/csvTabularische Daten, kommasepariert
Anwendungstyp
Netzwerk- bzw. Sicherheitsanforderungen
- Arbeitsspeicherbedarf4GB
- LaufzeitumgebungJava 1.8 or higher, 64bit
Entwicklerdokumentation
Datenblatt (Fact sheet)
Ansprechpartner
- technische*r Ansprechpartner*ininfo@de.dariah.eu
Version
Kategorie
Unterkategorie
Quellcode verfügbar
Datenschutzrichtlinie
Authentifizierung
Autor*innen
Hoster
Teil einer Anwendungssuite
Nutzungseinschränkungen für Nutzer*innen
zulässige Länder
DARIAH DKPro-Wrapper: Constituency Parsing EN
Der DARIAH DKPro Wrapper ist ein Wrapper für DKPro Core, einem Werkzeug für linguistische Annotation.
Kurzbeschreibung
Dokumentation
- User Guide (Sprache: Deutsch)
- Tutorium (Sprache: Englisch)
- Handbuch (Sprache: Englisch)
- Beispiel
Beschreibung der Zielgruppe und ihrer Größe
Dateiformate und Sprachen
- SprachenEnglisch
- text/plainPlain-Text-Datei
- text/xmlXML-Datei
- text/csvTabularische Daten, kommasepariert
Anwendungstyp
Netzwerk- bzw. Sicherheitsanforderungen
- Arbeitsspeicherbedarf4GB
- LaufzeitumgebungJava 1.8 or higher, 64bit
Entwicklerdokumentation
Datenblatt (Fact sheet)
Ansprechpartner
- technische*r Ansprechpartner*ininfo@de.dariah.eu
Version
Kategorie
Unterkategorie
Quellcode verfügbar
Datenschutzrichtlinie
Authentifizierung
Autor*innen
Hoster
Teil einer Anwendungssuite
Nutzungseinschränkungen für Nutzer*innen
zulässige Länder
DARIAH DKPro-Wrapper: Depency Parsing DE
Der DARIAH DKPro Wrapper ist ein Wrapper für DKPro Core, einem Werkzeug für linguistische Annotation.
Kurzbeschreibung
Dokumentation
- User Guide (Sprache: Deutsch)
- Tutorium (Sprache: Englisch)
- Handbuch (Sprache: Englisch)
- Beispiel
Beschreibung der Zielgruppe und ihrer Größe
Dateiformate und Sprachen
- SprachenDeutsch
- text/plainPlain-Text-Datei
- text/xmlXML-Datei
- text/csvTabularische Daten, kommasepariert
Anwendungstyp
Netzwerk- bzw. Sicherheitsanforderungen
- Arbeitsspeicherbedarf4GB
- LaufzeitumgebungJava 1.8 or higher, 64bit
Entwicklerdokumentation
Datenblatt (Fact sheet)
Ansprechpartner
- technische*r Ansprechpartner*ininfo@de.dariah.eu
Version
Kategorie
Unterkategorie
Quellcode verfügbar
Datenschutzrichtlinie
Authentifizierung
Autor*innen
Hoster
Teil einer Anwendungssuite
Nutzungseinschränkungen für Nutzer*innen
zulässige Länder
DARIAH DKPro-Wrapper: Depency Parsing EN
Der DARIAH DKPro Wrapper ist ein Wrapper für DKPro Core, einem Werkzeug für linguistische Annotation.
Kurzbeschreibung
Dokumentation
- User Guide (Sprache: Deutsch)
- Tutorium (Sprache: Englisch)
- Handbuch (Sprache: Englisch)
- Beispiel
Beschreibung der Zielgruppe und ihrer Größe
Dateiformate und Sprachen
- SprachenEnglisch
- text/plainPlain-Text-Datei
- text/xmlXML-Datei
- text/csvTabularische Daten, kommasepariert
Anwendungstyp
Netzwerk- bzw. Sicherheitsanforderungen
- Arbeitsspeicherbedarf4GB
- LaufzeitumgebungJava 1.8 or higher, 64bit
Entwicklerdokumentation
Datenblatt (Fact sheet)
Ansprechpartner
- technische*r Ansprechpartner*ininfo@de.dariah.eu
Version
Kategorie
Unterkategorie
Quellcode verfügbar
Datenschutzrichtlinie
Authentifizierung
Autor*innen
Hoster
Teil einer Anwendungssuite
Nutzungseinschränkungen für Nutzer*innen
zulässige Länder
DARIAH DKPro-Wrapper: Hyphenation DE
Der DARIAH DKPro Wrapper ist ein Wrapper für DKPro Core, einem Werkzeug für linguistische Annotation.
Kurzbeschreibung
Dokumentation
- User Guide (Sprache: Deutsch)
- Tutorium (Sprache: Englisch)
- Handbuch (Sprache: Englisch)
- Beispiel
Beschreibung der Zielgruppe und ihrer Größe
Dateiformate und Sprachen
- SprachenDeutsch
- text/plainPlain-Text-Datei
- text/xmlXML-Datei
- text/csvTabularische Daten, kommasepariert
Anwendungstyp
Netzwerk- bzw. Sicherheitsanforderungen
- Arbeitsspeicherbedarf4GB
- LaufzeitumgebungJava 1.8 or higher, 64bit
Entwicklerdokumentation
Datenblatt (Fact sheet)
Ansprechpartner
- technische*r Ansprechpartner*ininfo@de.dariah.eu
Version
Kategorie
Unterkategorie
Quellcode verfügbar
Datenschutzrichtlinie
Authentifizierung
Autor*innen
Hoster
Teil einer Anwendungssuite
Nutzungseinschränkungen für Nutzer*innen
zulässige Länder
DARIAH DKPro-Wrapper: Hyphenation EN
Der DARIAH DKPro Wrapper ist ein Wrapper für DKPro Core, einem Werkzeug für linguistische Annotation.
Kurzbeschreibung
Dokumentation
- User Guide (Sprache: Deutsch)
- Tutorium (Sprache: Englisch)
- Handbuch (Sprache: Englisch)
- Beispiel
Beschreibung der Zielgruppe und ihrer Größe
Dateiformate und Sprachen
- SprachenEnglisch
- text/plainPlain-Text-Datei
- text/xmlXML-Datei
- text/csvTabularische Daten, kommasepariert
Anwendungstyp
Netzwerk- bzw. Sicherheitsanforderungen
- Arbeitsspeicherbedarf4GB
- LaufzeitumgebungJava 1.8 or higher, 64bit
Entwicklerdokumentation
Datenblatt (Fact sheet)
Ansprechpartner
- technische*r Ansprechpartner*ininfo@de.dariah.eu
Version
Kategorie
Unterkategorie
Quellcode verfügbar
Datenschutzrichtlinie
Authentifizierung
Autor*innen
Hoster
Teil einer Anwendungssuite
Nutzungseinschränkungen für Nutzer*innen
zulässige Länder
DARIAH DKPro-Wrapper: Named Entity Recognition DE
Der DARIAH DKPro Wrapper ist ein Wrapper für DKPro Core, einem Werkzeug für linguistische Annotation.
Kurzbeschreibung
Dokumentation
- User Guide (Sprache: Deutsch)
- Tutorium (Sprache: Englisch)
- Handbuch (Sprache: Englisch)
- Beispiel
Beschreibung der Zielgruppe und ihrer Größe
Dateiformate und Sprachen
- SprachenDeutsch
- text/plainPlain-Text-Datei
- text/xmlXML-Datei
- text/csvTabularische Daten, kommasepariert
Anwendungstyp
Netzwerk- bzw. Sicherheitsanforderungen
- Arbeitsspeicherbedarf4GB
- LaufzeitumgebungJava 1.8 or higher, 64bit
Entwicklerdokumentation
Datenblatt (Fact sheet)
Ansprechpartner
- technische*r Ansprechpartner*ininfo@de.dariah.eu
Version
Kategorie
Unterkategorie
Quellcode verfügbar
Datenschutzrichtlinie
Authentifizierung
Autor*innen
Hoster
Teil einer Anwendungssuite
Nutzungseinschränkungen für Nutzer*innen
zulässige Länder
DARIAH DKPro-Wrapper: Named Entity Recognition EN
Der DARIAH DKPro Wrapper ist ein Wrapper für DKPro Core, einem Werkzeug für linguistische Annotation.
Kurzbeschreibung
Dokumentation
- User Guide (Sprache: Deutsch)
- Tutorium (Sprache: Englisch)
- Handbuch (Sprache: Englisch)
- Beispiel
Beschreibung der Zielgruppe und ihrer Größe
Dateiformate und Sprachen
- SprachenEnglisch
- text/plainPlain-Text-Datei
- text/xmlXML-Datei
- text/csvTabularische Daten, kommasepariert
Anwendungstyp
Netzwerk- bzw. Sicherheitsanforderungen
- Arbeitsspeicherbedarf4GB
- LaufzeitumgebungJava 1.8 or higher, 64bit
Entwicklerdokumentation
Datenblatt (Fact sheet)
Ansprechpartner
- technische*r Ansprechpartner*ininfo@de.dariah.eu
Version
Kategorie
Unterkategorie
Quellcode verfügbar
Datenschutzrichtlinie
Authentifizierung
Autor*innen
Hoster
Teil einer Anwendungssuite
Nutzungseinschränkungen für Nutzer*innen
zulässige Länder
DARIAH DKPro-Wrapper: POS-Tagging und Lemmatization DE
Der DARIAH DKPro Wrapper ist ein Wrapper für DKPro Core, einem Werkzeug für linguistische Annotation.
Kurzbeschreibung
Dokumentation
- User Guide (Sprache: Deutsch)
- Tutorium (Sprache: Englisch)
- Handbuch (Sprache: Englisch)
- Beispiel
Beschreibung der Zielgruppe und ihrer Größe
Dateiformate und Sprachen
- SprachenDeutsch
- text/plainPlain-Text-Datei
- text/xmlXML-Datei
- text/csvTabularische Daten, kommasepariert
Anwendungstyp
Netzwerk- bzw. Sicherheitsanforderungen
- Arbeitsspeicherbedarf4GB
- LaufzeitumgebungJava 1.8 or higher, 64bit
Entwicklerdokumentation
Datenblatt (Fact sheet)
Ansprechpartner
- technische*r Ansprechpartner*ininfo@de.dariah.eu
Version
Kategorie
Unterkategorie
Quellcode verfügbar
Datenschutzrichtlinie
Authentifizierung
Autor*innen
Hoster
Teil einer Anwendungssuite
Nutzungseinschränkungen für Nutzer*innen
zulässige Länder
DARIAH DKPro-Wrapper: POS-Tagging und Lemmatization EN
Der DARIAH DKPro Wrapper ist ein Wrapper für DKPro Core, einem Werkzeug für linguistische Annotation.
Kurzbeschreibung
Dokumentation
- User Guide (Sprache: Deutsch)
- Tutorium (Sprache: Englisch)
- Handbuch (Sprache: Englisch)
- Beispiel
Beschreibung der Zielgruppe und ihrer Größe
Dateiformate und Sprachen
- SprachenEnglisch
- text/plainPlain-Text-Datei
- text/xmlXML-Datei
- text/csvTabularische Daten, kommasepariert
Anwendungstyp
Netzwerk- bzw. Sicherheitsanforderungen
- Arbeitsspeicherbedarf4GB
- LaufzeitumgebungJava 1.8 or higher, 64bit
Entwicklerdokumentation
Datenblatt (Fact sheet)
Ansprechpartner
- technische*r Ansprechpartner*ininfo@de.dariah.eu
Version
Kategorie
Unterkategorie
Quellcode verfügbar
Datenschutzrichtlinie
Authentifizierung
Autor*innen
Hoster
Teil einer Anwendungssuite
Nutzungseinschränkungen für Nutzer*innen
zulässige Länder
DARIAH-DE GeoBrowser
Der DARIAH-DE Geo-Browser ermöglicht eine vergleichende Visualisierung mehrerer Abfragen und erleichtert die Darstellung von Daten und deren Visualisierung in einer Korrelation von geographischen Raumbeziehungen zu entsprechenden Zeitpunkten und Sequenzen.
Kurzbeschreibung
Dokumentation
Beschreibung der Zielgruppe und ihrer Größe
Dateiformate und Sprachen
- SprachenDeutsch, Englisch
- text/csvTabularische Daten, kommasepariert
- application/vnd.google-earth.kml+xml
- application/vnd.google-earth.kmz
Anwendungstyp
Datenblatt (Fact sheet)
Ansprechpartner
- technische*r Ansprechpartner*infunk@sub.uni-goettingen.de, veentjer@sub.uni-goettingen.de,
Version
Kategorie
Unterkategorie
Datenübertragung: Verschlüsselung
Datenschutzrichtlinie
Authentifizierung
Autor*innen
- DARIAH-DE Association, Responsibilities
- Ubbo Veentjer
- Stefan Funnk
Hoster
- SUB, Göttingen Germany
- GWDG, Göttingen Germany
Teil einer Anwendungssuite
Nutzungseinschränkungen für Nutzer*innen
zulässige Länder
DARIAH-DE Publikator
Kurzbeschreibung
Dokumentation
Beschreibung der Zielgruppe und ihrer Größe
Dateiformate und Sprachen
Lokalisierung
Anwendungstyp
Entwicklerdokumentation
Datenblatt (Fact sheet)
Ansprechpartner
- technische*r Ansprechpartner*insupport@de.dariah.eu,
- inhaltliche*r Ansprechpartner*insupport@de.dariah.eu, https://de.dariah.eu,
Version
Kategorie
Unterkategorie
Datenschutzrichtlinie
Authentifizierung
Autor*innen
Hoster
- Göttingen State and University Library (SUB), Göttingen Germany
- Gesellschaft für wissenschaftliche Datenverarbeitung mbH Göttingen (GWDG), Göttingen Germany
Nutzungseinschränkungen für Nutzer*innen
zulässige Länder
DARIAH-DE Repository
Der Einstiegspunkt zum Einspielen von Kollektionen und Daten in das DARIAH-DE Repository ist der DARIAH-DE Publikator, der Ihnen die Möglichkeit bietet, Ihre Kollektionen für einen Import in das DARIAH-DE Repository vorzubereiten, zu verwalten, und diese schließlich in das Repository einzuspielen.
Kurzbeschreibung
Dokumentation
Beschreibung der Zielgruppe und ihrer Größe
Dateiformate und Sprachen
- application/xml+tei
- text/plainPlain-Text-Datei
- application/epub+zip
- text/htmlHTML-Datei
- application/zipZIP-Archiv
Anwendungstyp
Entwicklerdokumentation
Datenblatt (Fact sheet)
Ansprechpartner
- technische*r Ansprechpartner*insupport@de.dariah.eu,
- inhaltliche*r Ansprechpartner*insupport@de.dariah.eu, https://de.dariah.eu,
Version
Kategorie
Unterkategorie
Datenschutzrichtlinie
Authentifizierung
Autor*innen
Hoster
- Göttingen State and University Library (SUB), Göttingen Germany
- Gesellschaft für wissenschaftliche Datenverarbeitung mbH Göttingen (GWDG), Göttingen Germany
Nutzungseinschränkungen für Nutzer*innen
zulässige Länder
Data Modelling Environment (DME)
Die Datenmodellierungsumgebung (DME) von DARIAH-DE ist ein Werkzeug zur Modellierung und Assoziierung von Daten. Eine wesentliche Besonderheit der DME ist die forschungsorientierte Ausrichtung und die zugrundeliegenden Konzepte für die Explikation von Domänenwissen.
Kurzbeschreibung
Dokumentation
Beschreibung der Zielgruppe und ihrer Größe
Lizenzen
Dateiformate und Sprachen
- SprachenDeutsch
- text/xmlXML-Datei
- text/json
- text/csvTabularische Daten, kommasepariert
- text/plainPlain-Text-Datei
- text/xmlXML-Datei
- text/json
- text/csvTabularische Daten, kommasepariert
- text/plainPlain-Text-Datei
Anwendungstyp
Datenblatt (Fact sheet)
Ansprechpartner
- technische*r Ansprechpartner*intobias.gradl@uni-bamberg.de, Tobias Gradl (Developer)
Version
Kategorie
Unterkategorie
Datenübertragung: Verschlüsselung
Datenschutzrichtlinie
Authentifizierung
Hoster
Nutzungseinschränkungen für Nutzer*innen
zulässige Länder
Deutsches Textarchiv

Das Deutsche Textarchiv stellt einen disziplinen- und gattungsübergreifenden Grundbestand deutschsprachiger Texte mit einem Schwerpunkt ab dem frühen 16. bis zum frühen 20. Jahrhundert bereit. Das DTA ist das größte Einzelkorpus historischer neuhochdeutscher Texte für den Zeitraum vom 16. bis zum frühen 20. Jahrhundert und umfasst mehr als 350 Millionen Marken auf 1,34 Millionen digitalisierten Seiten. Der Schwerpunkt des DTA liegt auf (digitalisierten) Druckschriften, doch umfasst das DTA auch eine wachsende Zahl handschriftlicher Dokumente. Zu den speziellen Teilkorpora gehören historische Zeitungen und andere Zeitschriften. Das DTA als Ganzes umfasst eine reiche Vielfalt von Belletristik und Sachbüchern, wobei letztere sowohl akademische als auch nicht-akademische Schriften umfassen.
Das DTA besteht aus dem sogenannten DTA-Kernkorpus (DTAK, "DTA-Kernkorpus") mit ca. 1500 Erstausgaben aus dem 16. bis 19. Jahrhundert.
Zusätzlich enthält das Modul DTA-Erweiterungen (DTAE) Fachkorpora und Einzeltexte, die im Rahmen von CLARIN-D und anderen Projekten kuratiert wurden.
Die von Digitalisierungsprojekten und anderen fachspezifischen Initiativen bereitgestellten Volltextquellen wurden (manuell oder halbautomatisch) in ein
TEI-kompatibles XML-Format nach den Richtlinien des DTA-Basisformats (DTABf, "DTA Base Format") konvertiert, einschließlich umfangreicher Metadaten zu den
Originalquellen und der Datenaufbereitung. OCR-Texte im DTA Core Corpus - sowie zahlreiche zusätzliche Textressourcen - wurden manuell korrigiert.
Ein kontinuierlicher Qualitätssicherungsprozess wird durch die kollaborative webbasierte Plattform DTAQ mit derzeit rund 2000 registrierten Benutzern ermöglicht.
Alle DTA-Korpora werden durch automatisierte computerlinguistische Analyseverfahren für den Nutzerkonsum aufbereitet. Dazu gehören nicht nur PoS-Tagging und
Lemmatisierung, sondern unter anderem auch die orthographische Normalisierung historischer Schreibvarianten, so dass die Nutzer Abfragen in moderner Orthographie
formulieren können.
Kurzbeschreibung
Dokumentation
Beschreibung der Zielgruppe und ihrer Größe
Dateiformate und Sprachen
Lokalisierung
Anwendungstyp
Netzwerk- bzw. Sicherheitsanforderungen
- BetriebssystemLinux
Datenblatt (Fact sheet)
Ansprechpartner
- technische*r Ansprechpartner*inwiegand@bbaw.de, Frank Wiegand (Developer)
- inhaltliche*r Ansprechpartner*inAlexander Geyken (Arbeitsstellenleiter Digitales Wörterbuch der deutschen Sprache) [GND]
Version
Kategorie
Unterkategorie
Datenübertragung: Verschlüsselung
Datenschutzrichtlinie
Authentifizierung
Hoster
Nutzungseinschränkungen für Nutzer*innen
zulässige Länder
Deutsches Textarchiv – Qualitätssicherung

Kollaborative Qualitätssicherung im Deutschen Textarchiv DTAQ (Deutsches Textarchiv – Qualitätssicherung) ist eine webbasierte Anwendung, um in XML/TEI-annotierten Textdigitalisaten verschiedene Arten von Fehlern zu finden, zu kategorisieren und zu korrigieren. Die Oberfläche von DTAQ ist durch jeden Nutzer individuell anpassbar, so dass verschiedene Ansichten der Quelldigitalisate und Texttranskriptionen einstellbar sind.
DTAQ ist nach der Registrierung frei für jeden nutzbar.
Kurzbeschreibung
Dokumentation
Beschreibung der Zielgruppe und ihrer Größe
Dateiformate und Sprachen
Lokalisierung
Anwendungstyp
Netzwerk- bzw. Sicherheitsanforderungen
- BetriebssystemLinux
Datenblatt (Fact sheet)
Ansprechpartner
- technische*r Ansprechpartner*inwiegand@bbaw.de, Frank Wiegand (Developer)
- inhaltliche*r Ansprechpartner*inAlexander Geyken (Arbeitsstellenleiter Digitales Wörterbuch der deutschen Sprache) [GND]
Version
Kategorie
Unterkategorie
Datenübertragung: Verschlüsselung
Datenschutzrichtlinie
Authentifizierung
Hoster
Nutzungseinschränkungen für Nutzer*innen
zulässige Länder
DGD – Datenbank für Gesprochenes Deutsch
Die DGD wird für Forschung und Lehre bereitgestellt. Das System ermöglicht Ihnen den Zugriff auf ausgewählte Korpora des Archivs für Gesprochenes Deutsch (AGD), u.a. auf:
-
das "Forschungs und Lehrkorpus gesprochenes Deutsch" (FOLK)
-
das Korpus "Deutsche Mundarten" (Zwirner-Korpus)
-
das Korpus "Deutsche Umgangssprachen" (Pfeffer-Korpus)
-
das Korpus "Gesprochene Wissenschaftssprache Kontrastiv" (GeWiss, GWSS)
-
das Korpus "Deutsch Heute" (DH)
Aus rechtlichen Gründen bitten wir Sie um eine einmalige kostenlose Registrierung.
Kurzbeschreibung
Dokumentation
Beschreibung der Zielgruppe und ihrer Größe
Dateiformate und Sprachen
- text/plain; format-variant=dgdDGD Suchanfrage
- text/csvTabularische Daten, kommasepariert
- application/xml; format-variant=elan-eafELAN-Annotations-Datei (*.eaf)
- application/xml; format-variant=exmaralda-exbEXMARaLDA-Basis-Transkription (*.exb)
Anwendungstyp
Datenblatt (Fact sheet)
Ansprechpartner
- technische*r Ansprechpartner*indgd@ids-mannheim.de
- inhaltliche*r Ansprechpartner*inThomas Schmidt (Transcription Expert) [ORCID, GND]
Version
Kategorie
Unterkategorie
Datenübertragung: Verschlüsselung
Datenschutzrichtlinie
Authentifizierung
Autor*innen
Hoster
Nutzungseinschränkungen für Nutzer*innen
DiaCollo

DiaCollo ist ein Werkzeug für das Auffinden von typischen Wortverbindungen (Kollokationen) zu einem Stichwort in einem bestimmten Zeitraum und die visuell aufbereitete Darstellung der Ergebnisse. Als Kollokation wird eine gemeinsame Verwendung zweier Inhaltswörter bezeichnet, wobei a) das gemeinsame Vorkommen in Texten auffällig, d.h. deutlich häufiger als statistisch erwartbar, ist, und b) die beiden Wörter in einer grammatischen Beziehung zueinander stehen, zum Beispiel als Nomen und modifizierendes Adjektiv (brennbare Flüssigkeit) oder als Koordination von zwei Nomen (Umwelt und Reaktorsicherheit). Eine Kollokation besteht aus einer Basis (auch Stichwort genannt) und einem Kollokator.
Kurzbeschreibung
Dokumentation
Beschreibung der Zielgruppe und ihrer Größe
Lizenzen
Dateiformate und Sprachen
Lokalisierung
Anwendungstyp
Netzwerk- bzw. Sicherheitsanforderungen
- BetriebssystemLinux
Entwicklerdokumentation
Datenblatt (Fact sheet)
Ansprechpartner
- technische*r Ansprechpartner*injurish@bbaw.de, Bryan Jurish (Developer) [GND]
- inhaltliche*r Ansprechpartner*inBryan Jurish (Linguist) [GND]
Wartungsdokumentation
Version
Kategorie
Unterkategorie
Quellcode verfügbar
Datenübertragung: Verschlüsselung
Datenschutzrichtlinie
Authentifizierung
Autor*innen
Hoster
Nutzungseinschränkungen für Nutzer*innen
zulässige Länder
Distanbol

Distanbol analyses texts semantically. For this, it passes the input text to an Apache Stanbol web service that executes a NLP chain yielding named entities. This is followed by Entity Linking on the text. The resulting enhancements are rendered as human-readable HTML-page. In short, Distanbol is adding a human-readable rendering to the JSON-LD output produced by Stanbol.
Kurzbeschreibung
Dokumentation
Beschreibung der Zielgruppe und ihrer Größe
Dateiformate und Sprachen
- SprachenEnglisch
- text/plainPlain-Text-Datei
- application/xhtml+xmlXHTML-Datei
Anwendungstyp
Datenblatt (Fact sheet)
Ansprechpartner
- technische*r Ansprechpartner*inacdh-tech@oeaw.ac.at, Matej Durco
Version
Kategorie
Unterkategorie
Datenübertragung: Verschlüsselung
Datenschutzrichtlinie
Authentifizierung
Autor*innen
Apache Foundation (software), Austrian Centre of Digital Humanities (enhancement chains and configuration)
Hoster
Nutzungseinschränkungen für Nutzer*innen
zulässige Länder
DTA-Basisformat
Die folgende Darstellung dokumentiert das XML-Basisformat des DTA, welches die Grundlage für die Annotation der DTA-Volltexte bildet. Das DTA-Basisformat folgt den P5-Richtlinien der Text Encoding Initiative (TEI). Da diese Richtlinien jedoch Lösungen für sämtliche Bedürfnisse bei der Textaufbereitung anbieten sollen und daher entsprechend vielfältig und umfangreich sind, bedürfen sie im konkreten Einzelfall einer näheren Spezifikation. Daher wurde aus den P5-Richtlinien für die Textstrukturierung im DTA-Korpus eine Tag-Auswahl getroffen (Tagset), die das DTA-Basisformat bildet. Dieses Tagset ist mit den P5-Richtlinien der TEI vollständig konform; auf Erweiterungen (tei.extensions) durch davon abweichende Elemente wurde verzichtet.
Kurzbeschreibung
Dokumentation
Beschreibung der Zielgruppe und ihrer Größe
API
Dateiformate und Sprachen
Lokalisierung
Anwendungstyp
Netzwerk- bzw. Sicherheitsanforderungen
- BetriebssystemLinux
Datenblatt (Fact sheet)
Ansprechpartner
- technische*r Ansprechpartner*inhaaf@bbaw.de, Susanne Haaf-Dumont (Developer) [GND]
- inhaltliche*r Ansprechpartner*inAlexander Geyken (Arbeitsstellenleiter Digitales Wörterbuch der deutschen Sprache) [GND]
Version
Kategorie
Unterkategorie
Datenübertragung: Verschlüsselung
Datenschutzrichtlinie
Authentifizierung
Hoster
Nutzungseinschränkungen für Nutzer*innen
zulässige Länder
EXMARaLDA
EXMARaLDA ist ein System für das computergestützte Arbeiten mit (vor allem) mündlichen Korpora. Es besteht aus einem Transkriptions- und Annotationseditor (Partitur-Editor), einem Tool zum Verwalten von Korpora (Corpus-Manager) und einem Such- und Analysewerkzeug (EXAKT).
Vorteile des EXMARaLDA-Systems umfassen zum Beispiel:
- zeitalignierte Transkription von Audio- oder Videodaten;
- flexible Annotation nach frei wählbaren Analysekategorien;
- systematische Dokumentation eines Korpus durch Metadaten;
- flexible Ausgabe von Transkriptdaten in verschiedenen Formen und Formaten (Notation, Dokument);
- computergestützte Recherche in Transkriptions-, Annotations und Metadaten;
- interoperabel, da das System mit XML-basierten Dateiformaten arbeitet, die einen Datenaustausch mit anderen Tools (wie Praat, ELAN, Transcriber etc.) sowie eine flexible Verarbeitung und eine nachhaltige Nutzung der Daten ermöglichen.
EXMARaLDA wird weltweit von Forschern in unterschiedlichsten Zusammenhängen zur Analyse gesprochener Sprache eingesetzt, z.B.:
- Gesprächsforschung (Diskurs- und Konversationsanalyse),
- Mehrsprachigkeits- und Spracherwerbsforschung,
- Phonetik und Phonologie
- Dialektologie und Soziolinguistik.
EXMARaLDA wurde ursprünglich im Teilprojekt "Computergestützte Erfassungs- und Analysemethoden multilingualer Daten" des Sonderforschungsbereichs "Mehrsprachigkeit" (SFB 538) der Universität Hamburg entwickelt. Seit Juli 2011 wird die Entwicklung im Hamburger Zentrum für Sprachkorpora, seit November 2011 in Zusammenarbeit mit dem Archiv für Gesprochenes Deutsch am IDS Mannheim, weitergeführt.
Kurzbeschreibung
Dokumentation
Beschreibung der Zielgruppe und ihrer Größe
Dateiformate und Sprachen
- application/tei+xml; format-variant=tei-iso-spokenISO-24624-konforme Transkription gesprochener Sprache
- application/xml; format-variant=weblicht-tcfDatei im Text Corpus Format (*.tcf)
- application/xml; format-variant=exmaralda-exbEXMARaLDA-Basis-Transkription (*.exb)
- application/xml; format-variant=transcriber-trsTranscriber-Aannotations-Datei (*.trs)
- application/xml; format-variant=folker-flnFOLKER-Transkription (*.flk / *.fln)
- application/xml; format-variant=elan-eafELAN-Annotations-Datei (*.eaf)
- application/xml; format-variant=clan-chaCHAT-Transkriptions-Datei (*.cha)
- text/plain; format-variant=praat-textgridPraat TextGrid (*.textGrid)
- audio/mp3MP3-Audio
- audio/oggOGG-Audio
- audio/wavWAV-Audio
- video/mp4MP4-Video
- audio/aiffAIFF-Audio
- audio/mpegMPEG-Audio
- video/mpegMPEG-Audio
- video/oggOGG-Video
- video/aviAVI-Video
- video/x-divxDIVX-Video
- video/movQuicktime-Video
- application/tei+xml; format-variant=tei-iso-spokenISO-24624-konforme Transkription gesprochener Sprache
- application/xml; format-variant=weblicht-tcfDatei im Text Corpus Format (*.tcf)
- application/xml; format-variant=exmaralda-exbEXMARaLDA-Basis-Transkription (*.exb)
- application/xml; format-variant=transcriber-trsTranscriber-Aannotations-Datei (*.trs)
- application/xml; format-variant=folker-flnFOLKER-Transkription (*.flk / *.fln)
- application/xml; format-variant=elan-eafELAN-Annotations-Datei (*.eaf)
- application/xml; format-variant=clan-chaCHAT-Transkriptions-Datei (*.cha)
- application/plain+praatPraat-TextGrid (*.textGrid)
- different video formats
Anwendungstyp
Netzwerk- bzw. Sicherheitsanforderungen
- BetriebssystemWindows, macOS, Linux
- LaufzeitumgebungJava (included in newer versions)
Entwicklerdokumentation
Datenblatt (Fact sheet)
Ansprechpartner
- technische*r Ansprechpartner*inhttps://exmaralda.org/en/contact/
- inhaltliche*r Ansprechpartner*inhttps://exmaralda.org/en/contact/
Version
Kategorie
Unterkategorie
Quellcode verfügbar
Datenübertragung: Verschlüsselung
Datenschutzrichtlinie
Authentifizierung
Autor*innen
- EXMARaLDA Developer Group, GitHub
- Thomas Schmidt (Entwickler*in) [ORCID, GND]
- Kai Wörner (Entwickler*in) [ORCID]
- Timm Lehmberg (Entwickler*in)
- Hanna Hedeland (Entwickler*in) [ORCID]
Hoster
- Leibniz-Institut für Deutsche Sprache, Mannheim, Germany
- HZSK Hamburg, Hamburg Germany
Teil einer Anwendungssuite
Nutzungseinschränkungen für Nutzer*innen
FoLiA-stats

N-gram frequency list generation on FoLiA input.
Kurzbeschreibung
Dokumentation
Beschreibung der Zielgruppe und ihrer Größe
Dateiformate und Sprachen
- SprachenNiederländisch, generic
- text/folia+xmlDatei im Format Format for Linguistic Annotation (FoLiA)
- wordfreqlist
- lemmafreqlist
- lemmaposfreqlist
Anwendungstyp
Datenblatt (Fact sheet)
Ansprechpartner
- technische*r Ansprechpartner*inproycon@anaproy.nl, Maarten van Gompel
Version
Kategorie
Unterkategorie
Datenübertragung: Verschlüsselung
Datenschutzrichtlinie
Authentifizierung
Anmeldebedingungen
Yes. Before tool use, please register at https://webservices-lst.science.ru.nl/register.
Autor*innen
Ko van der Sloot (TiCC, Tilburg University)
Hoster
Nutzungseinschränkungen für Nutzer*innen
zulässige Länder
Fowlt (plain text)

Fowlt is an online, free-to-use context-sensitive English spelling checker. It follows the setup of the Dutch spelling checker Valkuil.net. Both Valkuil and Fowlt are unlike the typical spelling checkers: whereas the latter mostly try to find errors by comparing all words to a built-in dictionary and flag the word as an error if they can't find a match, Fowlt is context sensitive, taking into account the words around every word. Fowlt makes use of language models. These models are created by giving lots of texts to machine learning software (TiMBL and WOPR).
Kurzbeschreibung
Dokumentation
Beschreibung der Zielgruppe und ihrer Größe
Dateiformate und Sprachen
- SprachenEnglisch
- text/plainPlain-Text-Datei
- text/folia+xmlDatei im Format Format for Linguistic Annotation (FoLiA)
Anwendungstyp
Datenblatt (Fact sheet)
Ansprechpartner
- technische*r Ansprechpartner*inproycon@anaproy.nl, Maarten van Gompel
Version
Kategorie
Unterkategorie
Datenübertragung: Verschlüsselung
Datenschutzrichtlinie
Authentifizierung
Anmeldebedingungen
Yes. Before tool use, please register at https://webservices-lst.science.ru.nl/register.
Autor*innen
Maarten van Gompel, Ko van der Sloot (CLST, Radboud University Nijmegen)
Hoster
Nutzungseinschränkungen für Nutzer*innen
zulässige Länder
Fowlt (xml+folia)

Fowlt is an online, free-to-use context-sensitive English spelling checker. It follows the setup of the Dutch spelling checker Valkuil.net. Both Valkuil and Fowlt are unlike the typical spelling checkers: whereas the latter mostly try to find errors by comparing all words to a built-in dictionary and flag the word as an error if they can't find a match, Fowlt is context sensitive, taking into account the words around every word. Fowlt makes use of language models. These models are created by giving lots of texts to machine learning software (TiMBL and WOPR).
Kurzbeschreibung
Dokumentation
Beschreibung der Zielgruppe und ihrer Größe
Dateiformate und Sprachen
- SprachenEnglisch
- text/folia+xmlDatei im Format Format for Linguistic Annotation (FoLiA)
- text/folia+xmlDatei im Format Format for Linguistic Annotation (FoLiA)
Anwendungstyp
Datenblatt (Fact sheet)
Ansprechpartner
- technische*r Ansprechpartner*inproycon@anaproy.nl, Maarten van Gompel
Version
Kategorie
Unterkategorie
Datenübertragung: Verschlüsselung
Datenschutzrichtlinie
Authentifizierung
Anmeldebedingungen
Yes. Before tool use, please register at https://webservices-lst.science.ru.nl/register.
Autor*innen
Maarten van Gompel, Ko van der Sloot (CLST, Radboud University Nijmegen)
Hoster
Nutzungseinschränkungen für Nutzer*innen
zulässige Länder
Frog (folia+xml)

Frog's current version will tokenize, tag, lemmatize, and morphologically segment word tokens in Dutch text files, will assign a dependency graph to each sentence, will identify the base phrase chunks in the sentence, and will attempt to find and label all named entities.
Kurzbeschreibung
Dokumentation
Beschreibung der Zielgruppe und ihrer Größe
Lizenzen
Dateiformate und Sprachen
- SprachenNiederländisch
- text/folia+xmlDatei im Format Format for Linguistic Annotation (FoLiA)
- Tadpole Columned Output Format
- text/folia+xmlDatei im Format Format for Linguistic Annotation (FoLiA)
Anwendungstyp
Datenblatt (Fact sheet)
Ansprechpartner
- technische*r Ansprechpartner*inproycon@anaproy.nl, Maarten van Gompel
Version
Kategorie
Unterkategorie
Datenübertragung: Verschlüsselung
Datenschutzrichtlinie
Authentifizierung
Anmeldebedingungen
Yes. Before tool use, please register at https://webservices-lst.science.ru.nl/register.
Autor*innen
Ko van der Sloot, Maarten van Gompel (CLST, Radboud University Nijmegen)
Hoster
Nutzungseinschränkungen für Nutzer*innen
zulässige Länder
Frog (plain text)

Frog's current version will tokenize, tag, lemmatize, and morphologically segment word tokens in Dutch text files, will assign a dependency graph to each sentence, will identify the base phrase chunks in the sentence, and will attempt to find and label all named entities.
Kurzbeschreibung
Dokumentation
Beschreibung der Zielgruppe und ihrer Größe
Lizenzen
Dateiformate und Sprachen
- SprachenNiederländisch
- text/plainPlain-Text-Datei
- Tadpole Columned Output Format
- text/folia+xmlDatei im Format Format for Linguistic Annotation (FoLiA)
Anwendungstyp
Datenblatt (Fact sheet)
Ansprechpartner
- technische*r Ansprechpartner*inproycon@anaproy.nl, Maarten van Gompel
Version
Kategorie
Unterkategorie
Datenübertragung: Verschlüsselung
Datenschutzrichtlinie
Authentifizierung
Anmeldebedingungen
Yes. Before tool use, please register at https://webservices-lst.science.ru.nl/register.
Autor*innen
Ko van der Sloot, Maarten van Gompel (CLST, Radboud University Nijmegen)
Hoster
Nutzungseinschränkungen für Nutzer*innen
zulässige Länder
Inkluz

Inkluz - detects foreign language inclusions in Polish texts.
Kurzbeschreibung
Dokumentation
Beschreibung der Zielgruppe und ihrer Größe
Dateiformate und Sprachen
- SprachenPolnisch
- text/plainPlain-Text-Datei
- application/mswordMicrosoft-Word-Datei
- application/vnd.openxmlformats-officedocument.wordprocessingml.documentMicrosoft-OpenXML-Textverarbeitungs-Datei (Word)
- application/vnd.openxmlformats-officedocument.presentationml.presentationMicrosoft-OpenXML-Präsentations-Datei (PowerPoint)
- application/vnd.openxmlformats-officedocument.spreadsheetml.sheetMicrosoft-OpenXML-Tabellenkalkulations-Datei (Excel)
- application/vnd.oasis.opendocument.textOpenDocument-Textdatei
- application/pdfAdobe-PDF-Datei
- text/htmlHTML-Datei
- text/rtfTextverarbeitungsdatei im Rich Text Format
- application/octet-streambeliebige Binär-Dateien
Anwendungstyp
Datenblatt (Fact sheet)
Ansprechpartner
- technische*r Ansprechpartner*intomasz.walkowiak@pwr.edu.pl, Tomasz Walkowiak
Version
Kategorie
Unterkategorie
Datenübertragung: Verschlüsselung
Datenschutzrichtlinie
Authentifizierung
Autor*innen
Clarin-PL
Hoster
Nutzungseinschränkungen für Nutzer*innen
zulässige Länder
Iobber

Chunker for Polish. It recognises shallow syntactic structure (up to three levels) of phrases (chunks) in Polish texts.
Kurzbeschreibung
Dokumentation
Beschreibung der Zielgruppe und ihrer Größe
Dateiformate und Sprachen
- SprachenPolnisch
- text/plainPlain-Text-Datei
- application/mswordMicrosoft-Word-Datei
- application/vnd.openxmlformats-officedocument.wordprocessingml.documentMicrosoft-OpenXML-Textverarbeitungs-Datei (Word)
- application/vnd.openxmlformats-officedocument.presentationml.presentationMicrosoft-OpenXML-Präsentations-Datei (PowerPoint)
- application/vnd.openxmlformats-officedocument.spreadsheetml.sheetMicrosoft-OpenXML-Tabellenkalkulations-Datei (Excel)
- application/vnd.oasis.opendocument.textOpenDocument-Textdatei
- application/pdfAdobe-PDF-Datei
- text/htmlHTML-Datei
- text/rtfTextverarbeitungsdatei im Rich Text Format
- application/xmlXTML-Datei
Anwendungstyp
Datenblatt (Fact sheet)
Ansprechpartner
- technische*r Ansprechpartner*intomasz.walkowiak@pwr.edu.pl, Tomasz Walkowiak
Version
Kategorie
Unterkategorie
Datenübertragung: Verschlüsselung
Datenschutzrichtlinie
Authentifizierung
Autor*innen
Clarin-PL
Hoster
Nutzungseinschränkungen für Nutzer*innen
zulässige Länder
KorAP (REST)
KorAP ist eine neue Korpusanalyseplattform, optimiert für große, mehrfach annotierte Korpora und komplexe Suchmechanismen.
KorAP unterstützt die Abfragesprachen (von) COSMAS II, ANNIS, Poliqarp, Poliqarp+, CQL and FCQL.
KorAP wird am Leibniz-Institut für Deutsche Sprache in Mannheim entwickelt. Die einzelnen Module werden als Open Source auf GitHub veröffentlicht.
Kurzbeschreibung
Dokumentation
Beschreibung der Zielgruppe und ihrer Größe
Dateiformate und Sprachen
- application/jsonJSON-Daten
- application/jsonJSON-Daten
Anwendungstyp
Entwicklerdokumentation
Datenblatt (Fact sheet)
Ansprechpartner
- technische*r Ansprechpartner*inkorap@ids-mannheim.de, https://www1.ids-mannheim.de/s/corpus-linguistics/projects/korap.html?L=1, https://www1.ids-mannheim.de/kl/projekte/korap.html?L=0
- inhaltliche*r Ansprechpartner*inkorap@ids-mannheim.de, https://www1.ids-mannheim.de/s/corpus-linguistics/projects/korap.html?L=1, https://www1.ids-mannheim.de/kl/projekte/korap.html?L=0
Version
Kategorie
Unterkategorie
Quellcode verfügbar
Datenübertragung: Verschlüsselung
Datenschutzrichtlinie
Authentifizierung
Autor*innen
Hoster
Teil einer Anwendungssuite
Nutzungseinschränkungen für Nutzer*innen
KorAP (Web)
KorAP ist eine neue Korpusanalyseplattform, optimiert für große, mehrfach annotierte Korpora und komplexe Suchmechanismen.
KorAP unterstützt die Abfragesprachen (von) COSMAS II, ANNIS, Poliqarp, Poliqarp+, CQL and FCQL.
KorAP wird am Leibniz-Institut für Deutsche Sprache in Mannheim entwickelt. Die einzelnen Module werden als Open Source auf GitHub veröffentlicht.
Kurzbeschreibung
Dokumentation
Beschreibung der Zielgruppe und ihrer Größe
Dateiformate und Sprachen
- text/plain; format-variant=cosmas2COSMAS II query
- text/plain; format-variant=annisANNIS query
- text/plain; format-variant=poliqarpPoliqarp query
- text/plain; format-variant=poliqarpplusPoliqarp+ query
- text/plain; format-variant=cqlCQL query
- text/plain; format-variant=fcqlFCQL query
- text/htmlHTML-Datei
Anwendungstyp
Entwicklerdokumentation
Datenblatt (Fact sheet)
Ansprechpartner
- technische*r Ansprechpartner*inkorap@ids-mannheim.de, https://www1.ids-mannheim.de/s/corpus-linguistics/projects/korap.html?L=1, https://www1.ids-mannheim.de/kl/projekte/korap.html?L=0
- inhaltliche*r Ansprechpartner*inkorap@ids-mannheim.de, https://www1.ids-mannheim.de/s/corpus-linguistics/projects/korap.html?L=1, https://www1.ids-mannheim.de/kl/projekte/korap.html?L=0
Version
Kategorie
Unterkategorie
Quellcode verfügbar
Datenübertragung: Verschlüsselung
Datenschutzrichtlinie
Authentifizierung
Autor*innen
Hoster
Teil einer Anwendungssuite
Nutzungseinschränkungen für Nutzer*innen
LINDAT Translation

The input file size is limited to 100kB.
Translates from->to:
Czech->English, Hindi, French, Russian, German
English->Russsian, German, Czech, Hindi, French
Russian->German, French, Czech, Hindi, English
German->Russian, Hindi, Czech, English, French
French->Russian, German, Czech, English, Hindi
Kurzbeschreibung
Dokumentation
Beschreibung der Zielgruppe und ihrer Größe
Lizenzen
Dateiformate und Sprachen
- SprachenDeutsch, Russisch, Tschechisch, Englisch, Französisch
- text/plainPlain-Text-Datei
- text/plainPlain-Text-Datei
Anwendungstyp
Datenblatt (Fact sheet)
Ansprechpartner
- technische*r Ansprechpartner*inkosarko@ufal.mff.cuni.cz, Ondřej Košarko
Version
Kategorie
Unterkategorie
Datenübertragung: Verschlüsselung
Datenschutzrichtlinie
Authentifizierung
Autor*innen
Institute of Formal and Applied Linguistics
Hoster
Nutzungseinschränkungen für Nutzer*innen
zulässige Länder
Liner2

Name Entity and Temporal Expression recognition
Kurzbeschreibung
Dokumentation
Beschreibung der Zielgruppe und ihrer Größe
Dateiformate und Sprachen
- SprachenPolnisch
- text/plainPlain-Text-Datei
- application/mswordMicrosoft-Word-Datei
- application/vnd.openxmlformats-officedocument.wordprocessingml.documentMicrosoft-OpenXML-Textverarbeitungs-Datei (Word)
- application/vnd.openxmlformats-officedocument.presentationml.presentationMicrosoft-OpenXML-Präsentations-Datei (PowerPoint)
- application/vnd.openxmlformats-officedocument.spreadsheetml.sheetMicrosoft-OpenXML-Tabellenkalkulations-Datei (Excel)
- application/vnd.oasis.opendocument.textOpenDocument-Textdatei
- application/pdfAdobe-PDF-Datei
- text/htmlHTML-Datei
- text/rtfTextverarbeitungsdatei im Rich Text Format
- application/xmlXTML-Datei
Anwendungstyp
Datenblatt (Fact sheet)
Ansprechpartner
- technische*r Ansprechpartner*intomasz.walkowiak@pwr.edu.pl, Tomasz Walkowiak
Version
Kategorie
Unterkategorie
Datenübertragung: Verschlüsselung
Datenschutzrichtlinie
Authentifizierung
Autor*innen
Clarin-PL
Hoster
Nutzungseinschränkungen für Nutzer*innen
zulässige Länder
Liner2 (hosted by D4Science)

This is an experimental integration of a D4Science NLP processing service (NER Liner 2). This service identifies names of persons, locations, organizations, as well as money amounts, time and date expressions in Polish texts automatically.
Kurzbeschreibung
Dokumentation
Beschreibung der Zielgruppe und ihrer Größe
Dateiformate und Sprachen
- SprachenPolnisch
- text/plainPlain-Text-Datei
- application/xmlXTML-Datei
Anwendungstyp
Datenblatt (Fact sheet)
Ansprechpartner
- technische*r Ansprechpartner*inswitchboard@clarin.eu, D4Science Support
Version
Kategorie
Unterkategorie
Datenübertragung: Verschlüsselung
Datenschutzrichtlinie
Authentifizierung
Autor*innen
D4Science staff
Hoster
Nutzungseinschränkungen für Nutzer*innen
zulässige Länder
MaltParser

A language dependency parser chain for Polish. The used tools include Morfeusz-2 with SGJP dictionary (for morphological analysis), wcrft2 (for tagging), and the MaltParser with a model for Polish. The CONLL output can be visualised with DepSVG, a dependency tree and predicate-argument structure visualizer.
Kurzbeschreibung
Dokumentation
Beschreibung der Zielgruppe und ihrer Größe
Dateiformate und Sprachen
- SprachenPolnisch
- text/plainPlain-Text-Datei
- application/mswordMicrosoft-Word-Datei
- application/vnd.openxmlformats-officedocument.wordprocessingml.documentMicrosoft-OpenXML-Textverarbeitungs-Datei (Word)
- application/vnd.openxmlformats-officedocument.presentationml.presentationMicrosoft-OpenXML-Präsentations-Datei (PowerPoint)
- application/vnd.openxmlformats-officedocument.spreadsheetml.sheetMicrosoft-OpenXML-Tabellenkalkulations-Datei (Excel)
- application/vnd.oasis.opendocument.textOpenDocument-Textdatei
- application/pdfAdobe-PDF-Datei
- text/htmlHTML-Datei
- text/rtfTextverarbeitungsdatei im Rich Text Format
- CoNLL Format
Anwendungstyp
Datenblatt (Fact sheet)
Ansprechpartner
- technische*r Ansprechpartner*intomasz.walkowiak@pwr.edu.pl, Tomasz Walkowiak
Version
Kategorie
Unterkategorie
Datenübertragung: Verschlüsselung
Datenschutzrichtlinie
Authentifizierung
Autor*innen
Clarin-PL
Hoster
Nutzungseinschränkungen für Nutzer*innen
zulässige Länder
Morfeusz 2

Morphological analysis of Polish texts by Morfeusz 2 (based on the SGJP dictionary)
Kurzbeschreibung
Dokumentation
Beschreibung der Zielgruppe und ihrer Größe
Dateiformate und Sprachen
- SprachenPolnisch
- text/plainPlain-Text-Datei
- application/mswordMicrosoft-Word-Datei
- application/vnd.openxmlformats-officedocument.wordprocessingml.documentMicrosoft-OpenXML-Textverarbeitungs-Datei (Word)
- application/vnd.openxmlformats-officedocument.presentationml.presentationMicrosoft-OpenXML-Präsentations-Datei (PowerPoint)
- application/vnd.openxmlformats-officedocument.spreadsheetml.sheetMicrosoft-OpenXML-Tabellenkalkulations-Datei (Excel)
- application/vnd.oasis.opendocument.textOpenDocument-Textdatei
- application/pdfAdobe-PDF-Datei
- text/htmlHTML-Datei
- text/rtfTextverarbeitungsdatei im Rich Text Format
- application/xmlXTML-Datei
Anwendungstyp
Datenblatt (Fact sheet)
Ansprechpartner
- technische*r Ansprechpartner*intomasz.walkowiak@pwr.edu.pl, Tomasz Walkowiak
Version
Kategorie
Unterkategorie
Datenübertragung: Verschlüsselung
Datenschutzrichtlinie
Authentifizierung
Autor*innen
Clarin-PL
Hoster
Nutzungseinschränkungen für Nutzer*innen
zulässige Länder
MorphoDiTa

Morphological dictionary and tagger for the analysis of natural language texts in Polish.
Kurzbeschreibung
Dokumentation
Beschreibung der Zielgruppe und ihrer Größe
Dateiformate und Sprachen
- SprachenPolnisch
- text/plainPlain-Text-Datei
- application/mswordMicrosoft-Word-Datei
- application/vnd.openxmlformats-officedocument.wordprocessingml.documentMicrosoft-OpenXML-Textverarbeitungs-Datei (Word)
- application/vnd.openxmlformats-officedocument.presentationml.presentationMicrosoft-OpenXML-Präsentations-Datei (PowerPoint)
- application/vnd.openxmlformats-officedocument.spreadsheetml.sheetMicrosoft-OpenXML-Tabellenkalkulations-Datei (Excel)
- application/vnd.oasis.opendocument.textOpenDocument-Textdatei
- application/pdfAdobe-PDF-Datei
- text/htmlHTML-Datei
- text/rtfTextverarbeitungsdatei im Rich Text Format
- application/xmlXTML-Datei
Anwendungstyp
Datenblatt (Fact sheet)
Ansprechpartner
- technische*r Ansprechpartner*intomasz.walkowiak@pwr.edu.pl, Tomasz Walkowiak
Version
Kategorie
Unterkategorie
Datenübertragung: Verschlüsselung
Datenschutzrichtlinie
Authentifizierung
Autor*innen
Clarin-PL
Hoster
Nutzungseinschränkungen für Nutzer*innen
zulässige Länder
NER NLTK

Name Entity Recogniser for English by NLTK.
Kurzbeschreibung
Dokumentation
Beschreibung der Zielgruppe und ihrer Größe
Dateiformate und Sprachen
- SprachenEnglisch
- text/plainPlain-Text-Datei
- application/mswordMicrosoft-Word-Datei
- application/vnd.openxmlformats-officedocument.wordprocessingml.documentMicrosoft-OpenXML-Textverarbeitungs-Datei (Word)
- application/vnd.openxmlformats-officedocument.presentationml.presentationMicrosoft-OpenXML-Präsentations-Datei (PowerPoint)
- application/vnd.openxmlformats-officedocument.spreadsheetml.sheetMicrosoft-OpenXML-Tabellenkalkulations-Datei (Excel)
- application/vnd.oasis.opendocument.textOpenDocument-Textdatei
- application/pdfAdobe-PDF-Datei
- text/rtfTextverarbeitungsdatei im Rich Text Format
- application/xmlXTML-Datei
Anwendungstyp
Datenblatt (Fact sheet)
Ansprechpartner
- technische*r Ansprechpartner*intomasz.walkowiak@pwr.edu.pl, Tomasz Walkowiak
Version
Kategorie
Unterkategorie
Datenübertragung: Verschlüsselung
Datenschutzrichtlinie
Authentifizierung
Autor*innen
Clarin-PL
Hoster
Nutzungseinschränkungen für Nutzer*innen
zulässige Länder
NLP-HUB (multiple NER tools)

This is an experimental integration of a D4Science NLP processing service hub. This service runs a number of NER tools in parallel, and merges their results. It identifies names of persons, locations, organizations, as well as money amounts, time and date expressions -- and other expressions -- in English, French, Italian, Spanish and German texts automatically.
Kurzbeschreibung
Dokumentation
Beschreibung der Zielgruppe und ihrer Größe
Dateiformate und Sprachen
- SprachenEnglisch, Französisch, Italienisch, Spanisch, Deutsch
- text/plainPlain-Text-Datei
- application/xmlXTML-Datei
Anwendungstyp
Datenblatt (Fact sheet)
Ansprechpartner
- technische*r Ansprechpartner*inswitchboard@clarin.eu, D4Science Support
Version
Kategorie
Unterkategorie
Datenübertragung: Verschlüsselung
Datenschutzrichtlinie
Authentifizierung
Autor*innen
D4Science staff
Hoster
Nutzungseinschränkungen für Nutzer*innen
zulässige Länder
Oersetter (FRY-NLD)

Oersetter is a Frisian-Dutch Machine Translation system.
Kurzbeschreibung
Dokumentation
Beschreibung der Zielgruppe und ihrer Größe
Dateiformate und Sprachen
- SprachenFriesisch
- text/plainPlain-Text-Datei
- text/plainPlain-Text-Datei
Anwendungstyp
Datenblatt (Fact sheet)
Ansprechpartner
- technische*r Ansprechpartner*inproycon@anaproy.nl, Maarten van Gompel
Version
Kategorie
Unterkategorie
Datenübertragung: Verschlüsselung
Datenschutzrichtlinie
Authentifizierung
Anmeldebedingungen
Yes. Before tool use, please register at https://webservices-lst.science.ru.nl/register.
Autor*innen
Maarten van Gompel, Ko van der Sloot (CLST, Radboud University Nijmegen)
Hoster
Nutzungseinschränkungen für Nutzer*innen
zulässige Länder
Oersetter (NLD-FRY)

Oersetter is a statistical machine translation (SMT) system for Frisian to Dutch and Dutch to Frisian. A parallel training corpus has been established, which has subsequently been used to automatically learn a phrase-based SMT model. The translation system is built around the open-source SMT software Moses.
Kurzbeschreibung
Dokumentation
Beschreibung der Zielgruppe und ihrer Größe
Dateiformate und Sprachen
- SprachenNiederländisch
- text/plainPlain-Text-Datei
- text/plainPlain-Text-Datei
Anwendungstyp
Datenblatt (Fact sheet)
Ansprechpartner
- technische*r Ansprechpartner*inproycon@anaproy.nl, Maarten van Gompel
Version
Kategorie
Unterkategorie
Datenübertragung: Verschlüsselung
Datenschutzrichtlinie
Authentifizierung
Anmeldebedingungen
Yes. Before tool use, please register at https://webservices-lst.science.ru.nl/register.
Autor*innen
Maarten van Gompel, Ko van der Sloot (CLST, Radboud University Nijmegen)
Hoster
Nutzungseinschränkungen für Nutzer*innen
zulässige Länder
Opener Tokenizer

Tokenizer for Dutch, English, German, French, Spanish and Italian. Consumes Plain text and produces TCF.
Kurzbeschreibung
Dokumentation
Beschreibung der Zielgruppe und ihrer Größe
Dateiformate und Sprachen
- SprachenEnglisch, Italienisch, Spanisch, Französisch, Niederländisch, Deutsch
- text/plainPlain-Text-Datei
- application/tcf+xmlTCF-Datei
Anwendungstyp
Datenblatt (Fact sheet)
Ansprechpartner
- technische*r Ansprechpartner*inriccardo.delgratta@ilc.cnr.it, Riccardo Del Gratta
Version
Kategorie
Unterkategorie
Datenübertragung: Verschlüsselung
Datenschutzrichtlinie
Authentifizierung
Autor*innen
CLARIN-IT
Hoster
Nutzungseinschränkungen für Nutzer*innen
zulässige Länder
ReSpa

Keywords extraction for Polish by ReSpa based on the representation of text documents as word graphs.
Kurzbeschreibung
Dokumentation
Beschreibung der Zielgruppe und ihrer Größe
Dateiformate und Sprachen
- SprachenPolnisch
- text/plainPlain-Text-Datei
- application/mswordMicrosoft-Word-Datei
- application/vnd.openxmlformats-officedocument.wordprocessingml.documentMicrosoft-OpenXML-Textverarbeitungs-Datei (Word)
- application/vnd.openxmlformats-officedocument.presentationml.presentationMicrosoft-OpenXML-Präsentations-Datei (PowerPoint)
- application/vnd.openxmlformats-officedocument.spreadsheetml.sheetMicrosoft-OpenXML-Tabellenkalkulations-Datei (Excel)
- application/vnd.oasis.opendocument.textOpenDocument-Textdatei
- application/pdfAdobe-PDF-Datei
- text/htmlHTML-Datei
- text/rtfTextverarbeitungsdatei im Rich Text Format
- application/xmlXTML-Datei
Anwendungstyp
Datenblatt (Fact sheet)
Ansprechpartner
- technische*r Ansprechpartner*intomasz.walkowiak@pwr.edu.pl, Tomasz Walkowiak
Version
Kategorie
Unterkategorie
Datenübertragung: Verschlüsselung
Datenschutzrichtlinie
Authentifizierung
Autor*innen
Clarin-PL
Hoster
Nutzungseinschränkungen für Nutzer*innen
zulässige Länder
Serel

Detection of semantic relations between Named Entities in Polish texts by Serel.
Kurzbeschreibung
Dokumentation
Beschreibung der Zielgruppe und ihrer Größe
Dateiformate und Sprachen
- SprachenPolnisch
- text/plainPlain-Text-Datei
- application/mswordMicrosoft-Word-Datei
- application/vnd.openxmlformats-officedocument.wordprocessingml.documentMicrosoft-OpenXML-Textverarbeitungs-Datei (Word)
- application/vnd.openxmlformats-officedocument.presentationml.presentationMicrosoft-OpenXML-Präsentations-Datei (PowerPoint)
- application/vnd.openxmlformats-officedocument.spreadsheetml.sheetMicrosoft-OpenXML-Tabellenkalkulations-Datei (Excel)
- application/vnd.oasis.opendocument.textOpenDocument-Textdatei
- application/pdfAdobe-PDF-Datei
- text/htmlHTML-Datei
- text/rtfTextverarbeitungsdatei im Rich Text Format
- application/xmlXTML-Datei
Anwendungstyp
Datenblatt (Fact sheet)
Ansprechpartner
- technische*r Ansprechpartner*intomasz.walkowiak@pwr.edu.pl, Tomasz Walkowiak
Version
Kategorie
Unterkategorie
Datenübertragung: Verschlüsselung
Datenschutzrichtlinie
Authentifizierung
Autor*innen
Clarin-PL
Hoster
Nutzungseinschränkungen für Nutzer*innen
zulässige Länder
Spacy (hosted by D4Science) - DE

This is an experimental integration of a D4Science NLP processing service (spaCy). This service identifies performs dependency parsing for plain German text. For more information on spaCy, see https://spacy.io.
Kurzbeschreibung
Dokumentation
Beschreibung der Zielgruppe und ihrer Größe
Dateiformate und Sprachen
- SprachenDeutsch
- text/plainPlain-Text-Datei
- text/tab-separated-valuesTabularische Daten, tabulatorsepariert
Anwendungstyp
Datenblatt (Fact sheet)
Ansprechpartner
- technische*r Ansprechpartner*inswitchboard@clarin.eu, D4Science Support
Version
Kategorie
Unterkategorie
Datenübertragung: Verschlüsselung
Datenschutzrichtlinie
Authentifizierung
Autor*innen
D4Science staff
Hoster
Nutzungseinschränkungen für Nutzer*innen
zulässige Länder
Spacy (hosted by D4Science) - EN

This is an experimental integration of a D4Science NLP processing service (spaCy). This service identifies performs dependency parsing for plain English text. For more information on spaCy, see https://spacy.io.
Kurzbeschreibung
Dokumentation
Beschreibung der Zielgruppe und ihrer Größe
Dateiformate und Sprachen
- SprachenEnglisch
- text/plainPlain-Text-Datei
- text/tab-separated-valuesTabularische Daten, tabulatorsepariert
Anwendungstyp
Datenblatt (Fact sheet)
Ansprechpartner
- technische*r Ansprechpartner*inswitchboard@clarin.eu, D4Science Support
Version
Kategorie
Unterkategorie
Datenübertragung: Verschlüsselung
Datenschutzrichtlinie
Authentifizierung
Autor*innen
D4Science staff
Hoster
Nutzungseinschränkungen für Nutzer*innen
zulässige Länder
Spatial

Recognition of spatial expressions in Polish texts.
Kurzbeschreibung
Dokumentation
Beschreibung der Zielgruppe und ihrer Größe
Dateiformate und Sprachen
- SprachenPolnisch
- text/plainPlain-Text-Datei
- application/mswordMicrosoft-Word-Datei
- application/vnd.openxmlformats-officedocument.wordprocessingml.documentMicrosoft-OpenXML-Textverarbeitungs-Datei (Word)
- application/vnd.openxmlformats-officedocument.presentationml.presentationMicrosoft-OpenXML-Präsentations-Datei (PowerPoint)
- application/vnd.openxmlformats-officedocument.spreadsheetml.sheetMicrosoft-OpenXML-Tabellenkalkulations-Datei (Excel)
- application/vnd.oasis.opendocument.textOpenDocument-Textdatei
- application/pdfAdobe-PDF-Datei
- text/htmlHTML-Datei
- text/rtfTextverarbeitungsdatei im Rich Text Format
- application/jsonJSON-Daten
Anwendungstyp
Datenblatt (Fact sheet)
Ansprechpartner
- technische*r Ansprechpartner*intomasz.walkowiak@pwr.edu.pl, Tomasz Walkowiak
Version
Kategorie
Unterkategorie
Datenübertragung: Verschlüsselung
Datenschutzrichtlinie
Authentifizierung
Autor*innen
Clarin-PL
Hoster
Nutzungseinschränkungen für Nutzer*innen
zulässige Länder
Spejd

Spejd - a partial, shallow parser for Polish with rule-based morphosyntactic disambiguation.
Kurzbeschreibung
Dokumentation
Beschreibung der Zielgruppe und ihrer Größe
Dateiformate und Sprachen
- SprachenPolnisch
- text/plainPlain-Text-Datei
- application/mswordMicrosoft-Word-Datei
- application/vnd.openxmlformats-officedocument.wordprocessingml.documentMicrosoft-OpenXML-Textverarbeitungs-Datei (Word)
- application/vnd.openxmlformats-officedocument.presentationml.presentationMicrosoft-OpenXML-Präsentations-Datei (PowerPoint)
- application/vnd.openxmlformats-officedocument.spreadsheetml.sheetMicrosoft-OpenXML-Tabellenkalkulations-Datei (Excel)
- application/vnd.oasis.opendocument.textOpenDocument-Textdatei
- application/pdfAdobe-PDF-Datei
- text/htmlHTML-Datei
- text/rtfTextverarbeitungsdatei im Rich Text Format
- application/xmlXTML-Datei
Anwendungstyp
Datenblatt (Fact sheet)
Ansprechpartner
- technische*r Ansprechpartner*intomasz.walkowiak@pwr.edu.pl, Tomasz Walkowiak
Version
Kategorie
Unterkategorie
Datenübertragung: Verschlüsselung
Datenschutzrichtlinie
Authentifizierung
Autor*innen
Clarin-PL
Hoster
Nutzungseinschränkungen für Nutzer*innen
zulässige Länder
Summarize

Automated word graph based summarisation of Polish texts.
Kurzbeschreibung
Dokumentation
Beschreibung der Zielgruppe und ihrer Größe
Dateiformate und Sprachen
- SprachenPolnisch
- text/plainPlain-Text-Datei
- application/mswordMicrosoft-Word-Datei
- application/vnd.openxmlformats-officedocument.wordprocessingml.documentMicrosoft-OpenXML-Textverarbeitungs-Datei (Word)
- application/vnd.openxmlformats-officedocument.presentationml.presentationMicrosoft-OpenXML-Präsentations-Datei (PowerPoint)
- application/vnd.openxmlformats-officedocument.spreadsheetml.sheetMicrosoft-OpenXML-Tabellenkalkulations-Datei (Excel)
- application/vnd.oasis.opendocument.textOpenDocument-Textdatei
- application/pdfAdobe-PDF-Datei
- text/htmlHTML-Datei
- text/rtfTextverarbeitungsdatei im Rich Text Format
- application/octet-streambeliebige Binär-Dateien
Anwendungstyp
Datenblatt (Fact sheet)
Ansprechpartner
- technische*r Ansprechpartner*intomasz.walkowiak@pwr.edu.pl, Tomasz Walkowiak
Version
Kategorie
Unterkategorie
Datenübertragung: Verschlüsselung
Datenschutzrichtlinie
Authentifizierung
Autor*innen
Clarin-PL
Hoster
Nutzungseinschränkungen für Nutzer*innen
zulässige Länder
T-scan

T-Scan is a new tool for analyzing Dutch text. It aims at extracting text features that are theoretically interesting, in that they relate to genre and text complexity, as well as practically interesting, in that they enable users and text producers to make text-specific diagnoses. T-Scan derives it features from tools such as Frog and Alpino, and resources such as SoNaR, SUBTLEX-NL and Referentie Bestand Nederlands.
Kurzbeschreibung
Dokumentation
Beschreibung der Zielgruppe und ihrer Größe
Lizenzen
Dateiformate und Sprachen
- SprachenNiederländisch
- text/plainPlain-Text-Datei
- text/folia+xmlDatei im Format Format for Linguistic Annotation (FoLiA)
- text/xslXSLT-Stylesheet
- text/csvTabularische Daten, kommasepariert
Anwendungstyp
Datenblatt (Fact sheet)
Ansprechpartner
- technische*r Ansprechpartner*inproycon@anaproy.nl, Maarten van Gompel
Version
Kategorie
Unterkategorie
Datenübertragung: Verschlüsselung
Datenschutzrichtlinie
Authentifizierung
Anmeldebedingungen
Yes. Before tool use, please register at https://webservices-lst.science.ru.nl/register.
Autor*innen
Maarten van Gompel, Ko van der Sloot (CLST, Radboud University Nijmegen), Martijn van der Klis (Utrecht University)
Hoster
Nutzungseinschränkungen für Nutzer*innen
zulässige Länder
Tagger NLTK

Morpho-syntactic tagger for English texts.
Kurzbeschreibung
Dokumentation
Beschreibung der Zielgruppe und ihrer Größe
Dateiformate und Sprachen
- SprachenEnglisch
- text/plainPlain-Text-Datei
- application/mswordMicrosoft-Word-Datei
- application/vnd.openxmlformats-officedocument.wordprocessingml.documentMicrosoft-OpenXML-Textverarbeitungs-Datei (Word)
- application/vnd.openxmlformats-officedocument.presentationml.presentationMicrosoft-OpenXML-Präsentations-Datei (PowerPoint)
- application/vnd.openxmlformats-officedocument.spreadsheetml.sheetMicrosoft-OpenXML-Tabellenkalkulations-Datei (Excel)
- application/vnd.oasis.opendocument.textOpenDocument-Textdatei
- application/pdfAdobe-PDF-Datei
- text/rtfTextverarbeitungsdatei im Rich Text Format
- application/xmlXTML-Datei
Anwendungstyp
Datenblatt (Fact sheet)
Ansprechpartner
- technische*r Ansprechpartner*intomasz.walkowiak@pwr.edu.pl, Tomasz Walkowiak
Version
Kategorie
Unterkategorie
Datenübertragung: Verschlüsselung
Datenschutzrichtlinie
Authentifizierung
Autor*innen
Clarin-PL
Hoster
Nutzungseinschränkungen für Nutzer*innen
zulässige Länder
TEILicht-align
RESTful webservices for transcriptions of spoken data following the TEI guidelines. In principle, target documents are those conforming to the ISO standard ISO 24624:2016(E) Language resource management – Transcription of spoken language. The services are built on the library teispeechtools ; the source code of the services is available on GitHub. Currently, we offer:
align: Pseudo-alignment using Phonetic Transcription or Orthographic Information
Kurzbeschreibung
Dokumentation
Beschreibung der Zielgruppe und ihrer Größe
Dateiformate und Sprachen
- application/tei+xml; format-variant=tei-iso-spokenISO-24624-konforme Transkription gesprochener Sprache
- application/tei+xmlTEI-P5-konformes XML
- application/tei+xml; format-variant=tei-iso-spokenISO-24624-konforme Transkription gesprochener Sprache
- application/tei+xmlTEI-P5-konformes XML
Anwendungstyp
Entwicklerdokumentation
Datenblatt (Fact sheet)
Ansprechpartner
- technische*r Ansprechpartner*infisseni@ids-mannheim.de, Bernhard Fisseni (Developer) [GND]
- inhaltliche*r Ansprechpartner*inThomas Schmidt (Transcription Expert) [ORCID, GND]
Version
Kategorie
Unterkategorie
Quellcode verfügbar
Datenübertragung: Verschlüsselung
Datenschutzrichtlinie
Authentifizierung
Autor*innen
- Bernhard Fisseni (Developer)
- Thomas Schmidt (Developer)
Hoster
Nutzungseinschränkungen für Nutzer*innen
TEILicht-guess
RESTful webservices for transcriptions of spoken data following the TEI guidelines. In principle, target documents are those conforming to the ISO standard ISO 24624:2016(E) Language resource management – Transcription of spoken language. The services are built on the library teispeechtools ; the source code of the services is available on GitHub. Currently, we offer:
guess: language-detection
Kurzbeschreibung
Dokumentation
Beschreibung der Zielgruppe und ihrer Größe
Dateiformate und Sprachen
- application/tei+xml; format-variant=tei-iso-spokenISO-24624-konforme Transkription gesprochener Sprache
- application/tei+xmlTEI-P5-konformes XML
- application/tei+xml; format-variant=tei-iso-spokenISO-24624-konforme Transkription gesprochener Sprache
- application/tei+xmlTEI-P5-konformes XML
Anwendungstyp
Entwicklerdokumentation
Datenblatt (Fact sheet)
Ansprechpartner
- technische*r Ansprechpartner*infisseni@ids-mannheim.de, Bernhard Fisseni (Developer) [GND]
- inhaltliche*r Ansprechpartner*inThomas Schmidt (Transcription Expert) [ORCID, GND]
Version
Kategorie
Unterkategorie
Quellcode verfügbar
Datenübertragung: Verschlüsselung
Datenschutzrichtlinie
Authentifizierung
Autor*innen
- Bernhard Fisseni (Developer)
- Thomas Schmidt (Developer)
Hoster
Nutzungseinschränkungen für Nutzer*innen
TEILicht-identify
RESTful webservices for transcriptions of spoken data following the TEI guidelines. In principle, target documents are those conforming to the ISO standard ISO 24624:2016(E) Language resource management – Transcription of spoken language. The services are built on the library teispeechtools ; the source code of the services is available on GitHub. Currently, we offer:
identify adding and removing XML IDs
Kurzbeschreibung
Dokumentation
Beschreibung der Zielgruppe und ihrer Größe
Dateiformate und Sprachen
- application/tei+xml; format-variant=tei-iso-spokenISO-24624-konforme Transkription gesprochener Sprache
- application/tei+xmlTEI-P5-konformes XML
- application/tei+xml; format-variant=tei-iso-spokenISO-24624-konforme Transkription gesprochener Sprache
- application/tei+xmlTEI-P5-konformes XML
Anwendungstyp
Entwicklerdokumentation
Datenblatt (Fact sheet)
Ansprechpartner
- technische*r Ansprechpartner*infisseni@ids-mannheim.de, Bernhard Fisseni (Developer) [GND]
- inhaltliche*r Ansprechpartner*inThomas Schmidt (Transcription Expert) [ORCID, GND]
Version
Kategorie
Unterkategorie
Quellcode verfügbar
Datenübertragung: Verschlüsselung
Datenschutzrichtlinie
Authentifizierung
Autor*innen
- Bernhard Fisseni (Developer)
- Thomas Schmidt (Developer)
Hoster
Nutzungseinschränkungen für Nutzer*innen
TEILicht-normalize
RESTful webservices for transcriptions of spoken data following the TEI guidelines. In principle, target documents are those conforming to the ISO standard ISO 24624:2016(E) Language resource management – Transcription of spoken language. The services are built on the library teispeechtools ; the source code of the services is available on GitHub. Currently, we offer:
normalize: OrthoNormal-like Normalization of orthography
Kurzbeschreibung
Dokumentation
Beschreibung der Zielgruppe und ihrer Größe
Dateiformate und Sprachen
- application/tei+xml; format-variant=tei-iso-spokenISO-24624-konforme Transkription gesprochener Sprache
- application/tei+xmlTEI-P5-konformes XML
- application/tei+xml; format-variant=tei-iso-spokenISO-24624-konforme Transkription gesprochener Sprache
- application/tei+xmlTEI-P5-konformes XML
Anwendungstyp
Entwicklerdokumentation
Datenblatt (Fact sheet)
Ansprechpartner
- technische*r Ansprechpartner*infisseni@ids-mannheim.de, Bernhard Fisseni (Developer) [GND]
- inhaltliche*r Ansprechpartner*inThomas Schmidt (Transcription Expert) [ORCID, GND]
Version
Kategorie
Unterkategorie
Quellcode verfügbar
Datenübertragung: Verschlüsselung
Datenschutzrichtlinie
Authentifizierung
Autor*innen
- Bernhard Fisseni (Developer)
- Thomas Schmidt (Developer)
Hoster
Nutzungseinschränkungen für Nutzer*innen
TEILicht-pos
RESTful webservices for transcriptions of spoken data following the TEI guidelines. In principle, target documents are those conforming to the ISO standard ISO 24624:2016(E) Language resource management – Transcription of spoken language. The services are built on the library teispeechtools ; the source code of the services is available on GitHub. Currently, we offer:
pos: POS-Tagging with the TreeTagger
Kurzbeschreibung
Dokumentation
Beschreibung der Zielgruppe und ihrer Größe
Dateiformate und Sprachen
- application/tei+xml; format-variant=tei-iso-spokenISO-24624-konforme Transkription gesprochener Sprache
- application/tei+xmlTEI-P5-konformes XML
- application/tei+xml; format-variant=tei-iso-spokenISO-24624-konforme Transkription gesprochener Sprache
- application/tei+xmlTEI-P5-konformes XML
Anwendungstyp
Entwicklerdokumentation
Datenblatt (Fact sheet)
Ansprechpartner
- technische*r Ansprechpartner*infisseni@ids-mannheim.de, Bernhard Fisseni (Developer) [GND]
- inhaltliche*r Ansprechpartner*inThomas Schmidt (Transcription Expert) [ORCID, GND]
Version
Kategorie
Unterkategorie
Quellcode verfügbar
Datenübertragung: Verschlüsselung
Datenschutzrichtlinie
Authentifizierung
Autor*innen
- Bernhard Fisseni (Developer)
- Thomas Schmidt (Developer)
Hoster
Nutzungseinschränkungen für Nutzer*innen
TEILicht-segmentize
RESTful webservices for transcriptions of spoken data following the TEI guidelines. In principle, target documents are those conforming to the ISO standard ISO 24624:2016(E) Language resource management – Transcription of spoken language. The services are built on the library teispeechtools ; the source code of the services is available on GitHub. Currently, we offer:
segmentize: segmentation according to transcription conventions
Kurzbeschreibung
Dokumentation
Beschreibung der Zielgruppe und ihrer Größe
Dateiformate und Sprachen
- application/tei+xml; format-variant=tei-iso-spokenISO-24624-konforme Transkription gesprochener Sprache
- application/tei+xmlTEI-P5-konformes XML
- application/tei+xml; format-variant=tei-iso-spokenISO-24624-konforme Transkription gesprochener Sprache
- application/tei+xmlTEI-P5-konformes XML
Anwendungstyp
Entwicklerdokumentation
Datenblatt (Fact sheet)
Ansprechpartner
- technische*r Ansprechpartner*infisseni@ids-mannheim.de, Bernhard Fisseni (Developer) [GND]
- inhaltliche*r Ansprechpartner*inThomas Schmidt (Transcription Expert) [ORCID, GND]
Version
Kategorie
Unterkategorie
Quellcode verfügbar
Datenübertragung: Verschlüsselung
Datenschutzrichtlinie
Authentifizierung
Autor*innen
- Bernhard Fisseni (Developer)
- Thomas Schmidt (Developer)
Hoster
Nutzungseinschränkungen für Nutzer*innen
TEILicht-text2iso
RESTful webservices for transcriptions of spoken data following the TEI guidelines. In principle, target documents are those conforming to the ISO standard ISO 24624:2016(E) Language resource management – Transcription of spoken language. The services are built on the library teispeechtools ; the source code of the services is available on GitHub. Currently, we offer:
text2iso: converting plain text in Simple EXMARaLDA format to ISO-TEI-annotated texts
Kurzbeschreibung
Dokumentation
Beschreibung der Zielgruppe und ihrer Größe
Dateiformate und Sprachen
- application/plain; format-variant=exmaraldaSimple EXMARaLDA transcription
- application/tei+xmlTEI-P5-konformes XML
- application/tei+xml; format-variant=tei-iso-spokenISO-24624-konforme Transkription gesprochener Sprache
- application/tei+xmlTEI-P5-konformes XML
Anwendungstyp
Entwicklerdokumentation
Datenblatt (Fact sheet)
Ansprechpartner
- technische*r Ansprechpartner*infisseni@ids-mannheim.de, Bernhard Fisseni (Developer) [GND]
- inhaltliche*r Ansprechpartner*inThomas Schmidt (Transcription Expert) [ORCID, GND]
Version
Kategorie
Unterkategorie
Quellcode verfügbar
Datenübertragung: Verschlüsselung
Datenschutzrichtlinie
Authentifizierung
Autor*innen
- Bernhard Fisseni (Developer)
- Thomas Schmidt (Developer)
Hoster
Nutzungseinschränkungen für Nutzer*innen
TEILicht-text2seg
RESTful webservices for transcriptions of spoken data following the TEI guidelines. In principle, target documents are those conforming to the ISO standard ISO 24624:2016(E) Language resource management – Transcription of spoken language. The services are built on the library teispeechtools ; the source code of the services is available on GitHub. Currently, we offer:
text2seg: converting plain text in Simple EXMARaLDA format to ISO-TEI-annotated texts, combined with segmentation according to transcription standards
Kurzbeschreibung
Dokumentation
Beschreibung der Zielgruppe und ihrer Größe
Lizenzen
Dateiformate und Sprachen
- application/plain; format-variant=exmaraldaSimple EXMARaLDA transcription
- application/tei+xml; format-variant=tei-iso-spokenISO-24624-konforme Transkription gesprochener Sprache
Anwendungstyp
Entwicklerdokumentation
Datenblatt (Fact sheet)
Ansprechpartner
- technische*r Ansprechpartner*infisseni@ids-mannheim.de, Bernhard Fisseni (Developer) [GND]
- inhaltliche*r Ansprechpartner*inThomas Schmidt (Transcription Expert) [ORCID, GND]
Version
Kategorie
Unterkategorie
Quellcode verfügbar
Datenübertragung: Verschlüsselung
Datenschutzrichtlinie
Authentifizierung
Autor*innen
- Bernhard Fisseni (Developer)
- Thomas Schmidt (Developer)
Hoster
Nutzungseinschränkungen für Nutzer*innen
TEILicht-unidentify
RESTful webservices for transcriptions of spoken data following the TEI guidelines. In principle, target documents are those conforming to the ISO standard ISO 24624:2016(E) Language resource management – Transcription of spoken language. The services are built on the library teispeechtools ; the source code of the services is available on GitHub. Currently, we offer:
unidentify: removing XML IDs
Kurzbeschreibung
Dokumentation
Beschreibung der Zielgruppe und ihrer Größe
Dateiformate und Sprachen
- untertützt mehrsprachige Dokumente
- akzeptiert jede Sprache
- application/tei+xml; format-variant=tei-iso-spokenISO-24624-konforme Transkription gesprochener Sprache
- application/tei+xmlTEI-P5-konformes XML
- application/tei+xml; format-variant=tei-iso-spokenISO-24624-konforme Transkription gesprochener Sprache
- application/tei+xmlTEI-P5-konformes XML
Anwendungstyp
Entwicklerdokumentation
Datenblatt (Fact sheet)
Ansprechpartner
- technische*r Ansprechpartner*infisseni@ids-mannheim.de, Bernhard Fisseni (Developer) [GND]
- inhaltliche*r Ansprechpartner*inThomas Schmidt (Transcription Expert) [ORCID, GND]
Version
Kategorie
Unterkategorie
Quellcode verfügbar
Datenübertragung: Verschlüsselung
Datenschutzrichtlinie
Authentifizierung
Autor*innen
- Bernhard Fisseni (Developer)
- Thomas Schmidt (Developer)
Hoster
Nutzungseinschränkungen für Nutzer*innen
TermoPL

TermoPL is a tool for automated extraction of terminology from Polish texts.
Kurzbeschreibung
Dokumentation
Beschreibung der Zielgruppe und ihrer Größe
Dateiformate und Sprachen
- SprachenPolnisch
- text/plainPlain-Text-Datei
- application/mswordMicrosoft-Word-Datei
- application/vnd.openxmlformats-officedocument.wordprocessingml.documentMicrosoft-OpenXML-Textverarbeitungs-Datei (Word)
- application/vnd.openxmlformats-officedocument.presentationml.presentationMicrosoft-OpenXML-Präsentations-Datei (PowerPoint)
- application/vnd.openxmlformats-officedocument.spreadsheetml.sheetMicrosoft-OpenXML-Tabellenkalkulations-Datei (Excel)
- application/vnd.oasis.opendocument.textOpenDocument-Textdatei
- application/pdfAdobe-PDF-Datei
- text/htmlHTML-Datei
- text/rtfTextverarbeitungsdatei im Rich Text Format
- application/jsonJSON-Daten
Anwendungstyp
Datenblatt (Fact sheet)
Ansprechpartner
- technische*r Ansprechpartner*intomasz.walkowiak@pwr.edu.pl, Tomasz Walkowiak
Version
Kategorie
Unterkategorie
Datenübertragung: Verschlüsselung
Datenschutzrichtlinie
Authentifizierung
Autor*innen
Clarin-PL
Hoster
Nutzungseinschränkungen für Nutzer*innen
zulässige Länder
TextGrid Laboratory
Mit dem TextGridLab, einem kostenlosen Softwarepaket, können Sie auf Werkzeuge und Dienste zur Erstellung, Verwaltung und Bearbeitung von Forschungsdaten zugreifen. Die Open-Source-Software ist der Einstieg in die virtuelle Forschungsumgebung. Sie ist für Windows, Mac OS X und Linux erhältlich und bietet eine differenzierte Verwaltung von Zugriffsrechten innerhalb der geschützten Forschungsumgebung. Das TextGridLab ist optimiert für die XML/TEI-Entwicklung, z.B. im Zusammenhang mit digitalen Editionen.
Zu den Funktionen des **TextGridLab** gehören zum Beispiel
-
ein Editor für Text und XML mit WYSIWYG-Funktionalität - eine integrierte Unicode-Zeichentabelle aus dem Unicode-Zeichensatz
-
ein Text-Bild-Link-Editor - das Wörterbuch-Suchwerkzeug - der MEISE-Editor.
Zur Infrastruktur gehören eine leistungsfähige Projekt- und Benutzerverwaltung, ein Projekt-Browser/Navigator, ein Suchwerkzeug, Metadaten-Editor, Aggregation Composer, Import/Export-Werkzeug, Revisionen und Veröffentlichung der Sammlung (im Repository), unterstützt durch eine automatisierte Metadaten-Validierung.
TextGrid Lab wird genutzt von deutschen Forschern in verschiedenen Forschungsnetzwerken und Editionsprojekten, wie zum Beispiel:
-
Hybrid-Ausgabe der Hefte von Theodor Fontane (Fontane-Forschungsstelle der Universität Göttingen) - Textdatenbank und Wörterbuch der klassischen Maya (Universität Bonn) - die Bibliothek der Neologie (Universität Münster).
(siehe https://textgrid.de/en/web/guest/kooperationsprojekte)
TextGridLab TextGrid war ein Projekt von zehn Partnern, gefördert durch das Bundesministerium für Bildung und Forschung (BMBF) für den Zeitraum von Juni 2012 bis Mai 2015 (Förderkennzeichen: 01UG1203A). Seit 2016 ist TextGrid Teil der Forschungsinfrastruktur DARIAH-DE.
Kurzbeschreibung
Dokumentation
Beschreibung der Zielgruppe und ihrer Größe
Dateiformate und Sprachen
- SprachenDeutsch, Englisch
- text/plainPlain-Text-Datei
- application/xmlXTML-Datei
- image/tiff
- application/xml+tei, Schema
Anwendungstyp
Netzwerk- bzw. Sicherheitsanforderungen
- Prozessor32 / 64 bit
- BetriebssystemWindows, macOS, Linux, Linux
- LaufzeitumgebungJava Runtime Environment, JRE Version 6
- Installationslizenzhttps://textgrid.liferay.de.dariah.eu/en/web/guest/terms-of-use
Entwicklerdokumentation
Datenblatt (Fact sheet)
Ansprechpartner
- technische*r Ansprechpartner*infunk@sub.uni-goettingen.de, veentjer@sub.uni-goettingen.de, philipp.wieder@gwdg.de,
Version
Kategorie
Unterkategorie
Quellcode verfügbar
Datenschutzrichtlinie
Authentifizierung
Autor*innen
- TextGrid Research Association, Responsibilities
- Ubbo Veentjer
- Stefan Funnk
- Thorsten Vitt
- Philipp Wieder
Hoster
- SUB, Göttingen Germany
- GWDG, Göttingen Germany
Teil einer Anwendungssuite
Nutzungseinschränkungen für Nutzer*innen
zulässige Länder
TextGrid Repository Portal
Das TextGrid Repository ist ein Langzeitarchiv für geisteswissenschaftliche Forschungsdaten. Es liefert einen umfangreichen, durchsuch- und nachnutzbaren Bestand an Texten und Bildern. An den Grundsätzen von Open Access und den FAIR-Prinzipien orientiert, wurde das TextGrid Repository 2020 mit dem CoreTrustSeal versehen. Für Forschende bietet das TextGrid Repository eine nachhaltige, dauerhafte und sichere Möglichkeit, zur zitierfähigen Publikation ihrer Forschungsdaten und zur verständlichen Beschreibung derselben durch erforderliche Metadaten. Mehr zum Thema Nachhaltigkeit, FAIR und Open Access im Mission Statement des TextGrid Repository.
Dokumentation
Beschreibung der Zielgruppe und ihrer Größe
Dateiformate und Sprachen
- application/xml+tei, Schema
- text/plainPlain-Text-Datei
- application/epub+zip
- text/htmlHTML-Datei
- application/zipZIP-Archiv
Lokalisierung
Anwendungstyp
Entwicklerdokumentation
Datenblatt (Fact sheet)
Ansprechpartner
- technische*r Ansprechpartner*intextgrid-support@gwdg.de,
- inhaltliche*r Ansprechpartner*insupport@de.dariah.eu, https://de.dariah.eu,
Version
Kategorie
Unterkategorie
Quellcode verfügbar
Datenschutzrichtlinie
Authentifizierung
Autor*innen
Hoster
- Göttingen State and University Library (SUB), Göttingen Germany
- Gesellschaft für wissenschaftliche Datenverarbeitung mbH Göttingen (GWDG), Göttingen Germany
Nutzungseinschränkungen für Nutzer*innen
zulässige Länder
TF-IDF

TF, IDF, TF-IDF calculation.
Kurzbeschreibung
Dokumentation
Beschreibung der Zielgruppe und ihrer Größe
Dateiformate und Sprachen
- SprachenPolnisch
- text/plainPlain-Text-Datei
- application/mswordMicrosoft-Word-Datei
- application/vnd.openxmlformats-officedocument.wordprocessingml.documentMicrosoft-OpenXML-Textverarbeitungs-Datei (Word)
- application/vnd.openxmlformats-officedocument.presentationml.presentationMicrosoft-OpenXML-Präsentations-Datei (PowerPoint)
- application/vnd.openxmlformats-officedocument.spreadsheetml.sheetMicrosoft-OpenXML-Tabellenkalkulations-Datei (Excel)
- application/vnd.oasis.opendocument.textOpenDocument-Textdatei
- application/pdfAdobe-PDF-Datei
- text/htmlHTML-Datei
- text/rtfTextverarbeitungsdatei im Rich Text Format
- text/csvTabularische Daten, kommasepariert
Anwendungstyp
Datenblatt (Fact sheet)
Ansprechpartner
- technische*r Ansprechpartner*intomasz.walkowiak@pwr.edu.pl, Tomasz Walkowiak
Version
Kategorie
Unterkategorie
Datenübertragung: Verschlüsselung
Datenschutzrichtlinie
Authentifizierung
Autor*innen
Clarin-PL
Hoster
Nutzungseinschränkungen für Nutzer*innen
zulässige Länder
Topic

Topic modelling of texts in Polish. The tools used include: Morfeusz 2 with SGJP dictionary (for morphological analysis), wcrft2 (for tagging), gensim and mallet (for topic modelling), and D3.js plus D3-tip (for result visualisation).
Kurzbeschreibung
Dokumentation
Beschreibung der Zielgruppe und ihrer Größe
Dateiformate und Sprachen
- SprachenPolnisch
- application/zipZIP-Archiv
- application/octet-streambeliebige Binär-Dateien
Anwendungstyp
Datenblatt (Fact sheet)
Ansprechpartner
- technische*r Ansprechpartner*intomasz.walkowiak@pwr.edu.pl, Tomasz Walkowiak
Version
Kategorie
Unterkategorie
Datenübertragung: Verschlüsselung
Datenschutzrichtlinie
Authentifizierung
Autor*innen
Clarin-PL
Hoster
Nutzungseinschränkungen für Nutzer*innen
zulässige Länder
TopicsExplorer
Der Topics-Explorer wurde für Anwender ohne Programmierkenntnisse entwickelt.
Kurzbeschreibung
Dokumentation
- Tutorium (Sprache: Englisch)
- Handbuch (Sprache: Englisch)
- Beispiel
Beschreibung der Zielgruppe und ihrer Größe
Dateiformate und Sprachen
- Sprachenany
- text/plainPlain-Text-Datei
- text/xmlXML-Datei
- text/csvTabularische Daten, kommasepariert
Anwendungstyp
Entwicklerdokumentation
Datenblatt (Fact sheet)
Ansprechpartner
- technische*r Ansprechpartner*ininfo@de.dariah.eu
Version
Kategorie
Unterkategorie
Quellcode verfügbar
Datenschutzrichtlinie
Authentifizierung
Autor*innen
Hoster
Teil einer Anwendungssuite
Nutzungseinschränkungen für Nutzer*innen
zulässige Länder
Ucto

Ucto is a unicode-compliant tokeniser. It takes input in the form of one or more untokenised texts, and subsequently tokenises them. Several languages are supported, but the software is extensible to other languages.
Kurzbeschreibung
Dokumentation
Beschreibung der Zielgruppe und ihrer Größe
Lizenzen
Dateiformate und Sprachen
- SprachenSchwedisch, Russisch, Spanisch, Portugiesisch, Niederländisch, Englisch, Deutsch, Französisch, Italienisch
- text/plainPlain-Text-Datei
- Tadpole Columned Output Format
- text/folia+xmlDatei im Format Format for Linguistic Annotation (FoLiA)
Anwendungstyp
Datenblatt (Fact sheet)
Ansprechpartner
- technische*r Ansprechpartner*inproycon@anaproy.nl, Maarten van Gompel
Version
Kategorie
Unterkategorie
Datenübertragung: Verschlüsselung
Datenschutzrichtlinie
Authentifizierung
Anmeldebedingungen
Yes. Before tool use, please register at https://webservices-lst.science.ru.nl/register.
Autor*innen
Maarten van Gompel, Ko van der Sloot (CLST, Radboud University Nijmegen)
Hoster
Nutzungseinschränkungen für Nutzer*innen
zulässige Länder
UDPipe

UDPipe is an trainable pipeline for tokenization, tagging, lemmatization and dependency parsing of CoNLL-U files. UDPipe is language-agnostic and can be trained given only annotated data in CoNLL-U format. Trained models are provided for nearly all UD treebanks.
Kurzbeschreibung
Dokumentation
Beschreibung der Zielgruppe und ihrer Größe
Lizenzen
Dateiformate und Sprachen
- SprachenAfrikaans, Arabisch, Armenisch, Weißrussisch, Bulgarisch, Katalanisch, Tschechisch, Chinesisch, Kirchenslawisch, Koptisch, Tschechisch, Dänisch, Deutsch, Niederländisch, Neugriechisch, Englisch, Estnisch, Baskisch, Persisch, Finnisch, Französisch, Französisch, Altfranzösisch, Deutsch, Gälisch-Schottisch, Irisch, Galicisch, Gotisch, Griechisch, Neugriechisch, Hebräisch, Hindi, Kroatisch, Ungarisch, Armenisch, Bahasa Indonesia, Italienisch, Japanisch, Kasachisch, Koreanisch, Latein, Lettisch, Litauisch, lzh, Marathi, Maltesisch, Niederländisch, Nynorsk, Bokmål, orv, Persisch, Polnisch, Portugiesisch, Rumänisch, Rumänisch, Russisch, Sanskrit, Slowakisch, Slowakisch, Slowenisch, Nordsaamisch, Spanisch, Serbisch, Schwedisch, Tamil, Telugu-Sprache, Türkisch, Uigurisch, Ukrainisch, Urdu, Vietnamesisch, wof, Wolof-Sprache, Chinesisch
- text/plainPlain-Text-Datei
- CoNLL-U Format
Anwendungstyp
Datenblatt (Fact sheet)
Ansprechpartner
- technische*r Ansprechpartner*instraka@ufal.mff.cuni.cz, Milan Straka
Version
Kategorie
Unterkategorie
Datenübertragung: Verschlüsselung
Datenschutzrichtlinie
Authentifizierung
Autor*innen
Milan Straka, Jana Straková
Hoster
Nutzungseinschränkungen für Nutzer*innen
zulässige Länder
Valkuil (folia+xml)

Valkuil is a Dutch spelling correction system.
Kurzbeschreibung
Dokumentation
Beschreibung der Zielgruppe und ihrer Größe
Dateiformate und Sprachen
- SprachenNiederländisch
- text/folia+xmlDatei im Format Format for Linguistic Annotation (FoLiA)
- text/folia+xmlDatei im Format Format for Linguistic Annotation (FoLiA)
Anwendungstyp
Datenblatt (Fact sheet)
Ansprechpartner
- technische*r Ansprechpartner*inproycon@anaproy.nl, Maarten van Gompel
Version
Kategorie
Unterkategorie
Datenübertragung: Verschlüsselung
Datenschutzrichtlinie
Authentifizierung
Anmeldebedingungen
Yes. Before tool use, please register at https://webservices-lst.science.ru.nl/register.
Autor*innen
Maarten van Gompel, Ko van der Sloot (CLST, Radboud University Nijmegen)
Hoster
Nutzungseinschränkungen für Nutzer*innen
zulässige Länder
Valkuil (plain text)

Valkuil is a Dutch spelling correction system.
Kurzbeschreibung
Dokumentation
Beschreibung der Zielgruppe und ihrer Größe
Dateiformate und Sprachen
- SprachenNiederländisch
- text/plainPlain-Text-Datei
- text/folia+xmlDatei im Format Format for Linguistic Annotation (FoLiA)
Anwendungstyp
Datenblatt (Fact sheet)
Ansprechpartner
- technische*r Ansprechpartner*inproycon@anaproy.nl, Maarten van Gompel
Version
Kategorie
Unterkategorie
Datenübertragung: Verschlüsselung
Datenschutzrichtlinie
Authentifizierung
Anmeldebedingungen
Yes. Before tool use, please register at https://webservices-lst.science.ru.nl/register.
Autor*innen
Maarten van Gompel, Ko van der Sloot (CLST, Radboud University Nijmegen)
Hoster
Nutzungseinschränkungen für Nutzer*innen
zulässige Länder
Voyant Tools

Use it to learn how computers-assisted analysis works. Check out our examples that show you how to do real academic tasks with Voyant. Use it to study texts that you find on the web or texts that you have carefully edited and have on your computer. Use it to add functionality to your online collections, journals, blogs or web sites so others can see through your texts with analytical tools. Use it to add interactive evidence to your essays that you publish online. Add interactive panels right into your research essays (if they can be published online) so your readers can recapitulate your results. Use it to develop your own tools using our functionality and code.
Kurzbeschreibung
Dokumentation
Beschreibung der Zielgruppe und ihrer Größe
Dateiformate und Sprachen
- SprachenEnglisch, Deutsch, Spanisch, Niederländisch, Französisch, generic
- text/plainPlain-Text-Datei
- text/rtfTextverarbeitungsdatei im Rich Text Format
- application/pdfAdobe-PDF-Datei
- application/mswordMicrosoft-Word-Datei
- application/vnd.openxmlformats-officedocument.wordprocessingml.documentMicrosoft-OpenXML-Textverarbeitungs-Datei (Word)
- application/tei+xmlTEI-P5-konformes XML
- application/tei+xml;format-variant=tei-dtaTexte im DTA-Basis-Format
- nonekeine
Anwendungstyp
Datenblatt (Fact sheet)
Ansprechpartner
- technische*r Ansprechpartner*inswitchboard@clarin.eu, Unknown Person
Version
Kategorie
Unterkategorie
Datenübertragung: Verschlüsselung
Datenschutzrichtlinie
Authentifizierung
Autor*innen
Stéfan Sinclair (McGill Alberta) and Geoffrey Rockwell (U Alberta)
Hoster
Nutzungseinschränkungen für Nutzer*innen
zulässige Länder
WCRFT2

Morpho-syntactic tagger for Polish - WCRFT2
Kurzbeschreibung
Dokumentation
Beschreibung der Zielgruppe und ihrer Größe
Dateiformate und Sprachen
- SprachenPolnisch
- text/plainPlain-Text-Datei
- application/mswordMicrosoft-Word-Datei
- application/vnd.openxmlformats-officedocument.wordprocessingml.documentMicrosoft-OpenXML-Textverarbeitungs-Datei (Word)
- application/vnd.openxmlformats-officedocument.presentationml.presentationMicrosoft-OpenXML-Präsentations-Datei (PowerPoint)
- application/vnd.openxmlformats-officedocument.spreadsheetml.sheetMicrosoft-OpenXML-Tabellenkalkulations-Datei (Excel)
- application/vnd.oasis.opendocument.textOpenDocument-Textdatei
- application/pdfAdobe-PDF-Datei
- text/htmlHTML-Datei
- text/rtfTextverarbeitungsdatei im Rich Text Format
- application/xmlXTML-Datei
Anwendungstyp
Datenblatt (Fact sheet)
Ansprechpartner
- technische*r Ansprechpartner*intomasz.walkowiak@pwr.edu.pl, Tomasz Walkowiak
Version
Kategorie
Unterkategorie
Datenübertragung: Verschlüsselung
Datenschutzrichtlinie
Authentifizierung
Autor*innen
Clarin-PL
Hoster
Nutzungseinschränkungen für Nutzer*innen
zulässige Länder
WebLicht Advanced Mode

This tool links to the WebLicht environment without preselecting an execution chain. WebLicht is an execution environment for automatic annotation of text corpora. Linguistic tools such as tokenizers, part of speech taggers, and parsers are encapsulated as web services, which can be combined by the user into custom processing chains. The resulting annotations can then be visualized in an appropriate way, such as in a table or tree format.
Kurzbeschreibung
Dokumentation
Beschreibung der Zielgruppe und ihrer Größe
Dateiformate und Sprachen
- Sprachengeneric
- text/plainPlain-Text-Datei
- text/rtfTextverarbeitungsdatei im Rich Text Format
- application/pdfAdobe-PDF-Datei
- application/mswordMicrosoft-Word-Datei
- application/vnd.openxmlformats-officedocument.wordprocessingml.documentMicrosoft-OpenXML-Textverarbeitungs-Datei (Word)
- application/tcf+xmlTCF-Datei
Anwendungstyp
Datenblatt (Fact sheet)
Ansprechpartner
- technische*r Ansprechpartner*inwlsupport@sfs.uni-tuebingen.de, CLARIN WebLicht Support
Version
Kategorie
Unterkategorie
Datenübertragung: Verschlüsselung
Datenschutzrichtlinie
Authentifizierung
Anmeldebedingungen
Requires a CLARIN Service Provider Federation account, provided by many universities and institutions.
Autor*innen
CLARIN-D Centre at the University of Tuebingen, Germany
Hoster
Nutzungseinschränkungen für Nutzer*innen
zulässige Länder
WebLicht-Const-Parsing-DE

WebLicht Easy Chain for Constituency Parsing (German). The pipeline makes use of WebLicht's TCF converter, the tokenizer and sentence boundary detector of the IMS/Stuttgart , and the constituent parser from the Berkeley NLP project. WebLicht's Tundra can be used to visualize the result.
Kurzbeschreibung
Dokumentation
Beschreibung der Zielgruppe und ihrer Größe
Dateiformate und Sprachen
- SprachenDeutsch
- text/plainPlain-Text-Datei
- text/rtfTextverarbeitungsdatei im Rich Text Format
- application/pdfAdobe-PDF-Datei
- application/mswordMicrosoft-Word-Datei
- application/vnd.openxmlformats-officedocument.wordprocessingml.documentMicrosoft-OpenXML-Textverarbeitungs-Datei (Word)
- application/tcf+xmlTCF-Datei
Anwendungstyp
Datenblatt (Fact sheet)
Ansprechpartner
- technische*r Ansprechpartner*inwlsupport@sfs.uni-tuebingen.de, CLARIN WebLicht Support
Version
Kategorie
Unterkategorie
Datenübertragung: Verschlüsselung
Datenschutzrichtlinie
Authentifizierung
Anmeldebedingungen
Requires a CLARIN Service Provider Federation account, provided by many universities and institutions.
Autor*innen
CLARIN-D Centre at the University of Tuebingen, Germany
Hoster
Nutzungseinschränkungen für Nutzer*innen
zulässige Länder
WebLicht-Const-Parsing-EN

WebLicht Easy Chain for Constituency Parsing (English). The pipeline makes use of WebLicht's TCF converter, the Stanford tokenizer, and the statistical BLLIP/Charniak parser. WebLicht's Tundra can be used to visualize the result.
Kurzbeschreibung
Dokumentation
Beschreibung der Zielgruppe und ihrer Größe
Dateiformate und Sprachen
- SprachenEnglisch
- text/plainPlain-Text-Datei
- text/rtfTextverarbeitungsdatei im Rich Text Format
- application/pdfAdobe-PDF-Datei
- application/mswordMicrosoft-Word-Datei
- application/vnd.openxmlformats-officedocument.wordprocessingml.documentMicrosoft-OpenXML-Textverarbeitungs-Datei (Word)
- application/tcf+xmlTCF-Datei
Anwendungstyp
Datenblatt (Fact sheet)
Ansprechpartner
- technische*r Ansprechpartner*inwlsupport@sfs.uni-tuebingen.de, CLARIN WebLicht Support
Version
Kategorie
Unterkategorie
Datenübertragung: Verschlüsselung
Datenschutzrichtlinie
Authentifizierung
Anmeldebedingungen
Requires a CLARIN Service Provider Federation account, provided by many universities and institutions.
Autor*innen
CLARIN-D Centre at the University of Tuebingen, Germany
Hoster
Nutzungseinschränkungen für Nutzer*innen
zulässige Länder
WebLicht-Dep-Parsing-DE

WebLicht Easy Chain for Dependency Parsing (German). The pipeline makes use of WebLicht's TCF converter, the IMS tokenizer, the POS Tagger from the OpenNLP projet, and the MaltParser, a system for data-driven dependency parsing. WebLicht's Tundra can be used to visualize the result.
Kurzbeschreibung
Dokumentation
Beschreibung der Zielgruppe und ihrer Größe
Dateiformate und Sprachen
- SprachenDeutsch
- text/plainPlain-Text-Datei
- text/rtfTextverarbeitungsdatei im Rich Text Format
- application/pdfAdobe-PDF-Datei
- application/mswordMicrosoft-Word-Datei
- application/vnd.openxmlformats-officedocument.wordprocessingml.documentMicrosoft-OpenXML-Textverarbeitungs-Datei (Word)
- application/tcf+xmlTCF-Datei
Anwendungstyp
Datenblatt (Fact sheet)
Ansprechpartner
- technische*r Ansprechpartner*inwlsupport@sfs.uni-tuebingen.de, CLARIN WebLicht Support
Version
Kategorie
Unterkategorie
Datenübertragung: Verschlüsselung
Datenschutzrichtlinie
Authentifizierung
Anmeldebedingungen
Requires a CLARIN Service Provider Federation account, provided by many universities and institutions.
Autor*innen
CLARIN-D Centre at the University of Tuebingen, Germany
Hoster
Nutzungseinschränkungen für Nutzer*innen
zulässige Länder
WebLicht-Dep-Parsing-EN

WebLicht Easy Chain for Dependency Parsing (English). The pipeline makes use of WebLicht's TCF converter, the Stanford tokenizer, the Jitar POS Tagger, and TurboParser, a multilingual dependency parser based on linear programming relaxations. WebLicht's Tundra can be used to visualize the result.
Kurzbeschreibung
Dokumentation
Beschreibung der Zielgruppe und ihrer Größe
Dateiformate und Sprachen
- SprachenEnglisch
- text/plainPlain-Text-Datei
- text/rtfTextverarbeitungsdatei im Rich Text Format
- application/pdfAdobe-PDF-Datei
- application/mswordMicrosoft-Word-Datei
- application/vnd.openxmlformats-officedocument.wordprocessingml.documentMicrosoft-OpenXML-Textverarbeitungs-Datei (Word)
- application/tcf+xmlTCF-Datei
Anwendungstyp
Datenblatt (Fact sheet)
Ansprechpartner
- technische*r Ansprechpartner*inwlsupport@sfs.uni-tuebingen.de, CLARIN WebLicht Support
Version
Kategorie
Unterkategorie
Datenübertragung: Verschlüsselung
Datenschutzrichtlinie
Authentifizierung
Anmeldebedingungen
Requires a CLARIN Service Provider Federation account, provided by many universities and institutions.
Autor*innen
CLARIN-D Centre at the University of Tuebingen, Germany
Hoster
Nutzungseinschränkungen für Nutzer*innen
zulässige Länder
WebLicht-Dep-Parsing-HR (RELDI)

WebLicht Easy Chain for Dependency Parsing (Croatian). The easy-chain makes use of the RELDI software (see https://github.com/clarinsi), which tokenizes and lemmatizes the text, performs part-of-speech tagging, and subsequently, does dependency parsing. For RELDI specific inquiries, please contact nljubesi@gmail.com.
Kurzbeschreibung
Dokumentation
Beschreibung der Zielgruppe und ihrer Größe
Dateiformate und Sprachen
- SprachenKroatisch
- text/plainPlain-Text-Datei
- text/rtfTextverarbeitungsdatei im Rich Text Format
- application/pdfAdobe-PDF-Datei
- application/mswordMicrosoft-Word-Datei
- application/vnd.openxmlformats-officedocument.wordprocessingml.documentMicrosoft-OpenXML-Textverarbeitungs-Datei (Word)
- application/tcf+xmlTCF-Datei
Anwendungstyp
Datenblatt (Fact sheet)
Ansprechpartner
- technische*r Ansprechpartner*inwlsupport@sfs.uni-tuebingen.de, CLARIN WebLicht Support
Version
Kategorie
Unterkategorie
Datenübertragung: Verschlüsselung
Datenschutzrichtlinie
Authentifizierung
Anmeldebedingungen
Requires a CLARIN Service Provider Federation account, provided by many universities and institutions.
Autor*innen
CLARIN-D Centre at the University of Tuebingen, Germany
Hoster
Nutzungseinschränkungen für Nutzer*innen
zulässige Länder
WebLicht-Dep-Parsing-NL-ALPINO

WebLicht Easy Chain for Dependency Parsing (Dutch). The pipeline makes use of WebLicht's TCF converter, the tokenizer and sentence splitter from Alpino, and the Alpino dependency parser for Dutch. WebLicht's Tundra can be used to visualize the result.
Kurzbeschreibung
Dokumentation
Beschreibung der Zielgruppe und ihrer Größe
Dateiformate und Sprachen
- SprachenNiederländisch
- text/plainPlain-Text-Datei
- text/rtfTextverarbeitungsdatei im Rich Text Format
- application/pdfAdobe-PDF-Datei
- application/mswordMicrosoft-Word-Datei
- application/vnd.openxmlformats-officedocument.wordprocessingml.documentMicrosoft-OpenXML-Textverarbeitungs-Datei (Word)
- application/tcf+xmlTCF-Datei
Anwendungstyp
Datenblatt (Fact sheet)
Ansprechpartner
- technische*r Ansprechpartner*inwlsupport@sfs.uni-tuebingen.de, CLARIN WebLicht Support
Version
Kategorie
Unterkategorie
Datenübertragung: Verschlüsselung
Datenschutzrichtlinie
Authentifizierung
Anmeldebedingungen
Requires a CLARIN Service Provider Federation account, provided by many universities and institutions.
Autor*innen
CLARIN-D Centre at the University of Tuebingen, Germany
Hoster
Nutzungseinschränkungen für Nutzer*innen
zulässige Länder
WebLicht-Dep-Parsing-SL (RELDI)

WebLicht Easy Chain for Dependency Parsing (Slovenian). The easy-chain makes use of the RELDI software (see https://github.com/clarinsi), which tokenizes and lemmatizes the text, performs part-of-speech tagging, and subsequently, does dependency parsing. For RELDI specific inquiries, please contact nljubesi@gmail.com.
Kurzbeschreibung
Dokumentation
Beschreibung der Zielgruppe und ihrer Größe
Dateiformate und Sprachen
- SprachenSlowenisch
- text/plainPlain-Text-Datei
- text/rtfTextverarbeitungsdatei im Rich Text Format
- application/pdfAdobe-PDF-Datei
- application/mswordMicrosoft-Word-Datei
- application/vnd.openxmlformats-officedocument.wordprocessingml.documentMicrosoft-OpenXML-Textverarbeitungs-Datei (Word)
- application/tcf+xmlTCF-Datei
Anwendungstyp
Datenblatt (Fact sheet)
Ansprechpartner
- technische*r Ansprechpartner*inwlsupport@sfs.uni-tuebingen.de, CLARIN WebLicht Support
Version
Kategorie
Unterkategorie
Datenübertragung: Verschlüsselung
Datenschutzrichtlinie
Authentifizierung
Anmeldebedingungen
Requires a CLARIN Service Provider Federation account, provided by many universities and institutions.
Autor*innen
CLARIN-D Centre at the University of Tuebingen, Germany
Hoster
Nutzungseinschränkungen für Nutzer*innen
zulässige Länder
WebLicht-Dep-Parsing-SR (RELDI)

WebLicht Easy Chain for Dependency Parsing (Serbian). The easy-chain makes use of the RELDI software (see https://github.com/clarinsi), which tokenizes and lemmatizes the text, performs part-of-speech tagging, and subsequently, does dependency parsing. For RELDI specific inquiries, please contact nljubesi@gmail.com.
Kurzbeschreibung
Dokumentation
Beschreibung der Zielgruppe und ihrer Größe
Dateiformate und Sprachen
- SprachenSerbisch
- text/plainPlain-Text-Datei
- text/rtfTextverarbeitungsdatei im Rich Text Format
- application/pdfAdobe-PDF-Datei
- application/mswordMicrosoft-Word-Datei
- application/vnd.openxmlformats-officedocument.wordprocessingml.documentMicrosoft-OpenXML-Textverarbeitungs-Datei (Word)
- application/tcf+xmlTCF-Datei
Anwendungstyp
Datenblatt (Fact sheet)
Ansprechpartner
- technische*r Ansprechpartner*inwlsupport@sfs.uni-tuebingen.de, CLARIN WebLicht Support
Version
Kategorie
Unterkategorie
Datenübertragung: Verschlüsselung
Datenschutzrichtlinie
Authentifizierung
Anmeldebedingungen
Requires a CLARIN Service Provider Federation account, provided by many universities and institutions.
Autor*innen
CLARIN-D Centre at the University of Tuebingen, Germany
Hoster
Nutzungseinschränkungen für Nutzer*innen
zulässige Länder
WebLicht-Lemmas-DE

WebLicht Easy Chain for Lemmatization (German). The pipeline makes use of WebLicht's TCF converter, the IMS tokenizer, and the IMS TreeTagger. WebLicht's Tundra can be used to visualize the result.
Kurzbeschreibung
Dokumentation
Beschreibung der Zielgruppe und ihrer Größe
Dateiformate und Sprachen
- SprachenDeutsch
- text/plainPlain-Text-Datei
- text/rtfTextverarbeitungsdatei im Rich Text Format
- application/pdfAdobe-PDF-Datei
- application/mswordMicrosoft-Word-Datei
- application/vnd.openxmlformats-officedocument.wordprocessingml.documentMicrosoft-OpenXML-Textverarbeitungs-Datei (Word)
- application/tcf+xmlTCF-Datei
Anwendungstyp
Datenblatt (Fact sheet)
Ansprechpartner
- technische*r Ansprechpartner*inwlsupport@sfs.uni-tuebingen.de, CLARIN WebLicht Support
Version
Kategorie
Unterkategorie
Datenübertragung: Verschlüsselung
Datenschutzrichtlinie
Authentifizierung
Anmeldebedingungen
Requires a CLARIN Service Provider Federation account, provided by many universities and institutions.
Autor*innen
CLARIN-D Centre at the University of Tuebingen, Germany
Hoster
Nutzungseinschränkungen für Nutzer*innen
zulässige Länder
WebLicht-Lemmas-EN

WebLicht Easy Chain for Lemmatization (English). The pipeline makes use of WebLicht's TCF converter, the Stanford tokenizer, the Jitar POS Tagger, and the lemmatizer service from MorphAdorner. WebLicht's Tundra can be used to visualize the result.
Kurzbeschreibung
Dokumentation
Beschreibung der Zielgruppe und ihrer Größe
Dateiformate und Sprachen
- SprachenEnglisch
- text/plainPlain-Text-Datei
- text/rtfTextverarbeitungsdatei im Rich Text Format
- application/pdfAdobe-PDF-Datei
- application/mswordMicrosoft-Word-Datei
- application/vnd.openxmlformats-officedocument.wordprocessingml.documentMicrosoft-OpenXML-Textverarbeitungs-Datei (Word)
- application/tcf+xmlTCF-Datei
Anwendungstyp
Datenblatt (Fact sheet)
Ansprechpartner
- technische*r Ansprechpartner*inwlsupport@sfs.uni-tuebingen.de, CLARIN WebLicht Support
Version
Kategorie
Unterkategorie
Datenübertragung: Verschlüsselung
Datenschutzrichtlinie
Authentifizierung
Anmeldebedingungen
Requires a CLARIN Service Provider Federation account, provided by many universities and institutions.
Autor*innen
CLARIN-D Centre at the University of Tuebingen, Germany
Hoster
Nutzungseinschränkungen für Nutzer*innen
zulässige Länder
WebLicht-Morphology-DE

WebLicht Easy Chain for Morphological Analysis (German). The pipeline makes use of WebLicht's TCF converter, the IMS tokenizer, and the IMS tool on German morphology. WebLicht's Tundra can be used to visualize the result.
Kurzbeschreibung
Dokumentation
Beschreibung der Zielgruppe und ihrer Größe
Dateiformate und Sprachen
- SprachenDeutsch
- text/plainPlain-Text-Datei
- text/rtfTextverarbeitungsdatei im Rich Text Format
- application/pdfAdobe-PDF-Datei
- application/mswordMicrosoft-Word-Datei
- application/vnd.openxmlformats-officedocument.wordprocessingml.documentMicrosoft-OpenXML-Textverarbeitungs-Datei (Word)
- application/tcf+xmlTCF-Datei
Anwendungstyp
Datenblatt (Fact sheet)
Ansprechpartner
- technische*r Ansprechpartner*inwlsupport@sfs.uni-tuebingen.de, CLARIN WebLicht Support
Version
Kategorie
Unterkategorie
Datenübertragung: Verschlüsselung
Datenschutzrichtlinie
Authentifizierung
Anmeldebedingungen
Requires a CLARIN Service Provider Federation account, provided by many universities and institutions.
Autor*innen
CLARIN-D Centre at the University of Tuebingen, Germany
Hoster
Nutzungseinschränkungen für Nutzer*innen
zulässige Länder
WebLicht-Morphology-EN

WebLicht Easy Chain for Morphological Analysis (English). The pipeline makes use of WebLicht's TCF converter, the Stanford tokenizer, and the morphology analysis service from MorphAdorner. WebLicht's Tundra can be used to visualize the result.
Kurzbeschreibung
Dokumentation
Beschreibung der Zielgruppe und ihrer Größe
Dateiformate und Sprachen
- SprachenEnglisch
- text/plainPlain-Text-Datei
- text/rtfTextverarbeitungsdatei im Rich Text Format
- application/pdfAdobe-PDF-Datei
- application/mswordMicrosoft-Word-Datei
- application/vnd.openxmlformats-officedocument.wordprocessingml.documentMicrosoft-OpenXML-Textverarbeitungs-Datei (Word)
- application/tcf+xmlTCF-Datei
Anwendungstyp
Datenblatt (Fact sheet)
Ansprechpartner
- technische*r Ansprechpartner*inwlsupport@sfs.uni-tuebingen.de, CLARIN WebLicht Support
Version
Kategorie
Unterkategorie
Datenübertragung: Verschlüsselung
Datenschutzrichtlinie
Authentifizierung
Anmeldebedingungen
Requires a CLARIN Service Provider Federation account, provided by many universities and institutions.
Autor*innen
CLARIN-D Centre at the University of Tuebingen, Germany
Hoster
Nutzungseinschränkungen für Nutzer*innen
zulässige Länder
WebLicht-NamedEntities-DE

WebLicht Easy Chain for German Named Entity Recognition (German). The pipeline makes use of WebLicht's TCF converter, the IMS tokenizer, the IMS TreeTagger, and a German Named Entity Recognizer that has been trained based on a maximum entropy approach using the OpenNLP maxent library. WebLicht's Tundra can be used to visualize the result.
Kurzbeschreibung
Dokumentation
Beschreibung der Zielgruppe und ihrer Größe
Dateiformate und Sprachen
- SprachenDeutsch
- text/plainPlain-Text-Datei
- text/rtfTextverarbeitungsdatei im Rich Text Format
- application/pdfAdobe-PDF-Datei
- application/mswordMicrosoft-Word-Datei
- application/vnd.openxmlformats-officedocument.wordprocessingml.documentMicrosoft-OpenXML-Textverarbeitungs-Datei (Word)
- application/tcf+xmlTCF-Datei
Anwendungstyp
Datenblatt (Fact sheet)
Ansprechpartner
- technische*r Ansprechpartner*inwlsupport@sfs.uni-tuebingen.de, CLARIN WebLicht Support
Version
Kategorie
Unterkategorie
Datenübertragung: Verschlüsselung
Datenschutzrichtlinie
Authentifizierung
Anmeldebedingungen
Requires a CLARIN Service Provider Federation account, provided by many universities and institutions.
Autor*innen
CLARIN-D Centre at the University of Tuebingen, Germany
Hoster
Nutzungseinschränkungen für Nutzer*innen
zulässige Länder
WebLicht-NamedEntities-EN

WebLicht Easy Chain for Named Entity Recognition (English). The pipeline makes use of WebLicht's TCF converter, the Stanford tokenizer, and the Illinois Named Entity Recognizer. WebLicht's Tundra can be used to visualize the result.
Kurzbeschreibung
Dokumentation
Beschreibung der Zielgruppe und ihrer Größe
Dateiformate und Sprachen
- SprachenEnglisch
- text/plainPlain-Text-Datei
- text/rtfTextverarbeitungsdatei im Rich Text Format
- application/pdfAdobe-PDF-Datei
- application/mswordMicrosoft-Word-Datei
- application/vnd.openxmlformats-officedocument.wordprocessingml.documentMicrosoft-OpenXML-Textverarbeitungs-Datei (Word)
- application/tcf+xmlTCF-Datei
Anwendungstyp
Datenblatt (Fact sheet)
Ansprechpartner
- technische*r Ansprechpartner*inwlsupport@sfs.uni-tuebingen.de, CLARIN WebLicht Support
Version
Kategorie
Unterkategorie
Datenübertragung: Verschlüsselung
Datenschutzrichtlinie
Authentifizierung
Anmeldebedingungen
Requires a CLARIN Service Provider Federation account, provided by many universities and institutions.
Autor*innen
CLARIN-D Centre at the University of Tuebingen, Germany
Hoster
Nutzungseinschränkungen für Nutzer*innen
zulässige Länder
WebLicht-NamedEntities-SL

WebLicht Easy Chain for Named Entity Recognition (Slovenian). The easy-chain makes use of the ReLDI tag, NER JSI software, which performs NER without a parse.
Kurzbeschreibung
Dokumentation
Beschreibung der Zielgruppe und ihrer Größe
Dateiformate und Sprachen
- SprachenSlowenisch
- text/plainPlain-Text-Datei
- text/rtfTextverarbeitungsdatei im Rich Text Format
- application/pdfAdobe-PDF-Datei
- application/mswordMicrosoft-Word-Datei
- application/vnd.openxmlformats-officedocument.wordprocessingml.documentMicrosoft-OpenXML-Textverarbeitungs-Datei (Word)
- application/tcf+xmlTCF-Datei
Anwendungstyp
Datenblatt (Fact sheet)
Ansprechpartner
- technische*r Ansprechpartner*inwlsupport@sfs.uni-tuebingen.de, CLARIN WebLicht Support
Version
Kategorie
Unterkategorie
Datenübertragung: Verschlüsselung
Datenschutzrichtlinie
Authentifizierung
Anmeldebedingungen
Requires a CLARIN Service Provider Federation account, provided by many universities and institutions.
Autor*innen
CLARIN-D Centre at the University of Tuebingen, Germany
Hoster
Nutzungseinschränkungen für Nutzer*innen
zulässige Länder
WebLicht-POSTags-Lemmas-DE

WebLicht Easy Chain for POS Tagging and Lemmatization (German). The pipeline makes use of WebLicht's TCF converter, the IMS tokenizer, and the IMS TreeTagger. WebLicht's Tundra can be used to visualize the result.
Kurzbeschreibung
Dokumentation
Beschreibung der Zielgruppe und ihrer Größe
Dateiformate und Sprachen
- SprachenDeutsch
- text/plainPlain-Text-Datei
- text/rtfTextverarbeitungsdatei im Rich Text Format
- application/pdfAdobe-PDF-Datei
- application/mswordMicrosoft-Word-Datei
- application/vnd.openxmlformats-officedocument.wordprocessingml.documentMicrosoft-OpenXML-Textverarbeitungs-Datei (Word)
- application/tcf+xmlTCF-Datei
Anwendungstyp
Datenblatt (Fact sheet)
Ansprechpartner
- technische*r Ansprechpartner*inwlsupport@sfs.uni-tuebingen.de, CLARIN WebLicht Support
Version
Kategorie
Unterkategorie
Datenübertragung: Verschlüsselung
Datenschutzrichtlinie
Authentifizierung
Anmeldebedingungen
Requires a CLARIN Service Provider Federation account, provided by many universities and institutions.
Autor*innen
CLARIN-D Centre at the University of Tuebingen, Germany
Hoster
Nutzungseinschränkungen für Nutzer*innen
zulässige Länder
WebLicht-POSTags-Lemmas-EN

WebLicht Easy Chain for POS Tagging and Lemmatization (English). The pipeline makes use of WebLicht's TCF converter, the Stanford tokenizer, the Jitar POS Tagger, and the lemmatizer service from MorphAdorner. WebLicht's Tundra can be used to visualize the result.
Kurzbeschreibung
Dokumentation
Beschreibung der Zielgruppe und ihrer Größe
Dateiformate und Sprachen
- SprachenEnglisch
- text/plainPlain-Text-Datei
- text/rtfTextverarbeitungsdatei im Rich Text Format
- application/pdfAdobe-PDF-Datei
- application/mswordMicrosoft-Word-Datei
- application/vnd.openxmlformats-officedocument.wordprocessingml.documentMicrosoft-OpenXML-Textverarbeitungs-Datei (Word)
- application/tcf+xmlTCF-Datei
Anwendungstyp
Datenblatt (Fact sheet)
Ansprechpartner
- technische*r Ansprechpartner*inwlsupport@sfs.uni-tuebingen.de, CLARIN WebLicht Support
Version
Kategorie
Unterkategorie
Datenübertragung: Verschlüsselung
Datenschutzrichtlinie
Authentifizierung
Anmeldebedingungen
Requires a CLARIN Service Provider Federation account, provided by many universities and institutions.
Autor*innen
CLARIN-D Centre at the University of Tuebingen, Germany
Hoster
Nutzungseinschränkungen für Nutzer*innen
zulässige Länder
WebLicht-POSTags-Lemmas-FR

WebLicht Easy Chain for POS Tagging and Lemmatization (French). The pipeline makes use of WebLicht's TCF converter, the IMS tokenizer, and the IMS TreeTagger. WebLicht's Tundra can be used to visualize the result.
Kurzbeschreibung
Dokumentation
Beschreibung der Zielgruppe und ihrer Größe
Dateiformate und Sprachen
- SprachenFranzösisch
- text/plainPlain-Text-Datei
- text/rtfTextverarbeitungsdatei im Rich Text Format
- application/pdfAdobe-PDF-Datei
- application/mswordMicrosoft-Word-Datei
- application/vnd.openxmlformats-officedocument.wordprocessingml.documentMicrosoft-OpenXML-Textverarbeitungs-Datei (Word)
- application/tcf+xmlTCF-Datei
Anwendungstyp
Datenblatt (Fact sheet)
Ansprechpartner
- technische*r Ansprechpartner*inwlsupport@sfs.uni-tuebingen.de, CLARIN WebLicht Support
Version
Kategorie
Unterkategorie
Datenübertragung: Verschlüsselung
Datenschutzrichtlinie
Authentifizierung
Anmeldebedingungen
Requires a CLARIN Service Provider Federation account, provided by many universities and institutions.
Autor*innen
CLARIN-D Centre at the University of Tuebingen, Germany
Hoster
Nutzungseinschränkungen für Nutzer*innen
zulässige Länder
WebLicht-POSTags-Lemmas-IT

WebLicht Easy Chain for POS Tagging and Lemmatization (Italian). The pipeline makes use of WebLicht's TCF converter, the IMS tokenizer, and the POS Tagger from the OpenNLP project. The model for Italian is trained on a relatively small training corpus (MIDT) and should therefore be considered experimental. WebLicht's Tundra can be used to visualize the result.
Kurzbeschreibung
Dokumentation
Beschreibung der Zielgruppe und ihrer Größe
Dateiformate und Sprachen
- SprachenItalienisch
- text/plainPlain-Text-Datei
- text/rtfTextverarbeitungsdatei im Rich Text Format
- application/pdfAdobe-PDF-Datei
- application/mswordMicrosoft-Word-Datei
- application/vnd.openxmlformats-officedocument.wordprocessingml.documentMicrosoft-OpenXML-Textverarbeitungs-Datei (Word)
- application/tcf+xmlTCF-Datei
Anwendungstyp
Datenblatt (Fact sheet)
Ansprechpartner
- technische*r Ansprechpartner*inwlsupport@sfs.uni-tuebingen.de, CLARIN WebLicht Support
Version
Kategorie
Unterkategorie
Datenübertragung: Verschlüsselung
Datenschutzrichtlinie
Authentifizierung
Anmeldebedingungen
Requires a CLARIN Service Provider Federation account, provided by many universities and institutions.
Autor*innen
CLARIN-D Centre at the University of Tuebingen, Germany
Hoster
Nutzungseinschränkungen für Nutzer*innen
zulässige Länder
WebLicht-Tokenization-TUR

WebLicht Easy Chain for tokenization of Turkish texts. The pipeline makes use of WebLicht's TCF converter, and the tokenizer from the OpenNLP project. The 'newlineBounds' parameter treats newlines as a hard break (a sentence boundary). WebLicht's built-in viewer for annotations can be used to visualize the processing result.
Kurzbeschreibung
Dokumentation
Beschreibung der Zielgruppe und ihrer Größe
Dateiformate und Sprachen
- SprachenTürkisch
- text/plainPlain-Text-Datei
- text/rtfTextverarbeitungsdatei im Rich Text Format
- application/pdfAdobe-PDF-Datei
- application/mswordMicrosoft-Word-Datei
- application/vnd.openxmlformats-officedocument.wordprocessingml.documentMicrosoft-OpenXML-Textverarbeitungs-Datei (Word)
- application/tcf+xmlTCF-Datei
Anwendungstyp
Datenblatt (Fact sheet)
Ansprechpartner
- technische*r Ansprechpartner*inwlsupport@sfs.uni-tuebingen.de, CLARIN WebLicht Support
Version
Kategorie
Unterkategorie
Datenübertragung: Verschlüsselung
Datenschutzrichtlinie
Authentifizierung
Anmeldebedingungen
Requires a CLARIN Service Provider Federation account, provided by many universities and institutions.
Autor*innen
CLARIN-D Centre at the University of Tuebingen, Germany
Hoster
Nutzungseinschränkungen für Nutzer*innen
zulässige Länder
WebSty

Similarity and clustering of texts in Polish. The tools used include: Morfeusz 2 with SGJP dictionary (for morphological analysis), wcrft2 (for tagging), Liner2 (for named entities recognition), Fextor (for extraction of feaures from texts); Cluto (for clustering), result visualisation: D3.js, D3-tip. For zip files with content in English, German, Russian, Hungarian, and Spanish, users are redirected to WebStyML.
Kurzbeschreibung
Dokumentation
Beschreibung der Zielgruppe und ihrer Größe
Dateiformate und Sprachen
- SprachenPolnisch, Englisch, Deutsch, Russisch, Ungarisch, Spanisch
- application/zipZIP-Archiv
- application/octet-streambeliebige Binär-Dateien
Anwendungstyp
Datenblatt (Fact sheet)
Ansprechpartner
- technische*r Ansprechpartner*intomasz.walkowiak@pwr.edu.pl, Tomasz Walkowiak
Version
Kategorie
Unterkategorie
Datenübertragung: Verschlüsselung
Datenschutzrichtlinie
Authentifizierung
Autor*innen
Clarin-PL
Hoster
Nutzungseinschränkungen für Nutzer*innen
zulässige Länder
Wortverlaufskurven
Die Häufigkeit, mit der ein Wort im Lauf der Zeit verwendet wird, verändert sich: Sie kann zunehmen (Beispiele: Stress, Demografie) oder abnehmen oder das Wort kann sogar ganz außer Gebrauch geraten (Beispiele: Backfisch, baldigst). Häufig wird ein Wort auch allmählich durch ein anderes ersetzt; so reichen mittlerweile die Sneakers in ihrer Häufigkeit fast an die Turnschuhe heran.
Mit dem Werkzeug „Wortverlaufskurven“ können solche Veränderungen in verschiedenen Korpora ermittelt werden. Die drei wichtigsten Korpora sind:
DTA-Gesamt+DWDS-Kernkorpus (1600–1999, ca. 350 Millionen Tokens), das DWDS-Zeitungskorpus (ab 1946, voreingestellte Ansicht im DWDS, ca. 6,3 Milliarden Tokens) sowie das ZDL-Regionalkorpus (ab 1993, ca. 6,2 Milliarden Tokens, nur nach Anmeldung nutzbar).
Kurzbeschreibung
Dokumentation
Beschreibung der Zielgruppe und ihrer Größe
API
Dateiformate und Sprachen
- SprachenDeutsch
- image/jpeg
- image/png
- application/pdfAdobe-PDF-Datei
- image/svg+xml, Schema
Anwendungstyp
Netzwerk- bzw. Sicherheitsanforderungen
- BetriebssystemLinux
Datenblatt (Fact sheet)
Ansprechpartner
- technische*r Ansprechpartner*inwiegand@bbaw.de, Frank Wiegand (Developer)
- inhaltliche*r Ansprechpartner*inAlexander Geyken (Arbeitsstellenleiter Digitales Wörterbuch der deutschen Sprache) [GND]
Version
Kategorie
Unterkategorie
Datenübertragung: Verschlüsselung
Datenschutzrichtlinie
Authentifizierung
Hoster
Nutzungseinschränkungen für Nutzer*innen
zulässige Länder
WoSeDon

Word Sense Disambiguation for Polish texts based on plWordNet - the Polish wordnet (weakly supervised, for all words).
Kurzbeschreibung
Dokumentation
Beschreibung der Zielgruppe und ihrer Größe
Dateiformate und Sprachen
- SprachenPolnisch
- text/plainPlain-Text-Datei
- application/mswordMicrosoft-Word-Datei
- application/vnd.openxmlformats-officedocument.wordprocessingml.documentMicrosoft-OpenXML-Textverarbeitungs-Datei (Word)
- application/vnd.openxmlformats-officedocument.presentationml.presentationMicrosoft-OpenXML-Präsentations-Datei (PowerPoint)
- application/vnd.openxmlformats-officedocument.spreadsheetml.sheetMicrosoft-OpenXML-Tabellenkalkulations-Datei (Excel)
- application/vnd.oasis.opendocument.textOpenDocument-Textdatei
- application/pdfAdobe-PDF-Datei
- text/htmlHTML-Datei
- text/rtfTextverarbeitungsdatei im Rich Text Format
- application/xmlXTML-Datei
Anwendungstyp
Datenblatt (Fact sheet)
Ansprechpartner
- technische*r Ansprechpartner*intomasz.walkowiak@pwr.edu.pl, Tomasz Walkowiak
Version
Kategorie
Unterkategorie
Datenübertragung: Verschlüsselung
Datenschutzrichtlinie
Authentifizierung
Autor*innen
Clarin-PL
Hoster
Nutzungseinschränkungen für Nutzer*innen
zulässige Länder
XTriples
Ein generischer Webservice, um Aussagen aus XML Dateien auslesen zu können. Mit dem XTriples Webservice lassen sich XML Repositorien durchsuchen und mit Hilfe einfacher Konfigurationen über XPATH/XQuery-basierte Ausdrücke RDF-Aussagen extrahieren. Der Webservice kann sowohl mit direct POST, als auch form-style POST oder GET requests verwendet werden.
Kurzbeschreibung
Dokumentation
Beschreibung der Zielgruppe und ihrer Größe
Lizenzen
Dateiformate und Sprachen
- application/xmlXTML-Datei
- application/rdf+xml
- application/turtle
- application/ntriples
- application/nquads
- application/trix
- application/ld+json
- image/svg+xml
- application/xtriples
Lokalisierung
Anwendungstyp
Datenblatt (Fact sheet)
Ansprechpartner
- technische*r Ansprechpartner*ingeneralsekretariat@adwmainz.de, Torsten Schrade (Developer) [ORCID]
- inhaltliche*r Ansprechpartner*inTorsten Schrade (Developer) [ORCID]