Niedersorbisches Textkorpus

(Komfortsuche im neuen Korpus)

Hinweise

Allgemeine Informationen

Die Komfortsuche ist ein mächtiges und niedrigschwelliges Werkzeug, das dem interessierten Laien- und interdisziplinären Fachpublikum die Formulierung komplexer Suchanfragen abnimmt und so auch mit einfachen Suchausdrücken umfangreiche Recherchen in niedersorbischen Texten erlaubt. Damit entfällt die Notwendigkeit eingehender Kenntnisse der unterschiedlichen rechtschreiblichen Beschaffenheit von insbesondere älteren Texten (orthografische Varianz) und der Formenvielfalt von Wörtern in der niedersorbischen Sprache (morphologisches Paradigma) sowie technischer Abfrageformulierungen (reguläre Ausdrücke).

Aus Teilen des gesamten Niedersorbischen Textkorpus wurde speziell für diese Recherchemöglichkeit ein neues Korpus zusammengestellt und intensiv aufgearbeitet, welches Schrifttum im Umfang von derzeit etwa 18 Millionen Tokens (laufende Wortformen) umfasst und dessen Textbasis sukzessive erweitert wird.

Gefördert mit Mitteln des Ministeriums für Wissenschaft, Forschung und Kultur des Landes Brandenburg.

Benutzung

Die Korpustexte für die Komfortsuche wurden so aufgearbeitet, dass sie Informationen über die Grundformen (Lemma) und die aktualisierte Rechtschreibung (Normalisierung) der darin vorkommenden Wörter (Tokens) enthalten.

Eine Suche nach wón (normalisierte Grundform) bringt daher auch Ergebnisse zu won, njen, jogo, jomu etc. hervor.

Eine Suche nach won (veraltete Tokenform) bringt Ergebnisse zu won, aber keine Ergebnisse zu wón hervor.

Eine Suche nach jomu (normalisierte Tokenform) bringt Ergebnisse zu jomu, aber keine Ergebnisse zu wón, jogo etc. hervor.

Die umfassendste Suche bietet daher die nach Lemmata (Grundformen eines Wortes in aktueller Schreibung). Wo eine im Text auftretende Form mehrere Deutungen zulässt (homonym ist), also maschinell auf verschiedene Grundformen zurückgeführt werden kann, sind alle potenziellen Grundformen verzeichnet, wenngleich für ein konkretes Wort stets nur eine Grundform korrekt sein kann.

Eine Suche nach lětaś bringt daher zum Beispiel auch solche Ergebnisse zu lěta hervor, wo lěta aus dem Kontext heraus als gebeugte Form von lět oder lěto zu erkennen ist.

Eine Abfolge von Wörtern (Kollokation) kann gesucht werden, indem einzelne Suchausdrücke mit Leerzeichen getrennt verknüpft werden.

Eine Suche nach wón byś bringt zum Beispiel Ergebnisse wie jomu było hervor.

Standardmäßig wird das gesamte Korpus durchsucht. In den Sucheinstellungen kann die Suche jedoch auf bestimmte Teilkorpora eingegrenzt werden. Eine Übersicht der Teilkorpora finden sie unter Quellen.

Stammt ein Korpusbeleg aus einem Text, für den auch ein Lesezugang bereitgestellt wurde, erscheint am rechten Rand des Belegs das Symbol . Mit einem Klick auf das Symbol öffnet sich die Leseansicht in der Niedersorbischen Digitalen Bibliothek.