Referenzkorpus Frühneuhochdeutsch (1350–1650)

Wortarten (POS)

Wortarten sind mit HiTS („Historisches Tagset“) annotiert, das im Rahmen der Erstellung der Referenzkorpora entstanden ist. HiTS orientiert sich in großen Teilen am „Stuttgart-Tübingen Tagset“ (STTS)1, dem Standardtagset für neuhochdeutsche Korpora, und übernimmt u.a. das hierarchische Design der Tagnamen.

Detaillierte Informationen zu HiTS, einschließlich einer Übersicht aller enthaltenen Tags und ihrer Bedeutung, finden sich im zugehörigen Paper (Dipper et al., 2013)2.

Die folgende Tabelle gibt einen Überblick über die in den Teilkorpora ReF.RUB und ReF.MLU verwendeten POS-Tags (für Beispiele und weitere Beschreibungen, siehe Dokumentation). Eine Liste der im Teilkorpus ReF.UP verwendeten POS-Tags findet sich hier.

Tagübersicht (ReF.RUB, ReF.MLU)

POS Bedeutung
ADJA Adjektiv, attributiv, vorangestellt
ADJD Adjektiv, prädikativ
ADJN Adjektiv, attributiv, nachgestellt
ADJS Adjektiv, substituierend
APPO Postposition
APPR Präposition
APPRDDART Präposition mit definitem Artikel
APZR Zirkumposition
AVD Adverb
AVG Relativadverb, generalisierend
AVNEG Adverb, negativ
AVREL Adverb, relativ
AVW Adverb, interrogativ
CARDA Kardinal-/Ordinalzahl, attributiv, vorangestellt
CARDD Kardinal-/Ordinalzahl, prädikativ
CARDN Kardinal-/Ordinalzahl, attributiv, nachgestellt
CARDS Kardinal-/Ordinalzahl, substituierend
DDA Determinativ, definit, attributiv, vorangestellt
DDART Determinativ, definit, artikelartig, vorangestellt
DDD Determinativ, definit/demonstrativ, prädikativ
DDN Determinativ, definit/demonstrativ, attributiv, nachgestellt
DDS Determinativ, definit/demonstrativ, substituierend
DGA Determinativ, generalisierend, attributiv, vorangestellt
DGS Determinativ, generalisierend, substituierend
DIA Determinativ, indefinit, attributiv, vorangestellt
DIART Determinativ, indefinit, artikelartig, vorangestellt
DID Determinativ, indefinit, prädikativ
DIN Determinativ, indefinit, attributiv, nachgestellt
DIS Determinativ, indefinit, substituierend
DNEGA Determinativ, negativ, attributiv, vorangestellt
DNEGN Determinativ, negativ, attributiv, nachgestellt
DNEGS Determinativ, negativ, substituierend
DPOSA Determinativ, possessiv, attributiv, vorangestellt
DPOSD Determinativ, possessiv, prädikativ
DPOSN Determinativ, possessiv, attributiv, nachgestellt
DPOSS Determinativ, possessiv, substituierend
DRELS Determinativ, relativisch, substituierend
DWA Determinativ, interrogativ, attributiv, vorangestellt
DWS Determinativ, interrogativ, substituierend
FM Fremdsprachliches Material
ITJ Interjektion
KO* Konjunktion, neben- oder unterordnend
KOKOM Konjunktion, vergleichend
KON Konjunktion, nebenordnend
KOUI Konjunktion, unterordnend mit “zu” und Infinitiv
KOUS Konjunktion, unterordnend
NA Nomen appelativum
NE Eigenname
PAVAP Pronominaladverb, präpositionaler Teil
PAVD Pronominaladverb, pronominaler Teil
PAVDAP Pronominaladverb
PAVG Pronominaladverb, pronominaler Teil, generalisierend
PAVREL Pronominaladverb, relativischer Teil
PAVRELAP Pronominaladverb, relativisch
PAVW Pronominaladverb, pronominaler Teil, interrogativ
PAVWAP Pronominaladverb, interrogativ
PG Pronomen, generalisierend
PI Pronomen, indefinit
PNEG Pronomen, indefinit, negativ
PPER Pronomen, personal, irreflexiv
PRF Pronomen, personal, reflexiv
PTKA Partikel bei Adjektiv oder Adverb
PTKANT Antwortpartikel
PTKINT Fragepartikel
PTKNEG Negationspartikel, Satznegation
PTKREL Relativpartikel
PTKVZ Partikelverbzusatz
PTKZU “zu” vor Infinitiv
PW Pronomen, interrogativ
SPELL Buchstabierfolge
SYM Symbol
TRUNC Kompositionserstglied (Bsp. Ein- und Ausgang)
UNK Wörter/Abkürzungen, deren Sinn nicht erschließbar bzw. nachvollziehbar ist
VAFIN Auxiliar, finit
VAIMP Auxiliar, Imperativ
VAINF Auxiliar, Infinitiv
VAPP Auxiliar, Partizip Präteritum, im Verbalkomplex
VAPS Auxiliar, Partizip Präsens, im Verbalkomplex
VMFIN Modalverb, finit
VMIMP Modalverb, Imperativ
VMINF Modalverb, Infinitiv
VMPP Modalverb, Partizip Präteritum, im Verbalkomplex
VMPS Modalverb, Partizip Präsens, im Verbalkomplex
VVFIN Vollverb, finit
VVIMP Vollverb, Imperativ
VVINF Vollverb, Infinitiv
VVPP Partizip Präteritum, im Verbalkomplex
VVPS Partizip Präsens, im Verbalkomplex
$_ Originale Interpunktion
$( Sonstige Satzzeichen

Lemmatisierung

Es wird unterschieden zwischen dem allgemeinen Lemma und dem belegspezifischen Lemma.

Die Gestaltung der Lemmaansätze und die Bestimmung der grammatischen Kategorien richtet sich dabei meist nach dem jeweils entsprechenden Ansatz im DWB. Sofern ein Lemma nicht im DWB verzeichnet ist, werden einschlägige Lexika (z.B. Lexer, landschaftlich gebundene Wörterbücher) herangezogen. Weitere Informationen zur Lemmatisierung finden sich in der Dokumentation.

Morphologie

Morphologische Informationen sind als einzelnes Merkmal annotiert, dessen Werte jeweils mit einem Punkt voneinander abgetrennt sind (Bsp. Mask.Nom.Sg für “Maskulinum Nominativ Singular”).

Bei der Suche in ANNIS ist zu beachten, dass bei der Suche nach einzelnen Merkmalswerten reguläre Ausdrücke benutzt werden müssen (Bsp. inflection=/.*Mask.*/ für alle Vorkommen des Genus “Masukulinum”).

Automatische Annotation

Die transkribierten Texte wurden manuell und in den Teilkorpora ReF.UP und ReF.MLU z.T. auch automatisch annotiert (in ANNIS anhand des Merkmals annoType="manual" vs. annoType="auto" unterscheidbar). Für die automatische Annotation von ReF.RUB wurde der RFTagger3 auf den manuell annotierten Token des Teilkorpus trainiert und auf die verbleibenden Token angewendet. Das Teilkorpus ReF.MLU wurde mit dem Tool LAKomp annotiert.

  1. Schiller, A., Teufel, S., Stöckert, C., & Thielen, C. (1999). Guidelines für das Tagging deutscher Textcorpora mit STTS [Technischer Bericht, Universitäten Stuttgart und Tübingen]. [PDF] 

  2. Dipper, S., Donhauser, K., Klein, T., Linde, S., Müller, S., & Wegera, K.-P. (2013). HiTS: ein Tagset für historische Sprachstufen des Deutschen. Journal for Language Technology and Computational Linguistics, Special Issue, 28(1), 85–137. [PDF] 

  3. Schmid, H., & Laws, F. (2008). Estimation of Conditional Probabilities with Decision Trees and an Application to Fine-Grained POS Tagging. COLING. [PDF]