Wortarten (POS)
Wortarten sind mit HiTS („Historisches Tagset“) annotiert, das im Rahmen der Erstellung der Referenzkorpora entstanden ist. HiTS orientiert sich in großen Teilen am „Stuttgart-Tübingen Tagset“ (STTS)1, dem Standardtagset für neuhochdeutsche Korpora, und übernimmt u.a. das hierarchische Design der Tagnamen.
Detaillierte Informationen zu HiTS, einschließlich einer Übersicht aller enthaltenen Tags und ihrer Bedeutung, finden sich im zugehörigen Paper (Dipper et al., 2013)2.
Die folgende Tabelle gibt einen Überblick über die in den Teilkorpora ReF.RUB und ReF.MLU verwendeten POS-Tags (für Beispiele und weitere Beschreibungen, siehe Dokumentation). Eine Liste der im Teilkorpus ReF.UP verwendeten POS-Tags findet sich hier.
Tagübersicht (ReF.RUB, ReF.MLU)
POS | Bedeutung |
---|---|
ADJA | Adjektiv, attributiv, vorangestellt |
ADJD | Adjektiv, prädikativ |
ADJN | Adjektiv, attributiv, nachgestellt |
ADJS | Adjektiv, substituierend |
APPO | Postposition |
APPR | Präposition |
APPRDDART | Präposition mit definitem Artikel |
APZR | Zirkumposition |
AVD | Adverb |
AVG | Relativadverb, generalisierend |
AVNEG | Adverb, negativ |
AVREL | Adverb, relativ |
AVW | Adverb, interrogativ |
CARDA | Kardinal-/Ordinalzahl, attributiv, vorangestellt |
CARDD | Kardinal-/Ordinalzahl, prädikativ |
CARDN | Kardinal-/Ordinalzahl, attributiv, nachgestellt |
CARDS | Kardinal-/Ordinalzahl, substituierend |
DDA | Determinativ, definit, attributiv, vorangestellt |
DDART | Determinativ, definit, artikelartig, vorangestellt |
DDD | Determinativ, definit/demonstrativ, prädikativ |
DDN | Determinativ, definit/demonstrativ, attributiv, nachgestellt |
DDS | Determinativ, definit/demonstrativ, substituierend |
DGA | Determinativ, generalisierend, attributiv, vorangestellt |
DGS | Determinativ, generalisierend, substituierend |
DIA | Determinativ, indefinit, attributiv, vorangestellt |
DIART | Determinativ, indefinit, artikelartig, vorangestellt |
DID | Determinativ, indefinit, prädikativ |
DIN | Determinativ, indefinit, attributiv, nachgestellt |
DIS | Determinativ, indefinit, substituierend |
DNEGA | Determinativ, negativ, attributiv, vorangestellt |
DNEGN | Determinativ, negativ, attributiv, nachgestellt |
DNEGS | Determinativ, negativ, substituierend |
DPOSA | Determinativ, possessiv, attributiv, vorangestellt |
DPOSD | Determinativ, possessiv, prädikativ |
DPOSN | Determinativ, possessiv, attributiv, nachgestellt |
DPOSS | Determinativ, possessiv, substituierend |
DRELS | Determinativ, relativisch, substituierend |
DWA | Determinativ, interrogativ, attributiv, vorangestellt |
DWS | Determinativ, interrogativ, substituierend |
FM | Fremdsprachliches Material |
ITJ | Interjektion |
KO* | Konjunktion, neben- oder unterordnend |
KOKOM | Konjunktion, vergleichend |
KON | Konjunktion, nebenordnend |
KOUI | Konjunktion, unterordnend mit “zu” und Infinitiv |
KOUS | Konjunktion, unterordnend |
NA | Nomen appelativum |
NE | Eigenname |
PAVAP | Pronominaladverb, präpositionaler Teil |
PAVD | Pronominaladverb, pronominaler Teil |
PAVDAP | Pronominaladverb |
PAVG | Pronominaladverb, pronominaler Teil, generalisierend |
PAVREL | Pronominaladverb, relativischer Teil |
PAVRELAP | Pronominaladverb, relativisch |
PAVW | Pronominaladverb, pronominaler Teil, interrogativ |
PAVWAP | Pronominaladverb, interrogativ |
PG | Pronomen, generalisierend |
PI | Pronomen, indefinit |
PNEG | Pronomen, indefinit, negativ |
PPER | Pronomen, personal, irreflexiv |
PRF | Pronomen, personal, reflexiv |
PTKA | Partikel bei Adjektiv oder Adverb |
PTKANT | Antwortpartikel |
PTKINT | Fragepartikel |
PTKNEG | Negationspartikel, Satznegation |
PTKREL | Relativpartikel |
PTKVZ | Partikelverbzusatz |
PTKZU | “zu” vor Infinitiv |
PW | Pronomen, interrogativ |
SPELL | Buchstabierfolge |
SYM | Symbol |
TRUNC | Kompositionserstglied (Bsp. Ein- und Ausgang) |
UNK | Wörter/Abkürzungen, deren Sinn nicht erschließbar bzw. nachvollziehbar ist |
VAFIN | Auxiliar, finit |
VAIMP | Auxiliar, Imperativ |
VAINF | Auxiliar, Infinitiv |
VAPP | Auxiliar, Partizip Präteritum, im Verbalkomplex |
VAPS | Auxiliar, Partizip Präsens, im Verbalkomplex |
VMFIN | Modalverb, finit |
VMIMP | Modalverb, Imperativ |
VMINF | Modalverb, Infinitiv |
VMPP | Modalverb, Partizip Präteritum, im Verbalkomplex |
VMPS | Modalverb, Partizip Präsens, im Verbalkomplex |
VVFIN | Vollverb, finit |
VVIMP | Vollverb, Imperativ |
VVINF | Vollverb, Infinitiv |
VVPP | Partizip Präteritum, im Verbalkomplex |
VVPS | Partizip Präsens, im Verbalkomplex |
$_ | Originale Interpunktion |
$( | Sonstige Satzzeichen |
Lemmatisierung
Es wird unterschieden zwischen dem allgemeinen Lemma und dem belegspezifischen Lemma.
Die Gestaltung der Lemmaansätze und die Bestimmung der grammatischen Kategorien richtet sich dabei meist nach dem jeweils entsprechenden Ansatz im DWB. Sofern ein Lemma nicht im DWB verzeichnet ist, werden einschlägige Lexika (z.B. Lexer, landschaftlich gebundene Wörterbücher) herangezogen. Weitere Informationen zur Lemmatisierung finden sich in der Dokumentation.
Morphologie
Morphologische Informationen sind als einzelnes Merkmal annotiert, dessen Werte jeweils mit einem Punkt voneinander abgetrennt sind (Bsp. Mask.Nom.Sg für “Maskulinum Nominativ Singular”).
Bei der Suche in ANNIS ist zu beachten, dass bei
der Suche nach einzelnen Merkmalswerten reguläre Ausdrücke benutzt werden müssen
(Bsp. inflection=/.*Mask.*/
für alle Vorkommen des Genus “Masukulinum”).
Automatische Annotation
Die transkribierten Texte wurden manuell und in den Teilkorpora ReF.UP und ReF.MLU z.T. auch automatisch annotiert (in ANNIS anhand des Merkmals annoType="manual"
vs. annoType="auto"
unterscheidbar).
Für die automatische Annotation von ReF.RUB wurde der RFTagger3 auf den manuell annotierten Token des Teilkorpus trainiert und auf die verbleibenden Token angewendet.
Das Teilkorpus ReF.MLU wurde mit dem Tool LAKomp annotiert.
-
Schiller, A., Teufel, S., Stöckert, C., & Thielen, C. (1999). Guidelines für das Tagging deutscher Textcorpora mit STTS [Technischer Bericht, Universitäten Stuttgart und Tübingen]. [PDF] ↩
-
Dipper, S., Donhauser, K., Klein, T., Linde, S., Müller, S., & Wegera, K.-P. (2013). HiTS: ein Tagset für historische Sprachstufen des Deutschen. Journal for Language Technology and Computational Linguistics, Special Issue, 28(1), 85–137. [PDF] ↩
-
Schmid, H., & Laws, F. (2008). Estimation of Conditional Probabilities with Decision Trees and an Application to Fine-Grained POS Tagging. COLING. [PDF] ↩