Referenzkorpus Frühneuhochdeutsch - Übersicht: Annotationsebenen in ANNIS

Annotationsebenen in ANNIS

Die untenstehende Tabelle gibt einen Überblick über alle Annotationsebenen und ihre Verfügbarkeit in den einzelnen Teilkorpora.

Unter der Tabelle folgt eine kurze Beschreibung der Annotationsebenen.

Layer	ReF.RUB/ReF.MLU	ReF.UP
`line`	✓	×
`column`	✓	×
`side`	✓	×
`page`	✓	×
`reference`	✓	×
`tok`	entspricht `tok_dipl`	✓
`tok_dipl`	✓	×
`tok_anno`	✓	`tok`
`lemma`	✓	×
`lemmaID`	✓	×
`pos`	✓	✓
`posLemma`	✓	×
`inflection`	✓	nur ReFMorph.UP
`cat`	×	✓
`label`	×	✓
`edge`	×	✓
`secedge`	×	✓
`tokenization`	✓	×
`boundary`	✓	×
`punc`	✓	×
`annoType`	✓	×

Layoutebenen

Die Layoutebene reference setzt sich aus den Annotationen line, column, side und page zusammen. Diese beziehen sich in der Regel auf Zeile, Spalte, Blattseite und Folioseite der Handschriften. Ausnahmen sind Texte, in denen die Editionszählung die Primärzählung ist - z.B. weil das Manuskript nicht mehr existiert. Bei diesen wird eine virtuelle Editionszählung genutzt, die je nach Text unterschiedliche Semantik haben kann. Alle Layoutebenen sind suchbar, werden aber in den Resultaten nicht einzeln, sondern nur konkateniert als reference angezeigt.

Tokenebenen

tok_dipl und tok_anno sind die grundlegenden Tokenebenen. Sie kombinieren je zwei Aspekte der Wortformen: Tokenisierung und Schreibung. Tokenisierung betrifft Wörter, die modern anders getrennt würden, als es historisch der Fall war, wie beispielsweise soltu - “sollst du” (siehe unten Tokenisierung). Schreibung unterscheidet sich darin, ob Buchstaben oder Diakritika verwendet werden können, die nicht Teil des ASCII Zeichensatzes sind (siehe Simplifizierung). tok_dipl ist soweit möglich an die historischen Formen angelehnt: Es kombiniert historische Tokenisierung mit einer möglichst getreuen Darstellung der Buchstaben. tok_anno dagegen kombiniert die simplifizierte Schreibung mit der modernisierten Tokenisierung.

Lemmaebenen

Die lemma Ebene enthält das belegspezifische Lemma nach dem DWB.

Ergänzend hierzu enthält lemmaId die ID des Eintrags im Wörterbuchnetz, sowie einen Link zu der Online-Version. Da die lemmaId Ebene HTML Links enthält, kann sie in ANNIS nur über Regular Expressions durchsucht werden. Beispiel:

lemmaId=/.*GE05989.*/ ('er')

Wortart- und Morphologieebenen

pos und posLemma enthalten die beleg- bzw. lemmaspezifische Wortartenannotation. Morphologie wird in der Ebene inflection annotiert.

Syntaxebenen

Die Ebenen cat, label, edge und secedge enthalten die im Teilkorpus ReF.UP annotierten Syntaxannotationen (siehe Dokumentation).

Tokenisierung

Die Ebene tokenization dokumentiert die Änderungen im historischen Text, die im Rahmen der Modernisierung vorgenommen wurden. Die konkreten Tags sind dem HiTS Standard¹ entnommen.

MS	Multiverbierung mit Spatium
ML	Multiverbierung am Zeilenende
US	Univerbierung mit Spatium
UL	Univerbierung am Zeilenende
UH	Univerbierung mit Hyphen (Trenn-/Bindestrich)
UB	Univerbierung mit Binnenmajuskel
MLH	Multiverbierung am Zeilenende mit Hyphen (Trenn-/Bindestrich)
ULH	Univerbierung am Zeilenende mit Hyphen (Trenn-/Bindestrich)
ULS	Univerbierung am Zeilenende mit Spatium

Wenn bei einer Tokenisierungsänderung mehrere tok_anno einem tok_dipl entsprechen, ist dies durch eine angehängte Nummer am Tag kenntlich gemacht. Beispielsweise bezeichnet MS2 das zweite tok_anno aus einer Multiverbierung mit Spatium. Das bedeutet, dass bei einer Suche nur nach MS mit Regular Expressions gearbeitet werden muss:

tokenization=/MS.*/

Bei quantitativen Anfragen nach Multiverbierung muss explizit nach MS1 gesucht werden, da sonst die Zahl überschätzt würde.

Satzstruktur

punc stellt die handschriftliche (tatsächliche) Interpunktion dar. boundary enthält die präeditierten (interpretierten) Satz- und Segmentgrenzen, die aus modernisierter Interpunktion resultieren.

(,)
(.)
(?)
(!)
(:)
(;)
(“)
(«)
(»)

Anders als bei den anderen Ebenen sind hier nicht annotierte Felder tatsächlich leer, das heißt, man kann nicht nach der Abwesenheit von Satzsstrukturannotation suchen.

Annotationsweise

annoTypegibt an, ob ein Token manuell (manual) oder automatisch (auto) annotiert wurde.

Dipper, S., Donhauser, K., Klein, T., Linde, S., Müller, S., & Wegera, K.-P. (2013). HiTS: ein Tagset für historische Sprachstufen des Deutschen. Journal for Language Technology and Computational Linguistics, Special Issue, 28(1), 85–137. [PDF] ↩