Annotationsebenen in ANNIS
Die untenstehende Tabelle gibt einen Überblick über alle Annotationsebenen und ihre Verfügbarkeit in den einzelnen Teilkorpora.
Unter der Tabelle folgt eine kurze Beschreibung der Annotationsebenen.
Layer | ReF.RUB/ReF.MLU | ReF.UP |
---|---|---|
line |
✓ | × |
column |
✓ | × |
side |
✓ | × |
page |
✓ | × |
reference |
✓ | × |
tok |
entspricht tok_dipl |
✓ |
tok_dipl |
✓ | × |
tok_anno |
✓ | tok |
lemma |
✓ | × |
lemmaID |
✓ | × |
pos |
✓ | ✓ |
posLemma |
✓ | × |
inflection |
✓ | nur ReFMorph.UP |
cat |
× | ✓ |
label |
× | ✓ |
edge |
× | ✓ |
secedge |
× | ✓ |
tokenization |
✓ | × |
boundary |
✓ | × |
punc |
✓ | × |
annoType |
✓ | × |
Layoutebenen
Die Layoutebene reference
setzt sich aus den Annotationen line
, column
, side
und page
zusammen. Diese beziehen sich in der Regel auf Zeile, Spalte, Blattseite und Folioseite der Handschriften. Ausnahmen sind Texte, in denen die Editionszählung die Primärzählung ist - z.B. weil das Manuskript nicht mehr existiert. Bei diesen wird eine virtuelle Editionszählung genutzt, die je nach Text unterschiedliche Semantik haben kann. Alle Layoutebenen
sind suchbar, werden aber in den Resultaten nicht einzeln, sondern nur
konkateniert als reference
angezeigt.
Tokenebenen
tok_dipl
und tok_anno
sind die grundlegenden Tokenebenen. Sie kombinieren je zwei Aspekte der Wortformen: Tokenisierung und Schreibung. Tokenisierung
betrifft Wörter, die modern anders getrennt würden, als es historisch der Fall
war, wie beispielsweise soltu - “sollst du” (siehe unten
Tokenisierung).
Schreibung unterscheidet sich darin, ob Buchstaben oder Diakritika verwendet werden können, die nicht Teil des ASCII Zeichensatzes sind (siehe Simplifizierung).
tok_dipl
ist soweit möglich an die historischen Formen angelehnt: Es
kombiniert historische Tokenisierung mit einer möglichst getreuen Darstellung
der Buchstaben. tok_anno
dagegen kombiniert die simplifizierte Schreibung mit
der modernisierten Tokenisierung.
Lemmaebenen
Die lemma
Ebene enthält das belegspezifische Lemma nach dem DWB.
Ergänzend hierzu enthält lemmaId
die ID des Eintrags im Wörterbuchnetz, sowie einen Link zu der Online-Version. Da die lemmaId
Ebene HTML Links enthält, kann sie in ANNIS nur über Regular Expressions durchsucht werden. Beispiel:
lemmaId=/.*GE05989.*/ ('er')
Wortart- und Morphologieebenen
pos
und posLemma
enthalten die beleg- bzw. lemmaspezifische Wortartenannotation. Morphologie wird in der Ebene inflection
annotiert.
Syntaxebenen
Die Ebenen cat
, label
, edge
und secedge
enthalten die im Teilkorpus ReF.UP annotierten Syntaxannotationen (siehe Dokumentation).
Tokenisierung
Die Ebene tokenization
dokumentiert die Änderungen im historischen Text, die im Rahmen der Modernisierung vorgenommen wurden. Die konkreten Tags sind dem HiTS Standard1 entnommen.
MS | Multiverbierung mit Spatium |
ML | Multiverbierung am Zeilenende |
US | Univerbierung mit Spatium |
UL | Univerbierung am Zeilenende |
UH | Univerbierung mit Hyphen (Trenn-/Bindestrich) |
UB | Univerbierung mit Binnenmajuskel |
MLH | Multiverbierung am Zeilenende mit Hyphen (Trenn-/Bindestrich) |
ULH | Univerbierung am Zeilenende mit Hyphen (Trenn-/Bindestrich) |
ULS | Univerbierung am Zeilenende mit Spatium |
Wenn bei einer Tokenisierungsänderung mehrere tok_anno
einem tok_dipl
entsprechen, ist dies durch eine angehängte Nummer am Tag kenntlich gemacht. Beispielsweise bezeichnet MS2 das zweite tok_anno
aus einer Multiverbierung mit Spatium. Das bedeutet, dass bei einer Suche nur nach MS mit Regular Expressions gearbeitet werden muss:
tokenization=/MS.*/
Bei quantitativen Anfragen nach Multiverbierung muss explizit nach MS1 gesucht werden, da sonst die Zahl überschätzt würde.
Satzstruktur
punc
stellt die handschriftliche (tatsächliche) Interpunktion dar. boundary
enthält die präeditierten (interpretierten) Satz- und Segmentgrenzen, die aus modernisierter Interpunktion resultieren.
- (,)
- (.)
- (?)
- (!)
- (:)
- (;)
- (“)
- («)
- (»)
Anders als bei den anderen Ebenen sind hier nicht annotierte Felder tatsächlich leer, das heißt, man kann nicht nach der Abwesenheit von Satzsstrukturannotation suchen.
Annotationsweise
annoType
gibt an, ob ein Token manuell (manual) oder automatisch (auto) annotiert wurde.