Annotationsebenen in ANNIS
Im Folgenden eine kurze Beschreibung der Annotationsebenen in ANNIS. In der Regel sind fehlende oder leere Einträge mit
--
gefüllt, so dass nach diesen Fällen in ANNIS ebenfalls gesucht werden kann.
Layoutebenen
line
, column
, side
, page
sind Layoutebenen. Diese beziehen sich in der
Regel auf Zeile, Spalte, Blattseite und Folioseite der Handschriften. Ausnahmen
sind Texte, in denen die Editionszählung die Primärzählung ist - z.B. weil das
Manuskript nicht mehr existiert. Bei diesen wird eine virtuelle Editionszählung
genutzt, die je nach Text unterschiedliche Semantik haben kann. Layoutebenen
sind suchbar, werden aber in den Resultaten nicht einzeln, sondern nur
konkateniert als reference
angezeigt.
Tokenebenen
tok_dipl
und tok_anno
sind die grundlegenden Tokenebenen. Sie kombinieren je
zwei Aspekte der Wortformen: Tokenisierung und Schreibung. Tokenisierung
betrifft Wörter, die modern anders getrennt würden, als es historisch der Fall
war, wie beispielsweise soltu - “sollst du” (siehe unten
Tokenisierung).
Schreibung unterscheidet sich
darin, ob Buchstaben oder Diakritika verwendet werden können, die nicht Teil des
ASCII Zeichensatzes sind (siehe Simplifizierung).
tok_dipl
ist soweit möglich an die historischen Formen angelehnt: Es
kombiniert historische Tokenisierung mit einer möglichst getreuen Darstellung
der Buchstaben. tok_anno
dagegen kombiniert die simplifizierte Schreibung mit
der modernisierten Tokenisierung.
Normalformen
norm
enthält eine mittelhochdeutsche
Normalform des Tokens, die in gängigen Wörterbüchern verwendeten Konventionen
entspricht. char_align
beschreibt die graphophonemische buchstabenweise Abbildung der belegten
Form auf die Normalform. Einzelne Positionen werden hierbei mit dem Pipe-Charakter
abgetrennt, die Abbildung hat ansonsten die Form x=u. Über Regular Expressions
kann somit nach allen Formen gesucht werden, in denen eine spezifische Abweichung
zur Normalform vorliegt. Folgendes Beispiel sucht nach Belegen, in denen der
Text ein v an einer Stelle verwendet, wo die Normalform ein u benutzt.
char_align=/.*\|v=u\|.*/
char_align
ist für das Kernkorpus, d.h. für alle MiGraKo-Texte, annotiert, aber nur für einen kleinen Teil
der Texte im Erweiterungskorpus.
Lemmaebenen
Die lemma
Ebene enthält das belegspezifische Lemma nach Lexer (siehe
Lemmatisierung), lemmaLemma
enthält das
allgemeine Lemma.
Ergänzend hierzu enthält lemmaId
die ID des Eintrags im Mittelhochdeutschen
Wörterbuch, sowie einen Link zu der Online-Version.
Da die lemmaId
Ebene HTML Links enthält, kann sie in ANNIS nur über Regular
Expressions durchsucht werden. Beispiel:
lemmaId=/.*3531000.*/
Wortart- und Morphologieebenen
pos
und posLemma
enthalten die beleg- bzw. lemmaspezifische
Wortartenannotation
(siehe Wortarten).
Morphologie wird in der Ebene inflection
annotiert, während inflectionClass
und inflectionClassLemma
die beleg-
bzw. lemmaspezifische Annotation der Flektionklasse annotiert.
Tokenisierung
Die Ebene tokenization
beschreibt, welche Änderung bei der Modernisierung der
Tokenisierung gemacht wurde. Die konkreten Tags sind dem HiTS Standard1
entnommen.
MS | Multiverbierung mit Spatium |
ML | Multiverbierung am Zeilenende |
US | Univerbierung mit Spatium |
UL | Univerbierung am Zeilenende |
Wenn bei einer Tokenisierungsänderung mehrere tok_anno
einem tok_dipl
entsprechen, ist dies durch eine angehängte Nummer am Tag kenntlich gemacht.
Beispielsweise bedeutet MS2 das zweite tok_anno
aus einer Multiverbierung mit
Spatium. Das bedeutet, dass bei einer Suche nur nach MS mit Regular
Expressions gearbeitet werden muss:
tokenization=/MS.*/
Bei quantitativen Anfragen nach Multiverbierung muss explizit nach MS1 gesucht werden, da sonst die Zahl überschätzt würde.
Satzstruktur
punc
beinhaltet Tags, die Satz- oder Segmentgrenzen markieren, und die in
ihrer Funktion etwa modernen Interpunktionszeichen ähneln. Anders als bei
den anderen Ebenen sind hier nicht annotierte Felder tatsächlich leer.
Dadurch heben sie sich in den Ergebnissen optisch ab, aber man kann
nicht nach der Abwesenheit von Satzsstrukturannotation suchen.
DE | Ende eines Deklarativsatzes |
IE | Ende eines Imperativsatzes |
EE | Ende eines Exklamativsatzes |
QE | Ende eines Interrogativsatzes |
S* | Grenzen von Teilsätzen sowie von Links- und Rechtsverschiebungen |
N* | Elemente von Aufzählungen und Appositionsreihen |
NE | Ende einer Aufzählung oder Appositionsreihe, sofern nicht bereits durch S* markiert |
-
Dipper, S., Donhauser, K., Klein, T., Linde, S., Müller, S., & Wegera, K.-P. (2013). HiTS: ein Tagset für historische Sprachstufen des Deutschen. Journal for Language Technology and Computational Linguistics, Special Issue, 28(1), 85–137. ↩