Referenzkorpus Mittelhochdeutsch - Übersicht: Annotationsebenen in ANNIS

Annotationsebenen in ANNIS

Im Folgenden eine kurze Beschreibung der Annotationsebenen in ANNIS. In der Regel sind fehlende oder leere Einträge mit -- gefüllt, so dass nach diesen Fällen in ANNIS ebenfalls gesucht werden kann.

Layoutebenen

line, column, side, page sind Layoutebenen. Diese beziehen sich in der Regel auf Zeile, Spalte, Blattseite und Folioseite der Handschriften. Ausnahmen sind Texte, in denen die Editionszählung die Primärzählung ist - z.B. weil das Manuskript nicht mehr existiert. Bei diesen wird eine virtuelle Editionszählung genutzt, die je nach Text unterschiedliche Semantik haben kann. Layoutebenen sind suchbar, werden aber in den Resultaten nicht einzeln, sondern nur konkateniert als reference angezeigt.

Tokenebenen

tok_dipl und tok_anno sind die grundlegenden Tokenebenen. Sie kombinieren je zwei Aspekte der Wortformen: Tokenisierung und Schreibung. Tokenisierung betrifft Wörter, die modern anders getrennt würden, als es historisch der Fall war, wie beispielsweise soltu - “sollst du” (siehe unten Tokenisierung). Schreibung unterscheidet sich darin, ob Buchstaben oder Diakritika verwendet werden können, die nicht Teil des ASCII Zeichensatzes sind (siehe Simplifizierung). tok_dipl ist soweit möglich an die historischen Formen angelehnt: Es kombiniert historische Tokenisierung mit einer möglichst getreuen Darstellung der Buchstaben. tok_anno dagegen kombiniert die simplifizierte Schreibung mit der modernisierten Tokenisierung.

Normalformen

norm enthält eine mittelhochdeutsche Normalform des Tokens, die in gängigen Wörterbüchern verwendeten Konventionen entspricht. char_align beschreibt die graphophonemische buchstabenweise Abbildung der belegten Form auf die Normalform. Einzelne Positionen werden hierbei mit dem Pipe-Charakter abgetrennt, die Abbildung hat ansonsten die Form x=u. Über Regular Expressions kann somit nach allen Formen gesucht werden, in denen eine spezifische Abweichung zur Normalform vorliegt. Folgendes Beispiel sucht nach Belegen, in denen der Text ein v an einer Stelle verwendet, wo die Normalform ein u benutzt.

char_align=/.*\|v=u\|.*/

char_align ist für das Kernkorpus, d.h. für alle MiGraKo-Texte, annotiert, aber nur für einen kleinen Teil der Texte im Erweiterungskorpus.

Lemmaebenen

Die lemma Ebene enthält das belegspezifische Lemma nach Lexer (siehe Lemmatisierung), lemmaLemma enthält das allgemeine Lemma.

Ergänzend hierzu enthält lemmaId die ID des Eintrags im Mittelhochdeutschen Wörterbuch, sowie einen Link zu der Online-Version. Da die lemmaId Ebene HTML Links enthält, kann sie in ANNIS nur über Regular Expressions durchsucht werden. Beispiel:

lemmaId=/.*3531000.*/

Wortart- und Morphologieebenen

pos und posLemma enthalten die beleg- bzw. lemmaspezifische Wortartenannotation (siehe Wortarten). Morphologie wird in der Ebene inflection annotiert, während inflectionClass und inflectionClassLemma die beleg- bzw. lemmaspezifische Annotation der Flektionklasse annotiert.

Tokenisierung

Die Ebene tokenization beschreibt, welche Änderung bei der Modernisierung der Tokenisierung gemacht wurde. Die konkreten Tags sind dem HiTS Standard¹ entnommen.

MS	Multiverbierung mit Spatium
ML	Multiverbierung am Zeilenende
US	Univerbierung mit Spatium
UL	Univerbierung am Zeilenende

Wenn bei einer Tokenisierungsänderung mehrere tok_anno einem tok_dipl entsprechen, ist dies durch eine angehängte Nummer am Tag kenntlich gemacht. Beispielsweise bedeutet MS2 das zweite tok_anno aus einer Multiverbierung mit Spatium. Das bedeutet, dass bei einer Suche nur nach MS mit Regular Expressions gearbeitet werden muss:

tokenization=/MS.*/

Bei quantitativen Anfragen nach Multiverbierung muss explizit nach MS1 gesucht werden, da sonst die Zahl überschätzt würde.

Satzstruktur

punc beinhaltet Tags, die Satz- oder Segmentgrenzen markieren, und die in ihrer Funktion etwa modernen Interpunktionszeichen ähneln. Anders als bei den anderen Ebenen sind hier nicht annotierte Felder tatsächlich leer. Dadurch heben sie sich in den Ergebnissen optisch ab, aber man kann nicht nach der Abwesenheit von Satzsstrukturannotation suchen.

DE	Ende eines Deklarativsatzes
IE	Ende eines Imperativsatzes
EE	Ende eines Exklamativsatzes
QE	Ende eines Interrogativsatzes
S*	Grenzen von Teilsätzen sowie von Links- und Rechtsverschiebungen
N*	Elemente von Aufzählungen und Appositionsreihen
NE	Ende einer Aufzählung oder Appositionsreihe, sofern nicht bereits durch S* markiert

Dipper, S., Donhauser, K., Klein, T., Linde, S., Müller, S., & Wegera, K.-P. (2013). HiTS: ein Tagset für historische Sprachstufen des Deutschen. Journal for Language Technology and Computational Linguistics, Special Issue, 28(1), 85–137. ↩