Referenzkorpus Mittelhochdeutsch - Übersicht: Aufbau des Korpus

Aufbau des Korpus

Diese Seite bietet lediglich eine grobe Übersicht über Entstehung und Aufbau des Korpus. Detailliertere Informationen finden sich im Korpus-Handbuch.

Zusammensetzung

Im Referenzkorpus Mittelhochdeutsch (ReM) sind mehrere Korpora zusammengeflossen:

das Kölner Korpus hessisch-thüringischer Texte (entstanden 1986–1993 am Institut für deutsche Sprache und Literatur in Köln unter Leitung von Thomas Klein und Joachim Bumke)¹;
das Bonner Korpus mitteldeutscher Texte (entstanden ab 1993 unter Leitung von Thomas Klein, zusammen mit Mitarbeitern des Instituts für geschichtliche Landeskunde der Rheinlande in Bonn);
das Bochumer Mittelhochdeutschkorpus (BoMiKo) (unter Leitung von Klaus-Peter Wegera) und das daraus hervorgegangene Korpus der Mittelhochdeutschen Grammatik (MiGraKo) (unter Leitung von Thomas Klein, Hans-Joachim Solms und Klaus-Peter Wegera), annotiert in Bonn (unter Leitung von Thomas Klein); sowie
das im Rahmen des DFG-Projekts “Referenzkorpus Mittelhochdeutsch” entstandene Korpus als Ergänzung/Erweiterung der oben genannten Korpora.

Der Ursprung der Texte in ReM ist zum Teil an der Gruppenzugehörigkeit in ANNIS (vgl. auch die Textübersicht) erkennbar: Gruppen auf -G stammen aus dem Korpus der Mittelhochdeutschen Grammatik (MiGraKo), Gruppen auf -X sind Teil des im ReM-Projekt entstandenen Erweiterungskorpus.

Während MiGraKo ein nach Zeit, Sprachraum und Textart strukturiertes Korpus bildet, ist dies beim Erweiterungskorpus (für sich genommen) nicht der Fall. Es bietet zum einen aber die Möglichkeit, MiGraKo durch Hinzunahme strukturell passender Texte oder Textausschnitte zu erweitern, und zum anderen die Möglichkeit nahezu flächendeckender Recherchen im Bereich des Frühmittelhochdeutschen.

Transkription

Grundsätzlich war das Ziel, alle Texte so handschriftengetreu zu erfassen, dass alle linguistisch relevanten Merkmale eindeutig abgebildet sind. Grundlage waren dafür in aller Regel Abbildungen der Handschrift. Ausnahmen davon bilden einerseits Texte, deren Handschrift verschollen oder zerstört ist und die daher nur in mehr oder weniger handschriftengetreuen Abdrucken des 19. Jh. vorliegen; andererseits Texte, für die Handschriftenabbildungen aus unterschiedlichen Gründen (bislang) nicht zu beschaffen waren und für die daher gleichfalls auf Handschriftenabdrucke zurückgegriffen wurde. Diese Ausnahmen sind in den Metadaten unter “notes-transcription” vermerkt.

Bei der Transkription wird zwischen der handschriftlichen Tokenisierung (Ebene tok_dipl) und einer modernen Erwartungen entsprechenden Tokenisierung (Ebene tok_anno) unterschieden. Insofern als diese Tokenisierungen auseinander gehen, wird handschriftliche Getrenntschreibung von Wortteilen oder Zusammenschreibung von Wörtern auf der tok_dipl-Ebene in tok_anno aufgehoben, zum Beispiel:

tok_dipl	tok_anno
indem lande	in dem lande
der burger meister	der burgermeister
er ensagetez	er en saget ez

Eine detailliertere Beschreibung findet sich im Korpushandbuch.

Klein, T., & Bumke, J. (1997). Wortindex zu hessisch-thüringischen Epen um 1200. Niemeyer. ↩