Aufbau des Korpus
Diese Seite bietet lediglich eine grobe Übersicht über Entstehung und Aufbau des Korpus. Detailliertere Informationen finden sich im Korpus-Handbuch.
Zusammensetzung
Im Referenzkorpus Mittelhochdeutsch (ReM) sind mehrere Korpora zusammengeflossen:
- das Kölner Korpus hessisch-thüringischer Texte (entstanden 1986–1993 am Institut für deutsche Sprache und Literatur in Köln unter Leitung von Thomas Klein und Joachim Bumke)1;
- das Bonner Korpus mitteldeutscher Texte (entstanden ab 1993 unter Leitung von Thomas Klein, zusammen mit Mitarbeitern des Instituts für geschichtliche Landeskunde der Rheinlande in Bonn);
- das Bochumer Mittelhochdeutschkorpus (BoMiKo) (unter Leitung von Klaus-Peter Wegera) und das daraus hervorgegangene Korpus der Mittelhochdeutschen Grammatik (MiGraKo) (unter Leitung von Thomas Klein, Hans-Joachim Solms und Klaus-Peter Wegera), annotiert in Bonn (unter Leitung von Thomas Klein); sowie
- das im Rahmen des DFG-Projekts “Referenzkorpus Mittelhochdeutsch” entstandene Korpus als Ergänzung/Erweiterung der oben genannten Korpora.
Der Ursprung der Texte in ReM ist zum Teil an der Gruppenzugehörigkeit in ANNIS (vgl. auch die Textübersicht) erkennbar: Gruppen auf -G stammen aus dem Korpus der Mittelhochdeutschen Grammatik (MiGraKo), Gruppen auf -X sind Teil des im ReM-Projekt entstandenen Erweiterungskorpus.
Während MiGraKo ein nach Zeit, Sprachraum und Textart strukturiertes Korpus bildet, ist dies beim Erweiterungskorpus (für sich genommen) nicht der Fall. Es bietet zum einen aber die Möglichkeit, MiGraKo durch Hinzunahme strukturell passender Texte oder Textausschnitte zu erweitern, und zum anderen die Möglichkeit nahezu flächendeckender Recherchen im Bereich des Frühmittelhochdeutschen.
Transkription
Grundsätzlich war das Ziel, alle Texte so handschriftengetreu zu erfassen, dass alle linguistisch relevanten Merkmale eindeutig abgebildet sind. Grundlage waren dafür in aller Regel Abbildungen der Handschrift. Ausnahmen davon bilden einerseits Texte, deren Handschrift verschollen oder zerstört ist und die daher nur in mehr oder weniger handschriftengetreuen Abdrucken des 19. Jh. vorliegen; andererseits Texte, für die Handschriftenabbildungen aus unterschiedlichen Gründen (bislang) nicht zu beschaffen waren und für die daher gleichfalls auf Handschriftenabdrucke zurückgegriffen wurde. Diese Ausnahmen sind in den Metadaten unter “notes-transcription” vermerkt.
Bei der Transkription wird zwischen der handschriftlichen Tokenisierung
(Ebene tok_dipl
) und einer modernen Erwartungen entsprechenden
Tokenisierung (Ebene tok_anno
) unterschieden. Insofern als diese
Tokenisierungen auseinander gehen, wird handschriftliche Getrenntschreibung von
Wortteilen oder Zusammenschreibung von Wörtern auf der tok_dipl
-Ebene in
tok_anno
aufgehoben, zum Beispiel:
tok_dipl | tok_anno |
---|---|
indem lande | in dem lande |
der burger meister | der burgermeister |
er ensagetez | er en saget ez |
Eine detailliertere Beschreibung findet sich im Korpushandbuch.
-
Klein, T., & Bumke, J. (1997). Wortindex zu hessisch-thüringischen Epen um 1200. Niemeyer. ↩