Referenzkorpus Mittelhochdeutsch (1050–1350)

Simplifizierung

Die tok_anno-Ebene in ANNIS bietet neben moderner Tokenisierung eine simplifizierte Darstellung der Wortformen, die weitgehend auf Sonderzeichen verzichtet.

Die Simplifizierung von der diplomatischen zur modernisierten Darstellung erfolgt gemäß den Regeln in folgender Tabelle. Zusätzlich werden alle Buchstaben mit Akzenten (Gravis, Akut, Zirkumflex) durch ihre unmodifizierten Varianten ersetzt. Umlaute bleiben auch in der simplifizierten Form erhalten. Für die diplomatische Darstellung werden teils Erweiterungen aus der Medieval Unicode Font Initiative (MUFI) verwendet; in diesen Fällen ist die Zeile entsprechend gekennzeichnet.

Buchstabe UTF Code UTF Name Simplifizierung Anmerkung
ſ 017F LATIN SMALL LETTER LONG S s  
xꝰ A770 MODIFIER LETTER US us  
x᷑ 1DD1 COMBINING UR ABOVE ur  
A76B LATIN SMALL LETTER ET et  
A75D LATIN SMALL LETTER RUM ROTUNDA rum  
A76F LATIN SMALL LETTER CON con  
0063+035B COMBINING ZIGZAG ABOVE cetera  
ę 0119 LATIN SMALL E WITH OGONEK e  
ꝙ/Ꝙ A759/A758 LATIN SMALL/CAPITAL LETTER Q WITH DIAGONAL STROKE que/Que  
p/P 0070/0050   pro/Pro hier verwenden die Transkriptionen Codierungen für Zeichen, die es weder in Unicode noch in MUFI gibt
ꝑ/Ꝑ A751/A750 LATIN SMALL/CAPITAL LETTER P WITH STROKE THROUGH DESCENDER per/Per  
E8B3 LATIN SMALL LETTER Q LIGATED WITH R ROTUNDA quia MUFI
F1E1 PARAGRAPHUS // MUFI
· 00B7 MIDDLE DOT .  
F161 PUNCTUS ELEVATUS .  
0300 COMBINING GRAVE ACCENT a  
0301 COMBINING ACUTE ACCENT a  
0302 COMBINING CIRCUMFLEX ACCENT a  
0304 COMBINING MACRON a- Nasalstrich
0304 COMBINING MACRON a- Kontraktionszeichen, dargestellt wie Nasalstrich
0332 COMBINING LOW LINE a Abkürzungszeichen
0307 COMBINING DOT ABOVE a  
0308 COMBINING DIAERESIS a  
x‍y 200D ZERO WIDTH JOINER xy  
02E2 COMBINING ZIGZAG ABOVE r-Kürzung
0363 COMBINING LATIN SMALL LETTER A xa  
0364 COMBINING LATIN SMALL LETTER E xe  
0365 COMBINING LATIN SMALL LETTER I xi  
0366 COMBINING LATIN SMALL LETTER O xo  
0367 COMBINING LATIN SMALL LETTER U xu  
0368 COMBINING LATIN SMALL LETTER C xc  
0369 COMBINING LATIN SMALL LETTER D xd  
036A COMBINING LATIN SMALL LETTER H xh  
036B COMBINING LATIN SMALL LETTER M xm  
036C COMBINING LATIN SMALL LETTER R xr  
036D COMBINING LATIN SMALL LETTER T xt  
036E COMBINING LATIN SMALL LETTER V xv  
036F COMBINING LATIN SMALL LETTER X xx  
0357 COMBINING HALF CIRCLE ABOVE x Bezeichnet ein unleserliches Superskript
xᷚ 1DDA COMBINING LATIN SMALL LETTER G xg  
xᷜ 1DDC COMBINING LATIN SMALL LETTER K xk  
xᷝ 1DDD COMBINING LATIN SMALL LETTER L xl  
xᷠ 1DE0 COMBINING LATIN SMALL LETTER N xn  
xᷢ 1DE2 COMBINING LATIN SMALL CAPITAL R xr  
xᷤ 1DE4 COMBINING LATIN SMALL LETTER S xs  
xᷦ 1DE6 COMBINING LATIN SMALL LETTER Z xz  
x F012 COMBINING LATIN SMALL LETTER B xb MUFI
x F017 COMBINING LATIN SMALL LETTER F xf MUFI
x F025 COMBINING LATIN SMALL LETTER P xp MUFI
x F02B COMBINING LATIN SMALL LETTER Y xy MUFI
x F030 COMBINING LATIN SMALL LETTER J xj MUFI
x F033 COMBINING LATIN SMALL LETTER Q xq MUFI
x F03C COMBINING LATIN SMALL LETTER W xw MUFI
æ 00E6 LATIN SMALL LETTER AE ae  
Æ 00C6 LATIN CAPITAL LETTER AE Ae  
& 0026 AMPERSAND &  
①-⑨ 2460-2468 CIRCLED DIGIT ONE-NINE {1} - {9} textspezifische (idiosynkratische) Kürzungszeichen

Heuristik für Nasalstrich (Version 1.0)

Der Nasalstrich () wird häufig für die Kürzung von Nasalen, insbesondere für -en/-em, verwendet. Die Platzierung des Nasalstrichs (und somit die “logischste” Simplifizierung) kann jedoch stark variieren, weshalb wir folgende Heuristik verwenden:

  • vn̄vnd (Sonderregel aufgrund der hohen Frequenz dieser Wortform)
  • Nasalstrich auf n/m wird zu en/em, falls ein Konsonant vorausging (Beispiel: volgn̄volgen)
  • Nasalstrich auf Vokal wird zu n, falls nicht bereits n/m folgt (Beispiel: gutēguten)
  • Nasalstrich auf Konsonant wird zu e(n), falls nicht bereits e(n)/em folgt (Beispiel: frevnd̄frevnden, d̄nden)
  • Alle anderen Nasalstriche werden in der Simplifizierung nicht wiedergegeben (Beispiel: dēnedene)

Für diese Heuristik zählen aeiouvwyäöü als Vokale, alle anderen Zeichen als Konsonanten.

Heuristik für r-Kürzung (Version 1.0)

Die r-Kürzung () steht häufig für -r/-er, variiert jedoch ebenfalls (wie der Nasalstrich) in ihrer genauen Position im Wort, sodass hier ebenfalls eine Heuristik zur Anwendung kommt:

  • Kürzung auf v wird zu ver (oft als Vorsilbe; Beispiel: v͛nomenvernomen)
  • Kürzung auf r wird zu rr nach Vokalen, und zu er sonst (Beispiele: zouber͛zouberre, vnsr͛vnser)
  • Kürzung vor r wird zu er (Beispiel: zaub͛rzauber)
  • Kürzung wird zu r, falls sie auf oder vor einem Vokal steht (Beispiel: alta͛ealtare, ve͛ſtanverstan)
  • Kürzung wird ansonsten zu er (Beispiel: ab͛aber)

Für diese Heuristik zählen aeiouyäöü als Vokale, alle anderen Zeichen als Konsonanten.