Simplifizierung
Die tok_anno
-Ebene in ANNIS bietet neben moderner Tokenisierung eine
simplifizierte Darstellung der Wortformen, die weitgehend auf Sonderzeichen
verzichtet.
Die Simplifizierung von der diplomatischen zur modernisierten Darstellung erfolgt gemäß den Regeln in folgender Tabelle. Zusätzlich werden alle Buchstaben mit Akzenten (Gravis, Akut, Zirkumflex) durch ihre unmodifizierten Varianten ersetzt. Umlaute bleiben auch in der simplifizierten Form erhalten. Für die diplomatische Darstellung werden teils Erweiterungen aus der Medieval Unicode Font Initiative (MUFI) verwendet; in diesen Fällen ist die Zeile entsprechend gekennzeichnet.
Buchstabe | UTF Code | UTF Name | Simplifizierung | Anmerkung |
---|---|---|---|---|
ſ | 017F | LATIN SMALL LETTER LONG S | s | |
xꝰ | A770 | MODIFIER LETTER US | us | |
x᷑ | 1DD1 | COMBINING UR ABOVE | ur | |
ꝫ | A76B | LATIN SMALL LETTER ET | et | |
ꝝ | A75D | LATIN SMALL LETTER RUM ROTUNDA | rum | |
ꝯ | A76F | LATIN SMALL LETTER CON | con | |
c͛ | 0063+035B | COMBINING ZIGZAG ABOVE | cetera | |
ę | 0119 | LATIN SMALL E WITH OGONEK | e | |
ꝙ/Ꝙ | A759/A758 | LATIN SMALL/CAPITAL LETTER Q WITH DIAGONAL STROKE | que/Que | |
p/P | 0070/0050 | pro/Pro | hier verwenden die Transkriptionen Codierungen für Zeichen, die es weder in Unicode noch in MUFI gibt | |
ꝑ/Ꝑ | A751/A750 | LATIN SMALL/CAPITAL LETTER P WITH STROKE THROUGH DESCENDER | per/Per | |
| E8B3 | LATIN SMALL LETTER Q LIGATED WITH R ROTUNDA | quia | MUFI |
| F1E1 | PARAGRAPHUS | // | MUFI |
· | 00B7 | MIDDLE DOT | . | |
| F161 | PUNCTUS ELEVATUS | . | |
à | 0300 | COMBINING GRAVE ACCENT | a | |
á | 0301 | COMBINING ACUTE ACCENT | a | |
â | 0302 | COMBINING CIRCUMFLEX ACCENT | a | |
ā | 0304 | COMBINING MACRON | a- | Nasalstrich |
ā | 0304 | COMBINING MACRON | a- | Kontraktionszeichen, dargestellt wie Nasalstrich |
a̲ | 0332 | COMBINING LOW LINE | a | Abkürzungszeichen |
ȧ | 0307 | COMBINING DOT ABOVE | a | |
ä | 0308 | COMBINING DIAERESIS | a | |
xy | 200D | ZERO WIDTH JOINER | xy | |
xˢ | 02E2 | COMBINING ZIGZAG ABOVE | ’ | r-Kürzung |
xͣ | 0363 | COMBINING LATIN SMALL LETTER A | xa | |
xͤ | 0364 | COMBINING LATIN SMALL LETTER E | xe | |
xͥ | 0365 | COMBINING LATIN SMALL LETTER I | xi | |
xͦ | 0366 | COMBINING LATIN SMALL LETTER O | xo | |
xͧ | 0367 | COMBINING LATIN SMALL LETTER U | xu | |
xͨ | 0368 | COMBINING LATIN SMALL LETTER C | xc | |
xͩ | 0369 | COMBINING LATIN SMALL LETTER D | xd | |
xͪ | 036A | COMBINING LATIN SMALL LETTER H | xh | |
xͫ | 036B | COMBINING LATIN SMALL LETTER M | xm | |
xͬ | 036C | COMBINING LATIN SMALL LETTER R | xr | |
xͭ | 036D | COMBINING LATIN SMALL LETTER T | xt | |
xͮ | 036E | COMBINING LATIN SMALL LETTER V | xv | |
xͯ | 036F | COMBINING LATIN SMALL LETTER X | xx | |
x͗ | 0357 | COMBINING HALF CIRCLE ABOVE | x | Bezeichnet ein unleserliches Superskript |
xᷚ | 1DDA | COMBINING LATIN SMALL LETTER G | xg | |
xᷜ | 1DDC | COMBINING LATIN SMALL LETTER K | xk | |
xᷝ | 1DDD | COMBINING LATIN SMALL LETTER L | xl | |
xᷠ | 1DE0 | COMBINING LATIN SMALL LETTER N | xn | |
xᷢ | 1DE2 | COMBINING LATIN SMALL CAPITAL R | xr | |
xᷤ | 1DE4 | COMBINING LATIN SMALL LETTER S | xs | |
xᷦ | 1DE6 | COMBINING LATIN SMALL LETTER Z | xz | |
x | F012 | COMBINING LATIN SMALL LETTER B | xb | MUFI |
x | F017 | COMBINING LATIN SMALL LETTER F | xf | MUFI |
x | F025 | COMBINING LATIN SMALL LETTER P | xp | MUFI |
x | F02B | COMBINING LATIN SMALL LETTER Y | xy | MUFI |
x | F030 | COMBINING LATIN SMALL LETTER J | xj | MUFI |
x | F033 | COMBINING LATIN SMALL LETTER Q | xq | MUFI |
x | F03C | COMBINING LATIN SMALL LETTER W | xw | MUFI |
æ | 00E6 | LATIN SMALL LETTER AE | ae | |
Æ | 00C6 | LATIN CAPITAL LETTER AE | Ae | |
& | 0026 | AMPERSAND | & | |
①-⑨ | 2460-2468 | CIRCLED DIGIT ONE-NINE | {1} - {9} | textspezifische (idiosynkratische) Kürzungszeichen |
Heuristik für Nasalstrich (Version 1.0)
Der Nasalstrich (x̄) wird häufig für die Kürzung von Nasalen, insbesondere für -en/-em, verwendet. Die Platzierung des Nasalstrichs (und somit die “logischste” Simplifizierung) kann jedoch stark variieren, weshalb wir folgende Heuristik verwenden:
- vn̄ → vnd (Sonderregel aufgrund der hohen Frequenz dieser Wortform)
- Nasalstrich auf n/m wird zu en/em, falls ein Konsonant vorausging (Beispiel: volgn̄ → volgen)
- Nasalstrich auf Vokal wird zu n, falls nicht bereits n/m folgt (Beispiel: gutē → guten)
- Nasalstrich auf Konsonant wird zu e(n), falls nicht bereits e(n)/em folgt (Beispiel: frevnd̄ → frevnden, d̄n → den)
- Alle anderen Nasalstriche werden in der Simplifizierung nicht wiedergegeben (Beispiel: dēne → dene)
Für diese Heuristik zählen aeiouvwyäöü als Vokale, alle anderen Zeichen als Konsonanten.
Heuristik für r-Kürzung (Version 1.0)
Die r-Kürzung (x͛) steht häufig für -r/-er, variiert jedoch ebenfalls (wie der Nasalstrich) in ihrer genauen Position im Wort, sodass hier ebenfalls eine Heuristik zur Anwendung kommt:
- Kürzung auf v wird zu ver (oft als Vorsilbe; Beispiel: v͛nomen → vernomen)
- Kürzung auf r wird zu rr nach Vokalen, und zu er sonst (Beispiele: zouber͛ → zouberre, vnsr͛ → vnser)
- Kürzung vor r wird zu er (Beispiel: zaub͛r → zauber)
- Kürzung wird zu r, falls sie auf oder vor einem Vokal steht (Beispiel: alta͛e → altare, ve͛ſtan → verstan)
- Kürzung wird ansonsten zu er (Beispiel: ab͛ → aber)
Für diese Heuristik zählen aeiouyäöü als Vokale, alle anderen Zeichen als Konsonanten.