Über

Dies ist das Newsblog des Sprachwissenschaftlichen Instituts an der Ruhr-Universität Bochum.

Kategorien

Publikationen
Vortragsreihe
Sonstiges

Archive

Links

Ruhr-Universität Bochum
Sprachwissenschaftliches Institut

Suche

Zeugs

Powered by PivotX - 2.3.11 
XML-Feed (RSS 1.0) 
XML: Atom Feed 

« Vortrag von John A. B… | home | Vortrag von R. Harald… »

Vortrag von Ines Rehbein am Dienstag, 14.01.2014, 16:00 Uhr

Freitag, 17. Januar 2014. Aus der Kategorie 'Vortragsreihe'. Das Sprachwissenschaftliche Institut lädt ein zum Vortrag von

Ines Rehbein (Potsdam):
Herausforderungen für die linguistische Annonation von nicht-kanonischen Daten am Beispiel von Kiezdeutsch

Ziel des Projekts B6 "Das Kiezdeutschkorpus" im SFB 632 "Informationsstruktur" ist die Erstellung eines linguistisch annotierten Korpus gesprochener Sprache, insbesondere von informellen Dialogen zwischen Jugendlichen in urbanen Wohngebieten.

Gesprochene Sprache im Allgemeinen und informelle Jugendsprache im Besonderen stellt große Herausforderungen an die automatische Aufbereitung. Herkömmliche NLP-Tools, meist trainiert auf Zeitungstexten, erreichen nur eine mäßige Akkuratheit auf der neuen Domäne. Die Gründe dafür sind vielfältig. Zum einen ist ein großer Anteil des Vokabulars nicht in den Trainingsdaten enthalten und sorgt so für ?spars data?-Probleme, zum anderen resultieren Disfluenzen in gesprochener Sprache in unvollständigen, oft ungrammatischen Strukturen, die von herkömmlichen Taggern und Parsern nicht angemessen analysiert werden können. Darüber hinaus sorgen spezifische Eigenschaften von Kiezdeutsch wie z. B. eine nicht-kanonische Wortstellung, das Weglassen von Präpositionen bei Lokalangaben oder eine mehrfache Vorfeldbesetzung in ADV-SVO-Konstruktionen für zusätzliche Probleme.

Im Vortrag werde ich über den aktuellen Stand bei der Erstellung des Kiezdeutschkorpus berichten. Ein Schwerpunkt des Vortrags liegt auf der Entwicklung eines POS-Taggers für die Wortartenannotation von Kiezdeutsch und Strategien zur Fehlerkorrektur der automatischen Analysen. Danach werde ich über weitere geplante Verarbeitungsschritte wie die Annotation von syntaktischen Chunks berichten und syntaktische Analysen von spezifischen Phänomenen gesprochener Sprache in einem Baumbankannotationsschema diskutieren.

Der Vortrag findet in Raum 3/159 statt.