WAT
(WDG - Analyse und Transformation)

Studienprojekt von Ineta Sejane und Wiebke Wagner

ineta.sejane@gmx.de
wiebkewagner@gmx.de


am Institut für Deutsche Sprache, Mannheim
Sommersemester 04 - Wintersemester 04/05
16.02.2005




Abstract

Das Institut für Deutsche Sprache verfügt über das grammatische Wörterbuch WDG (Wörterbuch zur deutschen Grammatik), das bedingt durch das veraltete Format nicht mehr effizient nutzbar ist. Bei diesem Wörterbuch handelt es sich um ein sehr umfangreiches Werk, das auf Daten beruht, die an der Universität Saarbrücken durch automatische Lemmatisierung von Korpora in den 70er und 80er Jahren erstellt wurden. WDG existiert heute nur noch in Form von eher kryptischen Textdateien. Der Umfang beläuft sich auf knapp 150.000 Einträge. Das Wörterbuch verfügt nur in kleinem Rahmen über semantische Angaben. Dafür liefert es sehr detaillierte morphologische und syntaktische Informationen, sowie lexikalische Angaben über dialektale Begrenzung und fachsprachliche Zugehörigkeit. Die Informationen sind teils in Zahlen und Zeichen verschlüsselt, teils aber auch durch ihre Position innerhalb der Daten festgelegt. Die Kodierung ist dabei nicht einheitlich, die vorliegende Dokumentation leider unvollständig.

In diesem Projekt sollte WDG zur besseren Benutzbarkeit neu bearbeitet werden. Dafür wurden die Daten zunächst vereinheitlicht und das Wörterbuch in der neu erstellten Version WAT in ein XML-Format transferiert. Der Inhalt des Wörterbuchs wurde auf seine linguistische Korrektheit analysiert und ggf. korrigiert.

Auch nach der Bearbeitung sind die Originaldaten vollständig erhalten geblieben, Korrekturen wurden als solche vermerkt. Das Wörterbuch liegt jetzt in einer Form vor, die mit modernen Programmen problemlos weiterverarbeitet werden kann.


Projektarchiv

Dokumentationen


Wichtige Dateien


Sonstiges


Das Institut für Deutsche Sprache, Mannheim verfügt über die gesamten Daten.