Studienprojekt von Ineta Sejane und Wiebke Wagner

 

 

 

WDG

Analyse und Transformation

(WAT)

 

 

 

Exposé

1. Einleitung

Das Institut für Deutsche Sprache verfügt über das Wörterbuch WDG (Wörterbuch zur deutschen Grammatik), das ursprünglich auf den Daten aus dem SALEM-Projekt an der Universität Saarbrücken beruht und bislang in kaum brauchbarer Form vorlag. Bei diesem Wörterbuch handelt es sich um ein sehr umfangreiches Werk, das heute nur noch in Form von Textdateien existiert. Sein Umfang beläuft sich auf ca. 32 MB und knapp 150.000 Einträge. Die Einträge sind mit umfangreichen linguistischen Informationen versehen, die in eher kryptischen Zahlen und Zeichen kodiert sind. Die Kodierung ist mehr oder weniger einheitlich gehaltet; teils wurden manuell Korrekturen vorgenommen oder Anmerkungen in dem Text gemacht. Das Wörterbuch verfügt nur in kleinem Rahmen über semantische Angaben; dafür liefert es sehr detaillierte morphologische und syntaktische Informationen. Auch der lexikologische Bereich mit Angaben zur dialektalen Begrenzung und zu fachsprachlichen Begriffen wird angerissen.

Das Projekt soll dieses Wörterbuch aufarbeiten mit dem Ziel:

Für den Projektverlauf sind zunächst folgende Arbeitsschritte geplant:

2. Überführung in ein XML-Format

Um jeglichem Informationsverlust vorzubeugen, sollen die Originaldaten 1:1 in ein XML-Format überführt werden. Damit soll eine verlässliche Einheitlichkeit der Struktur erreicht werden, um eine maschinelle Weiterverarbeitung zu ermöglichen. Hierfür ist notwendig:

3. XML-Daten bearbeiten

Da die Lemmata in alter Rechtschreibung, ausschließlich in Großbuchstaben und ohne Umlaute aufgeführt sind, ist eine Anpassung an die aktuelle Schreibung nötig. Dieses Problem soll so weit wie möglich durch Abgleich gegen Korpusdaten erfolgen. Die maschinelle Korrektur der Wörterbuchwortformen soll auf folgende Punkte Bezug nehmen:

4. Validierung ausgewählter Daten

Denkbar wäre es, die linguistischen Angaben zu überprüfen, z.B: