Programm-Dokumentaion
Da die vorliegenden Quelldateien große Uneinheitlichkeit im Format aufweisen,
wurde zunächst eine Version geschaffen, die die Daten selbst unberührt lässt
und lediglich die einzelnen Einträge in ihrer Mikrostruktur vereinheitlicht.
Die Lemmata des Originals weisen eine Vielzahl von Zahlen und
nicht-alphanumerischen Zeichen auf, die in einem neuen
Wörterbuch nur stören. Diese Zeichen sollen unter Beibehaltung des
Originals in einer neuen WAT-Version so gut wie möglich getilgt werden.
Das originale Lemma bleibt dabei immer an der ersten Stelle der
Lemmaauflistung. Die korrigierten Lemmata folgen.
Einige Programme innerhalb dieses Programmkomplexes dienen lediglich Analysezwecken,
um spezielle Einträge aus dem Wörterbuch zu extrahieren, z.B. alle Einträge,
deren Lemmata Zahlen, spezielle Zeichen etc. enthalten. Diese Programme
heißen alle find[NAME].py.
Da viele Lemmata von WDGF im Sprachgebrauch nicht vorkommen, wird eine
Input-Liste aller Lemmata erstellt, die mit den Sprachkorpora des IDS abgeglichen
werden. Es wird für jedes Lemma bzw. für jede Lemmavariante eine Suchanfrage
gestartet, und die Anzahl der Treffer des betreffenden Lemmas in einer
Output-Liste hinter das Lemma geschrieben. So kann festgestellt werden, ob ein
Lemma überhaupt vorkommt und welche Lemmavariante am häufigsten vorkommt. Die
Output-Liste wird anschließend mitsamt der Trefferanzahl in das Wörterbuch
transferiert.
Auch hier gibt es einige find...-Programme, die die Einträge auf ihre
morphologischen Stämmen untersuchen, z.B. Konjunktivstamm, Präsensstamm etc.
Bevor die letzte Wörterbuchversion in XML überführt wird, erfolgen weitere
Korrekturen an den Daten. Einige Veränderungen werden dabei automatisch
durchgeführt, da sie für die Lesbarkeit des XML-Parsers unabdingbar sind.
Andere können im Mainprogramm selbst aufgerufen werden. Diese Klasse ist
beliebig erweiterbar, wenn noch weitere Korrekturen angestrebt sind.