Programm-Dokumentaion
Da die vorliegenden Quelldateien gro�e Uneinheitlichkeit im Format aufweisen,
wurde zun�chst eine Version geschaffen, die die Daten selbst unber�hrt l�sst
und lediglich die einzelnen Eintr�ge in ihrer Mikrostruktur vereinheitlicht.
Die Lemmata des Originals weisen eine Vielzahl von Zahlen und
nicht-alphanumerischen Zeichen auf, die in einem neuen
W�rterbuch nur st�ren. Diese Zeichen sollen unter Beibehaltung des
Originals in einer neuen WAT-Version so gut wie m�glich getilgt werden.
Das originale Lemma bleibt dabei immer an der ersten Stelle der
Lemmaauflistung. Die korrigierten Lemmata folgen.
Einige Programme innerhalb dieses Programmkomplexes dienen lediglich Analysezwecken,
um spezielle Eintr�ge aus dem W�rterbuch zu extrahieren, z.B. alle Eintr�ge,
deren Lemmata Zahlen, spezielle Zeichen etc. enthalten. Diese Programme
hei�en alle find[NAME].py.
Da viele Lemmata von WDGF im Sprachgebrauch nicht vorkommen, wird eine
Input-Liste aller Lemmata erstellt, die mit den Sprachkorpora des IDS abgeglichen
werden. Es wird f�r jedes Lemma bzw. f�r jede Lemmavariante eine Suchanfrage
gestartet, und die Anzahl der Treffer des betreffenden Lemmas in einer
Output-Liste hinter das Lemma geschrieben. So kann festgestellt werden, ob ein
Lemma �berhaupt vorkommt und welche Lemmavariante am h�ufigsten vorkommt. Die
Output-Liste wird anschlie�end mitsamt der Trefferanzahl in das W�rterbuch
transferiert.
Auch hier gibt es einige find...-Programme, die die Eintr�ge auf ihre
morphologischen St�mmen untersuchen, z.B. Konjunktivstamm, Pr�sensstamm etc.
Bevor die letzte W�rterbuchversion in XML �berf�hrt wird, erfolgen weitere
Korrekturen an den Daten. Einige Ver�nderungen werden dabei automatisch
durchgef�hrt, da sie f�r die Lesbarkeit des XML-Parsers unabdingbar sind.
Andere k�nnen im Mainprogramm selbst aufgerufen werden. Diese Klasse ist
beliebig erweiterbar, wenn noch weitere Korrekturen angestrebt sind.