De Kölschifier - Input

 

Tagging der Eingabe

Die Eingabe wird zunächst an einen externen Tagger übergegeben. Hierbei handelt es sich um den Stuttgarter Tree-Tagger. Dieser liefert zu fast jeder Eingabe die Entsprechende Wortart und das Lemma. Der Stuttgarter Tree-Tagger klassifiziert die einzelnen Wortarten / Tags nach dem STTS-Tagset.

Die Ausgabe des Taggers wird vom "Kölschifier" von der stdin eingelesen. Der eingelesene Stream muss in einzelne Tokens zerlegt werden. Jeweils drei Tokens (hochdeutsche Eingabe, Tag, hochdeutsches Lemma) werden für ein eingegebenes Wort zurückgeliefert. Diese Informationen werden in einer Instanz der Klasse Word abgelegt (mehr dazu siehe weiter unten). Die einzelnen Wörter (bzw. die einzelnen Instanzen) werden über eine ArrayList verwaltet.

Ein Nomen wird endweder als NN (normales Nomen) oder NE (Eigenname) getaggt. Das spätere Nachschlagen im Wörterbuch, die Analyse und die Generierung orientiert sich ausschließlich an der getaggten Wortart.

Mehr Informationen zum Tagging finden Sie in der Linksammlung. Die Eingabe beschränkt sich zunächst auf eine limitierte Anzahl von Zeichen. Später könnte das System noch erweitert werden. Es könnten sogar ganze Internetseiten gewandelt werden (der Tagger erkennt auch SGML-Tags).

Zur Klasse "Word":

"Word" ist die große Speicherklasse (ähnlich eines "struct" in C). Folgende Informationen werden hier abgelegt:

Grammatische Informationen

Status Informationen :