%%%%% README LeJa.exe %%%%%% Ein Lemmatisierer fuer Japanisch _________________________________________________ Autor: Iris Vogel Datum: August 2003 _________________________________________________ Systemvoraussetzungen: Windows 2000 / Windows XP _________________________________________________ ?????????????????????????????????????????????????????????? Das Programm LeJa.exe fuehrt einen flektierten japanischen String auf seine Woerterbuchform zurueck und speichert gleichzeitig die grammatischen Merkmale, die sich aus der Analyse ergeben. Durch ein Wörterbuch werden ebenfalls die Bedeutung des Lemmas ermittelt. Als Hilfsmittel dienen das frei im Internet verfuegbare, von Jim Breem entwickelte Japanisch-Englisch/Deutsch/Franzoesisch Woerterbuch JMdict (http://www.csse.monash.edu.au/ jwb/edict.html). Alle Dateien benutzen UCS2. ?????????????????????????????????????????????????????????????? !!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!! INSTALLATION Selbstextrahierendes Archiv INSTALL\InstallLeJa.exe ausfuehren Wegen der Woerterbuchdatei im UCS2-Format benoetigt das Programm etwa 42MB Speicherplatz! !!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!! Ausfuehrung Als Standard liest LeJa.exe aus der Datei 'input.txt' im Wurzel- verzeichnis und schreibt die Ausgabe in 'LeJa.txt'. 'LeJa.log' bietet Einblicke in den Lemmatisierungsprozess. Es koennen aber auch durch Parameter andere Dateinamen bestimmt werden, Parameter 1 kann die Eingabe, Parameter 2 die Ausgabe auf eine Datei umleiten. Beispiel >LeJa liest von 'input.txt' und schreibt in 'LeJa.txt' > LeJa neue_eingabe.txt liest von 'neue_eingabe.txt' und schreibt in 'LeJa.txt' > LeJa neue_eingabe.txt neue_ausgabe.txt liest von 'neue_eingabe.txt' und schreibt in 'neue_ausgabe.txt' Falls erwuenscht ist auch eine Version verfuegbar, in welcher ueber die Kommandozeile Eingaben und Ausgaben gemacht werden, das setzt allerdings voraus, dass die Eingabe-Funktionen fuer Japanisch mit Windows installiert wurde. Dateien werden im UCS2-Format eingelesen! $$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$ ToDo Das Programm loest die unregelmaessigen Verben kuru, suru, aru und desu nicht auf. Dafuer muesste eine eigene Routine durchlaufen werden, die nicht mehr Teil des Regelapparats ist. §§§§§§§§§§§§§§§§§§§§§§§§§§§§§§§§§§