*********************** eval-vorgehensweise.txt *********************** (UTF-8) ---------- Studienprojekt: RO-Stemmer mit Snowball (Marina Stegărescu, Doina Gligă, Erwin Glockner) WS 2005/06, SS 2006 ---------- Vorgehensweise bei der Evaluierung ================================== Um das von Snowball gestemmte Ergebnis vergleichen zu können, benötigten wir zunächst eine Vergleichsbasis, sprich ein bereits gestemmtes Ergebnis, mit dem wir die automatische Ausgabe vergleichen konnten. Wir entschieden uns für zwei Methoden bei denen wir jeweils eine Liste von Wörter manuell stemmen wollten, um dieses Ergebnis dann als Vergleichsbasis zu benutzen. (s. auch Abschlussvortrag.pdf) (Die unten erwähnten Text-Dateien befinden sich im res-Verzeichnis.) 1. Methode Wir entschieden uns einen Test-Textkorpus von ca. 1500 Wörter aus Online-Zeitungsartikel zu sammeln. Diesen Korpus haben wir mit einem selbst geschriebenen Programm (wordS_18.c) in Worte zerlegt, doppelte/gleiche Wörter entfernt und als Ausgabe eine alphabetisch geordnete Wörter-Liste erhalten. Danach haben wir noch die Stopp-Wörter entfernt (stop_out.py). Es blieb eine Liste von 393 Wörter übrig (TextWords_toStemm_OhneStopp.txt). Diese Datei haben wir gemeinsam manuell gestemmt (->TextWords_ManuellerStem_OhneStopp.txt), und danach mit dem Ergebnis von Snowball (->TextWords_AutomatischerStem_OhneStopp.txt) verglichen (compare.py, compW.c). Den Prozentsatz der übereinstimmenden Wörter im Verhältnis zu allen gestemmten Wörter (393) haben wir als Ergebnis genommen. Der Vergleich beider gestemmten Listen ergab 75%. 2. Methode Wir erzeugten manuell ein Vokabular von ca. 20.000 Wörter. Aus dieser Wörter-Liste haben wir mit Hilfe eines Programms (random.py) ungefähr 1500 Wörter nach dem Zufallsprinzip heraus kopieren lassen. Von diesen 1500 Wörter haben wir doppelte/gleiche Wörter entfernt, und danach noch die Stopp-Wörter extrahiert (stop_out.py). Am Ende blieben uns ein Vokabular von 491 Wörter. Dies war unsere zweite Basis (RandomWords_MDE_toStem.txt). Wir entschieden uns bei dieser Methode, dass jeder Einzelne von uns diese Datei manuell stemmt, und das Ergebnis mit der automatischen Snowball-Ausgabe vergleicht (compare.py, compW.c). Danach haben wir die daraus entstandenen Prozentsätze (der Übereinstimmungen) durch drei geteilt, und hatten so den Durchschnittwert von 72,33% (=Effizienzwert).