< Zurück
Inhalt
Weiter >
Völlig neuer Ansatz: Pattern Matching!
- Idee: Parser geht Morph-Datenbank linear durch
- Reihenfolge: Momentan längste Morphe zuerst, dann alphabetisch
- "Parser" sucht nach dem aktuellen Morph. Wenn gefunden: Im Wort
markieren und Position merken
- Wenn alle Morphe durchprobiert wurden, sind die nicht markierten Stellen eben Joker!
- Zweite Morph-Liste: Wie erste, aber alphabetisch r&uum;ckwärts
- Zwei Durchgänge pro Wort; die Version mit weniger Morphen wird als
die richtige angesehen
- Problem: l/eben/s/mitt/elbe/darf/
- Bessere Reihenfolge: Statistische Sortierung. Häufigste Morphe zuerst prüfen
- Dazu müssen aber erst die Morphe in der deutschen Sprache gezählt werden, und
das geht nur mit vorhandenen, korrekten Segmentierungen im großen Maßstab!
- Also aufgehoben für spätere Erweiterungen...