Das folgende Abstract
beschreibt die zu Begin des Projektes angestrebten Ziele sowie die
Motivation für das Projekt:
Die
Bestimmung der Sprache eines Textes ist Grundvoraussetzung für
viele computerlinguistische Anwendungen und Verfahren (z.B. maschinelle
Übersetzung, Syntaxanalyse, ...). Das vorliegende
Studienprojekt hat deshalb das Ziel ein Verfahren zu entwickeln, das
diese Aufgabe möglichst effizient und vor allem korrekt
bewältigt.
Ausgehend
von einem einfachen Ansatz mit Unigrammen (unsere Baseline) sollen
verschiedene linguistische und statistische Verfahren, sowie deren
Kombinationen implementiert und evaluiert werden. In einem ersten
Schritt sollen die Verfahren auf möglichst viele Sprachen mit
lateinischen Schriftzeichen angewandt werden und hierzu
einzel-sprachliche Korpora, sowie ausführliche
Testläufe erstellt werden. Die Ausweitung auf andere
Schriftsysteme sollte aber ohne weiteres möglich sein.
Auf seinem aktuellen Stand verügt ToSoBaP
über Implementierungen folgender Ansätze:
Unigramme, Bigramme, Trigramme, kurze Wörter,
Stopwörter, Wortlänge. Darüber hinaus in ein
automatisches Evaluationsmodul in Ansätzen vorhanden.