CaseSanitizer

 

 


 

Studienprojekt von Hanna Peters und Youssef Sammari
SS 2003
Lehrstuhl Computerlinguistik
Universität Heidelberg

 
   
   
   

Abstract

 

Der CaseSanitizer ist ein Programm, das durch die Identifizierung der in einem Text vorkommenden Abkürzungen und Namen eindeutige Satzgrenzen bestimmt. Das Verfahren arbeitet dokument-zentriert, d.h. unter Berücksichtigung des lokalen Kontextes und der Wortwiederholungen. Die Idee dabei ist, dass man zwischen eindeutigem Wortvorkommen (d.h. das Wort steht nicht nach einem potentiellen Satzende) und mehrdeutiger Wortposition im Satz unterscheidet. Da man die eindeutig vorkommenden Worte als Eigennamen oder gewöhnliche Worte klassifizieren kann, ist es dann möglich, Aussagen über dasselbe Wort in einer mehrdeutigen Situation zu treffen. Der große Vorteil bei diesem Verfahren ist, dass man nicht mehr auf Methoden der Statistik oder auf spezialisierte Grammatiken zurückgreifen muss.

 
   
 
Spezifikation
 
 
Abschluss-Vortrag    

 

 Read-Me

 

 

 

 

 

Download (Projekt-Archiv)

 

 
 
 
 
 
 
 
 
 
   

 
   

Zuletzt aktualisiert : 25.07.2004