Abstract

 

Das Sprachverarbeitungsprogramm PLAIN (Programs for Language Analysis and Inference, cf. Hellwig 1980) beinhaltet ein deduktives Frage-Anwort-System, maschinelle Übersetzung, Grammatikprüfung und automatische Textzusammenfassung. Die zugrunde liegende linguistische Theorie ist die Dependency Unification Grammar (DUG), eine Valenzgrammatik mit Lexikon und Dependenzstruktur).

Die Kombinationsfähigkeit von Wörtern wird durch Muster (Templates) beschrieben, die den fraglichen Wörtern Slots zuweisen. Der Parser versucht, die Leerstellen mit passenden Fillern zu besetzen. Sätze werden in Listen dargestellt, die eine Dependenz-Baumstruktur wiedergeben. Die Daten im PLAIN System (auch die grammatischen Informationen) sind in SGML dargestellt.

Damit PLAIN eine Eingabe in natürlicher Sprache verarbeiten kann, müssen folgende Daten über die Eingabesprache vorliegen:

1)  ein morpho-syntaktisches System

-     eine Definition der morpho-syntaktischen Kategorien (Wortarten [z. B. noun] und grammatische Merkmale [z. B. person, number])

-     ein morpho-syntaktisches Lexikon (Aufteilung der Lexeme in Stämme und Endungen)

 2)  ein syntaktisches System

-     ein Valenzlexikon (jedem Lexem werden Slots (Rollen) zugewiesen; die Menge der Slots hängt davon ab, wie viele Elemente ihm in einem Strukturbaum untergeordnet werden)

 3)  ein lexikalisch-semantisches System

 4)  ein logisch-semantisches System

 5)  ein System für Textkohäsion und Textkohärenz

 

Wir befassen uns im Moment mit dem syntaktischen System. Die Syntax-Komponente in PLAIN enthält ein Set von Templates und ein Set von Syntax Frames (Synframes). Ein Synframe ist eine bestimmte Anordnung von syntagmatischen Beziehungen eines Wortes. Ein Lexem repräsentiert ein Wort als solches, wie ein Keyword im Lexikon. Wenn das Wort mehr als eine lexikalische Bedeutung hat, wird durch Angabe eines Readings disambiguiert. Ein Synframe stellt ein Set von syntagmatischen Beziehungen dar, die mit dem Wort zur gleichen Zeit kombiniert werden. Sie bestehen aus Komplementen und Adjunkten und werden durch beliebige Referenzen auf Komplement- oder Adjunkt-Templates dargestellt. Auf der Grundlage des Collins Cobuild English Dictionary soll ein Valenzlexikon für das Englische erstellt bzw. vervollständigt werden. Jedem Eintrag im Wörterbuch soll ein Synframe zugeordnet werden.

 

Beispiel (vereinfachte Darstellung):

Role:

          Templates:             Form Head/Dependent:        Example:

----------------------------------------------------------------------------------------------------------------------------

         +dir_obj1                verb/noun,pron                     (He) caught THE BALL

         +dir_obj1                 verb/verb-rel                           (He) dislikes WHOEVER

                                                                                                    IS IN HIS WAY

  +dir_obj1_that     verb/that-clause                     (I) know THAT SHE IS

                                                                                             PRETTY

          +dir_obj1_that      verb/clause                               (I) know SHE IS PRETTY

 

Kodierung des Verbs achieve:

 

achieve : verb

       +subject

       +dir_obj1

       #1 print quality is sacrificed to achieve the increase in speed

 

Aufgabe:

 

Um das Kodieren der Lexeme zu beschleunigen, soll eine Eingabemaske mit folgenden Eigenschaften entwickelt werden:

1) Unterstuetzung der Kodierarbeit:

-         Eingabe der vereinfachten Kodierung durch den Benutzer, automatische Abspeicherung in korrektem Formalismus

-         Angebot der möglichen Templates zur Auswahl

-         Bei Bedarf Hilfe (z.B. Auszug aus dem Instruktionsbuch mit Beispielen zu jedem Kode, als Entscheidungshilfe für den Kodierer)

2) Verwaltung der Daten

     -         Einlesen von Wortlisten, die bereits kodiert sind

-         Warnung, wenn ein Wort bereits vorhanden ist, damit nicht doppelt kodiert wird (Doublettenprüfung)

 

zurück zur Startseite                                                            Spezifikation