Ruprecht-Karls-Universität Heidelberg
Bilder vom Neuenheimer Feld, Heidelberg und der Universität Heidelberg
Siegel der Uni Heidelberg

Data-Driven Grammar Induction

Kursbeschreibung

DozentInnen Anette Frank
Veranstaltungsart Hauptseminar
Zeit und Ort Mi, 11:15 - 12:45, INF 327 / SR 1 (SR)
Studiengang MA, NBA, ABA, Magister
Modul-Kürzel MA: SS-CL, SS-FAL; NBA: AS-CL, AS-FL; ABA: V01
Leistungsbewertung MA: 8 LP
NBA: 8 LP
ABA: 6 LP

Teilnahmevoraussetzungen

Programmierprüfung, Kenntnisse in Syntax

Leistungsnachweis

Lektüre der zugrundegelegten Literatur, Referat und Hausarbeit oder Referat und Projekt

Inhalt

Seit den 80/90er Jahren wurden linguistisch motivierte und formal wohldefinierte Grammatikformalismen entwickelt, insbesondere Lexical-Functional Grammar (LFG), Combinatory Categorial Grammar (CCG), Head-driven Phrase-Structure Grammar (HPSG) und Lexicalised Tree-Adjoining Grammar(LTAG). Durch die Entwicklung effizienter Parsingalgorithmen ist der Einsatz dieser Grammatikformalismen in computerlinguistischen Anwendungen realistisch geworden. Die Entwicklung umfangreicher manuell definierter Grammatiken ist zeitaufwendig und teuer; für multilinguale Sprachverarbeitung müssen jedoch umfangreiche und robuste Grammatiken in kurzer Zeit entwickelt werden.

Das Seminar führt ein in die Methodik der automatischen Induktion probabilistischer Grammatiken aus Baumbanken am Beispiel von PCFGs. Wir diskutieren insbesondere spezielle Verfahren für die automatische Induktion lexikalisierter und constraint-basierter Grammatiken (wie LFG, TAG, CCG und HPSG) aus angereicherten Baumbanken bzw. Baumbankgrammatiken. Hierbei werden wir die Charakteristiken der jeweiligen Grammatikformalismen und die entsprechenden Unterschiede der entsprechenden Grammatikinduktionsverfahren herausarbeiten. Abschließend widmen wir uns neueren Ansätzen für die Grammatikinduktion auf Basis paralleler Korpora.

Literatur

Weitere Literatur wird zu Beginn des Semesters bekanntgegeben.

» Kursübersicht und weitere Kursmaterialien