Ruprecht-Karls-Universität Heidelberg
Institut für Computerlinguistik

Bilder vom Neuenheimer Feld, Heidelberg und der Universität Heidelberg

Automatische Textzusammenfassung

Kursbeschreibung

Studiengang Modulkürzel Leistungs-
bewertung
BA-2010[100%|75%] CS-CL 6 LP
BA-2010[50%] BS-CL 6 LP
BA-2010[25%] BS-CL 4 LP
BA-2010 AS-CL 8 LP
Master SS-CL, SS-FAL, SS-TAC 8LP
Dozenten/-innen Katja Markert
Veranstaltungsart PS/HS
Erster Termin 24.10.2017
Zeit und Ort Di, 09:1510:45, INF 329 / SR 26 (SR)
Commitment-Frist tbd.

Teilnahmevoraussetzungen

Fortgeschrittene Bachelor und Masterstudierende.

Für Bachelor:

  • ECL
  • Grundkenntnisse maschinellen Lernens (z.B. erworben in "Statistical Methods for Computational Linguistics")
  • Die ersten Themen (erste 3-4 Wochen der Studentenvorträge) benötigen keine großen Kenntnisse im maschinellen Lernen und sind speziell auch für Proseminare geeignet.

Leistungsnachweis

  • Aktive Teilnahme: Diskussionsbeiträge, Fragenbeantwortung, Übungen
  • Zweitleistung: Hausarbeit oder Projekt. Evtl. Zweitreferat.

Inhalt

Automatische Zusammenfassung erlaubt einen oder mehrere längere Texte verkürzt darzustellen und ist daher immer dort notwendig, wo nur ein kurzer Überblick über ein Thema gebraucht wird. Typische Anwendungen sind zum Beispiel automatische Generierung von Schlagzeilen für Nachrichten, automatische Abstraktierung für wissenschaftliche Artikel, Zusammenfassung von Meinungen (opinion summarization).

Wir werden in diesem Seminar auf verschiedene Arten der Zusammenfassung (abstraktiv vs. extraktiv, single- vs multidocument summarization, domain-specific summarization etc) eingehen, wobei die extraktive single-document summarisation als bisher immer noch häufigste Form die Basis liefert. Ein besonderer Schwerpunkt soll auf verschiedenen Methoden und deren formaler oder statistischer Spezifikation liegen. Zur Auswahl stehen hier u.a. :

  • klassische Methoden, die auf Wortverteilungen und einfachen Wortgewichtungen aufbauen (speziell PS-geeignet)
  • graphenbasierte Methoden (speziell PS-geeignet)
  • submodulare Funktionen
  • integer linear programming
  • neuronale Netze

Die Evaluierung von Textzusammenfassung wird ebenfalls eine zentrale Rolle spielen.

Kursübersicht

Seminarplan

Datum Sitzung Materialien

Literatur

Meist frei erhältlich und wird zu Semesterbeginn bekanntgegeben. Eine Übersicht über neueste Methoden findet sich in Yao et al. 2017 . Wir werden allerdings mit Grundlagenmethoden beginnen, bevor wir zu den neuesten vordringen. Vorschläge zu Literatur befinden sich in der Literaturliste auf der Materialienseite.

» weitere Kursmaterialien

zum Seitenanfang