Bilder vom Neuenheimer Feld, Heidelberg und der Universität Heidelberg

Informationsextraktion

Kursbeschreibung

Dozent	Matthias Hartung
Veranstaltungsart	Vorlesung
Zeit	Do., 11:15 - 12:45 Uhr
Ort	INF 306, SR 14
Studiengang	ABA, NBA
Modul-Kürzel	ABA: A12; NBA: CS-CL, BS-CL, BS-AC
Leistungsbewertung	NBA: 6 ECTS-Punkte ABA: 4 ECTS-Punkte

Teilnahmevoraussetzungen

Programmierkenntnisse (Niveau: mindestens "Programmieren I") sind unverzichtbare Voraussetzung für die Teilnahme.

Leistungsnachweis

Lektüre einschlägiger Literatur
Lösung kursbegleitender Übungsaufgaben
Zwei umfangreichere Implementierungsaufgaben in Gruppenarbeit, wobei die zweite während der vorlesungsfreien Zeit zu bearbeiten ist

Inhalt

Informationsextraktionssysteme haben zum Ziel, domänenspezifische Informationen aus unrestringierten Texten zu gewinnen und zu strukturieren. Es geht dabei nicht um eine vollständige Inhaltsanalyse eines Textes, sondern um das gezielte Auffinden relevanter Textausschnitte und deren Analyse mithilfe robuster und effizienter computerlinguistischer Techniken. Dabei ist es die Aufgabe des Benutzers, die Muster zu spezifizieren, in denen relevante Information in Texten sprachlich realisiert wird (z.B. in Form geeigneter syntaktischer Patterns). In neueren Informationsextraktionssystemen wird allerdings zunehmend versucht, den Spezifikationsaufwand für den Benutzer zu reduzieren und relevante Muster mithilfe von Techniken des Maschinellen Lernens vom System selbst akquirieren zu lassen. Wir werden uns in diesem Kurs zunächst mit den einzelnen Komponenten eines Informationsextraktionssystems befassen: lexikalische Analyse, Named Entity Recognition, Chunk-Parsing, Anaphernresolution. Statistische Ansätze oder maschinelle Lernverfahren werden an verschiedenen Punkten angesprochen, aber im Bedarfsfall grundlegend eingeführt, sodaß Vorkenntnisse in diesen Bereichen nicht zwingend notwendig sind. Der Kurs richtet sich in erster Linie an Bachelor-Studierende, die sich erste Einblicke in ein Anwendungsfeld der Computerlinguistik verschaffen wollen, kann aber auch von Magister-Studierenden besucht werden.

Kursübersicht

Seminarplan

Datum	Sitzung	Materialien
02.04.	Einführung, Organisation	Folien
09.04.	Vorverarbeitung: Sentence Splitting, Tokenisierung, Passage Retrieval	Folien
16.04.	Named Entity Recognition: Einführung	Folien
23.04.	Gastvortrag: Heidelberg Named Entity Resource (HeiNER)	Folien
30.04.	Statistische Named Entity Recognition	Folien
07.05.	Semi-supervised Named Entity Recognition	Folien
14.05.	Relationsextraktion: Einführung, Überblick	Folien
28.05.	Relationsextraktion: Bootstrapping	Folien
04.06. 18.06.	Relationsextraktion: Selbst-überwachte und unüberwachte Verfahren	Folien (Update: 18.06.)
25.06.	Ontologie-basierte Informationsextraktion in der Anwendung: SOBA	Folien
02.07.	Evaluierung Aufgabe 1	Folien
08.10.	Evaluierung Aufgabe 2	Folien

Aufgaben

Aufgabe 1 (Deadline extended bis Sonntag, 21.06., 18:00 Uhr)
Aufgabe 2 (Abgabe bis Mittwoch, 30.09.)