Informationsextraktion
Kursbeschreibung
Dozent | Matthias Hartung |
Veranstaltungsart | Vorlesung |
Zeit | Do., 11:15 - 12:45 Uhr |
Ort | INF 306, SR 14 |
Studiengang | ABA, NBA |
Modul-Kürzel | ABA: A12; NBA: CS-CL, BS-CL, BS-AC |
Leistungsbewertung | NBA: 6 ECTS-Punkte ABA: 4 ECTS-Punkte |
Teilnahmevoraussetzungen
Programmierkenntnisse (Niveau: mindestens "Programmieren I") sind unverzichtbare Voraussetzung für die Teilnahme.
Leistungsnachweis
- Lektüre einschlägiger Literatur
- Lösung kursbegleitender Übungsaufgaben
- Zwei umfangreichere Implementierungsaufgaben in Gruppenarbeit, wobei die zweite während der vorlesungsfreien Zeit zu bearbeiten ist
Inhalt
Informationsextraktionssysteme haben zum Ziel, domänenspezifische Informationen aus unrestringierten Texten zu gewinnen und zu strukturieren. Es geht dabei nicht um eine vollständige Inhaltsanalyse eines Textes, sondern um das gezielte Auffinden relevanter Textausschnitte und deren Analyse mithilfe robuster und effizienter computerlinguistischer Techniken. Dabei ist es die Aufgabe des Benutzers, die Muster zu spezifizieren, in denen relevante Information in Texten sprachlich realisiert wird (z.B. in Form geeigneter syntaktischer Patterns). In neueren Informationsextraktionssystemen wird allerdings zunehmend versucht, den Spezifikationsaufwand für den Benutzer zu reduzieren und relevante Muster mithilfe von Techniken des Maschinellen Lernens vom System selbst akquirieren zu lassen. Wir werden uns in diesem Kurs zunächst mit den einzelnen Komponenten eines Informationsextraktionssystems befassen: lexikalische Analyse, Named Entity Recognition, Chunk-Parsing, Anaphernresolution. Statistische Ansätze oder maschinelle Lernverfahren werden an verschiedenen Punkten angesprochen, aber im Bedarfsfall grundlegend eingeführt, sodaß Vorkenntnisse in diesen Bereichen nicht zwingend notwendig sind. Der Kurs richtet sich in erster Linie an Bachelor-Studierende, die sich erste Einblicke in ein Anwendungsfeld der Computerlinguistik verschaffen wollen, kann aber auch von Magister-Studierenden besucht werden.
Kursübersicht
Seminarplan
Datum | Sitzung | Materialien |
02.04. | Einführung, Organisation | Folien |
09.04. | Vorverarbeitung: Sentence Splitting, Tokenisierung, Passage Retrieval | Folien |
16.04. | Named Entity Recognition: Einführung | Folien |
23.04. | Gastvortrag: Heidelberg Named Entity Resource (HeiNER) | Folien |
30.04. | Statistische Named Entity Recognition | Folien |
07.05. | Semi-supervised Named Entity Recognition | Folien |
14.05. | Relationsextraktion: Einführung, Überblick | Folien |
28.05. | Relationsextraktion: Bootstrapping | Folien |
04.06. 18.06. | Relationsextraktion: Selbst-überwachte und unüberwachte Verfahren | Folien (Update: 18.06.) |
25.06. | Ontologie-basierte Informationsextraktion in der Anwendung: SOBA | Folien |
02.07. | Evaluierung Aufgabe 1 | Folien |
08.10. | Evaluierung Aufgabe 2 | Folien |
Aufgaben
- Aufgabe 1 (Deadline extended bis Sonntag, 21.06., 18:00 Uhr)
- Aufgabe 2 (Abgabe bis Mittwoch, 30.09.)