Ruprecht-Karls-Universität Heidelberg
Bilder vom Neuenheimer Feld, Heidelberg und der Universität Heidelberg
Siegel der Uni Heidelberg

Informationsextraktion

Kursbeschreibung

DozentMatthias Hartung
VeranstaltungsartVorlesung
ZeitDo., 11:15 - 12:45 Uhr
OrtINF 306, SR 14
StudiengangABA, NBA
Modul-KürzelABA: A12; NBA: CS-CL, BS-CL, BS-AC
LeistungsbewertungNBA: 6 ECTS-Punkte
ABA: 4 ECTS-Punkte


Teilnahmevoraussetzungen

Programmierkenntnisse (Niveau: mindestens "Programmieren I") sind unverzichtbare Voraussetzung für die Teilnahme.

Leistungsnachweis

  • Lektüre einschlägiger Literatur
  • Lösung kursbegleitender Übungsaufgaben
  • Zwei umfangreichere Implementierungsaufgaben in Gruppenarbeit, wobei die zweite während der vorlesungsfreien Zeit zu bearbeiten ist

Inhalt

Informationsextraktionssysteme haben zum Ziel, domänenspezifische Informationen aus unrestringierten Texten zu gewinnen und zu strukturieren. Es geht dabei nicht um eine vollständige Inhaltsanalyse eines Textes, sondern um das gezielte Auffinden relevanter Textausschnitte und deren Analyse mithilfe robuster und effizienter computerlinguistischer Techniken. Dabei ist es die Aufgabe des Benutzers, die Muster zu spezifizieren, in denen relevante Information in Texten sprachlich realisiert wird (z.B. in Form geeigneter syntaktischer Patterns). In neueren Informationsextraktionssystemen wird allerdings zunehmend versucht, den Spezifikationsaufwand für den Benutzer zu reduzieren und relevante Muster mithilfe von Techniken des Maschinellen Lernens vom System selbst akquirieren zu lassen. Wir werden uns in diesem Kurs zunächst mit den einzelnen Komponenten eines Informationsextraktionssystems befassen: lexikalische Analyse, Named Entity Recognition, Chunk-Parsing, Anaphernresolution. Statistische Ansätze oder maschinelle Lernverfahren werden an verschiedenen Punkten angesprochen, aber im Bedarfsfall grundlegend eingeführt, sodaß Vorkenntnisse in diesen Bereichen nicht zwingend notwendig sind. Der Kurs richtet sich in erster Linie an Bachelor-Studierende, die sich erste Einblicke in ein Anwendungsfeld der Computerlinguistik verschaffen wollen, kann aber auch von Magister-Studierenden besucht werden.

Kursübersicht

Seminarplan

DatumSitzungMaterialien
02.04.Einführung, OrganisationFolien
09.04.Vorverarbeitung: Sentence Splitting, Tokenisierung, Passage RetrievalFolien
16.04.Named Entity Recognition: EinführungFolien
23.04.Gastvortrag: Heidelberg Named Entity Resource (HeiNER)Folien
30.04.Statistische Named Entity RecognitionFolien
07.05.Semi-supervised Named Entity RecognitionFolien
14.05.Relationsextraktion: Einführung, ÜberblickFolien
28.05.Relationsextraktion: BootstrappingFolien
04.06.
18.06.
Relationsextraktion: Selbst-überwachte und unüberwachte VerfahrenFolien (Update: 18.06.)
25.06.Ontologie-basierte Informationsextraktion in der Anwendung: SOBAFolien
02.07.Evaluierung Aufgabe 1Folien
08.10.Evaluierung Aufgabe 2Folien

Aufgaben

  • Aufgabe 1 (Deadline extended bis Sonntag, 21.06., 18:00 Uhr)
  • Aufgabe 2 (Abgabe bis Mittwoch, 30.09.)

» weitere Kursmaterialien

zum Seitenanfang