Ruprecht-Karls-Universität Heidelberg
Institut für Computerlinguistik

Bilder vom Neuenheimer Feld, Heidelberg und der Universität Heidelberg

NLP-Werkstatt: Arbeiten mit linguistisch annotierten Korpora

Kursbeschreibung

Studiengang Modulkürzel Leistungs-
bewertung
BA-2010[100%|75%] CS-CL 6 LP
BA-2010[50%] BS-CL 6 LP
BA-2010[25%] BS-AC 4 LP
NBA[100%|75%] CS-CL 6 LP
NBA[50%|25%] BS-CL, BS-AC 4 LP
Magister - -
Dozenten/-innen Éva Mújdricza-Maydt
Veranstaltungsart Proseminar
Erster Termin 23.04.2014
Zeit und Ort Mi, 16:1517:45,
INF 325 / SR 23 (SR)
Commitment-Frist 16.06.13.07.2014

Teilnahmevoraussetzungen

Programmieren I

Leistungsnachweis

  • regelmäßige und aktive Teilnahme
  • Übungsaufgaben
  • Präsentation und Diskussion der Lösungen

Inhalt

Im Seminar werden Sie - unterstützt durch praktische Übungen - notwendige Kenntnisse in der Erstellung und Weiterverarbeitung annotierter Korpora erwerben. Die Übungen werden einzeln oder in kleinen Gruppen durchgeführt. Lernziel ist es, im Laufe des Semesters Fertigkeiten für eine sicher(er)e und zielgerichtete Arbeit mit Korpora zu erwerben und für die spätere Anwendung wiederverwendbare und erweiterbare Programme zur Verarbeitung annotierter Korpora zu erstellen.

In diesem Semester konzentriert sich das Seminar auf die (manuelle und automatische) Annotation computerlinguistischer Informationen und deren Extraktion aus Korpora. Wir werden uns v.a. auf die folgenden Fragestellungen und Fertigkeiten konzentrieren:

  • Korpusauswahl und -vorverarbeitung
    • Wie beeinflussen Menge, Format, Sauberkeit der zugrundeliegenden Daten die Vorgehensweise?
    • Wie säubert man Korpora, wie geht man um mit Formaten, Encodings, wie führt man Formatkonversionen durch?
  • Manuelle und automatische Annotation und ihre Auswertung
    • Wie stellt man Guidelines auf und wie folgt man ihnen?
    • Welche Vorannotierungen und Tools sind hilfreich?
    • Wie misst man die Qualität der Annotation?
    • Welche (halb)automatischen oder interaktiven Annotierungstools eignen sich für welche Aufgabenstellungen? Wie verwendet man sie, welche Anpassungen der Formate muss man ggf. vornehmen?
    • Wie visualisiert man quantitative Eigenschaften der Daten bzw. Ergebnisse?
  • Extraktion und Weiterverarbeitung von Informationen
    • Welche Formate gibt es?
    • Welche Tools oder Skripts existieren für die Verarbeitung der Formate?
    • Wie kann man eigene, wiederverwendbare Extrahierungsprogramme schreiben?

Kursübersicht

Seminarplan

Datum Sitzung Aufgaben Hausaufgaben
23.04. Organisation (25.04.), Einführung (25.04.) Aufgabe (25.04.)
30.04. Blitzreferat RE in Python (TG) , Standardisierung (Übersicht) (30.04.) Aufgabe (30.04.) Hausaufgabe, BeispielURLs, URL-Encoding als einfache und als html-Tabelle (30.04.)
07.05. Blitzreferat Code-Dokumentation in Python und Java (SF), Blitzreferat Tracking-URLs (SB), XML+DTD und Beispiele (30.04., alte Folien) Hausaufgabe (13.05.), Daten: auto, NER-Labels (als Anhaltspunkt S.21f.)
14.05. Blitzreferat Annotationsmaximen (VB), Evaluation (P/R/F/A) (15.05.) Hausaufgabe (25.05.), Daten: auto, gold
21.05. Evaluation: IAA und Verrauschtheit der Annotation (ab S.18) von Ines Rehbein HA+: Code-Inspektion (freiwillig) (25.05.)
28.05. Blitzreferat Exceptions (MME), Sentiment Analysis (11.06.) Aufgabe (28.05.) SentiML-Paper, Beispielannotation (lest das Paper)
04.06. Vortrag von Jackie CK Cheung im INF 306, HS2 (Abstract siehe HA+) HA+: Zusammenfassung (freiwillig) (27.05.)
11.06. Blitzreferat Static Factories (JG), SentiML-Poster von Marilena Di Bari, SentiML (11.06.) Aufgabe (11.06.) Hausaufgabe (14.06.), TED-Datei, DTD, MPQA Subjectivity Lexicon
18.06. Blitzreferat Listen und Sortieren in Java (JO), Annotation Guidelines (18.06.) Aufgabe (18.06.) Hausaufgabe (19.06.), SentiML-Textinhalt, TED-Dateien, Beispiel-Guidelines
25.06. WebAnno Webseite Hausaufgabe (26.06.), Verteilung der Dateien zum Annotieren
02.07. Blitzreferat Logging in Python (OM), WordNet Webseite Aufgabe WordNet Hausaufgabe WebAnno (02.07.), Hausaufgabe WordNet (02.07.)
09.07. Blitzreferat Logging in Java (SF), Blitzreferat Encodings in Python (DU), WebAnno: Kuration, Vorverarbeitung (Automation)
16.07. Circuit Training (16.07.)
23.07. entfällt!

» weitere Kursmaterialien

zum Seitenanfang