Ruprecht-Karls-Universität Heidelberg
Institut für Computerlinguistik

Bilder vom Neuenheimer Feld, Heidelberg und der Universität Heidelberg

NLP-Werkstatt: Arbeiten mit linguistisch annotierten Korpora

Kursbeschreibung

Studiengang Modulkürzel Leistungs-
bewertung
BA-2010[100%|75%] CS-CL 6 LP
BA-2010[50%] BS-CL 6 LP
BA-2010[25%] BS-AC, BS-FL 4 LP
Dozenten/-innen Éva Mújdricza-Maydt
Veranstaltungsart Proseminar mit Übung
Erster Termin 26.04.2017
Zeit und Ort Mi, 14:1515:45, INF 329 / SR 26, ab 10.05.: INF 326 / SR 27
Übung: Mo. 16:15-17:45, PCPool; Ausweichtermin: Di. 16:15-17:45, PCPool
Commitment-Frist 19.06.17 bis 12.07.17

Teilnahmevoraussetzungen

empfohlen:

  • Einführung in die Computerlinguistik
  • Programmieren I (oder ähnliche Leistung)

Leistungsnachweis

  • regelmäßige und aktive Teilnahme
  • Übungsaufgaben und Diskussion der Lösungen
  • evtl. Präsentation (Blitzreferat)
  • ggf. regelmäßige Teilnahme an Übungen (siehe Kurzkommentar)

Hinweis

Um vorherige Anmeldung per E-Mail wird gebeten. In der ersten Sitzung wird einen kleinen Test mit Aufgaben zum Programmieren als Eignungsfeststellung durchgeführt. (Mehr Informationen über den Test siehe hier.) Die Teilnahme an den wöchentlichen Übungen ist für Studierende, die hierbei eine Mindestpunktzahl nicht erreichen, verpflichtend, sonst optional.

Inhalt

Im Seminar werden Sie - unterstützt durch praktische Übungen - notwendige Kenntnisse in der Erstellung und Weiterverarbeitung annotierter Korpora erwerben. Die Übungen werden einzeln oder in kleinen Gruppen durchgeführt. Lernziel ist es, im Laufe des Semesters Fertigkeiten für eine sicher(er)e und zielgerichtete Arbeit mit Korpora zu erwerben und für die spätere Anwendung wiederverwendbare und erweiterbare Programme zur Verarbeitung annotierter Korpora zu erstellen.

Das Seminar konzentriert sich also auf die (manuelle und automatische) Annotation computerlinguistischer Informationen und deren Extraktion aus Korpora. Darunter wird auf Fragestellungen und Fertigkeiten wie im Folgenden aufgelistet konzentriert:

  • Korpusauswahl und -vorverarbeitung
    • Wie beeinflussen Menge, Format, Sauberkeit der zugrundeliegenden Daten die Vorgehensweise?
    • Wie säubert man Korpora, wie geht man um mit Formaten, Encodings, wie führt man Formatkonversionen durch?
  • Manuelle und automatische Annotation und ihre Auswertung
    • Wie stellt man Guidelines auf und wie folgt man ihnen?
    • Welche Vorannotierungen und Tools sind hilfreich?
    • Wie misst man die Qualität der Annotation?
    • Welche (halb)automatischen oder interaktiven Annotierungstools eignen sich für welche Aufgabenstellungen? Wie verwendet man sie, welche Anpassungen der Formate muss man ggf. vornehmen?
    • Wie visualisiert man quantitative Eigenschaften der Daten bzw. Ergebnisse?
  • Extraktion und Weiterverarbeitung von Informationen
    • Welche Formate gibt es?
    • Welche Tools oder Skripts existieren für die Verarbeitung der Formate?
    • Wie kann man eigene, wiederverwendbare Extrahierungsprogramme schreiben?

Kursübersicht

Seminarplan

Datum Sitzung Aufgaben Hausaufgaben
26.04. Organisation (02.05.)* A01 Emojis (28.04.) HA01 Emoji-Extraktion (28.04.), data_HA01 (28.04.), HA+ (URL) (02.05.)
03.05. Korpora am ICL (26.04.) A02 Formatbeispiele (03.05.)
A03 Format-Übung (03.05.)
HA02 Format-Umwandlungen (05.05.) , data_HA02
10.05. Formate (10.05.) Strategien zu HA (17.05.)
17.05. XML und DTD (31.05.) A04 XML+DTD-Bsp. (17.05.) HA03/1 (XML) (17.05.)
24.05. Blitzreferat: Comprehensions (VZ),
XML und DTD Fortsetzung ,
DTD-Zusammenfassung (08.06.)
HA03/2 (DTD) (24.05.)
31.05. Demo MAE A05 XML-Quiz (31.05.) , A06 MAE (31.05.) ,
HINWEIS: Übung am Fr.,02.06., 16-18 Uhr
HA04 MAE (31.05.)
07.06. Vor- und Nachteile des Annotations-Designs A07 Tools (07.06.) HA05 XML-Extraktion (09.06.)
14.06. Annotationsbeispiel Semantic Role Labeling (07.06.) A08 SRL (07.06.) ,
SRL-Lösung (07.06.) ,
A09 Generalisierung (14.06.)
Kommentieren (14.06.) ,
HA+ (OO) (vom letzen Jahr)
21.06. enum in Python ,
Evaluation 1 (05.07.)
A10 Eval-Bsp (2.Teil der HA05)
28.06. Evaluation Forts. (2. Kommentieren + ggf. Korrektur für HA05/2 bis 05.07.)
05.07. Evaluation Forts., WebAnno A11 Eval (05.07.) ,
(Lösung) (05.07.)
HA06 (PRFA) (05.07.) , data_HA06 , Hilfe zur Lösung: markierte Instanzen zu NER (10S) (01.08.)
12.07. COMMITMENT-FRIST! ,
Evaluation 2 (von Ines Rehbein) ,
WebAnno-Demo
HA07 (WA) (12.07.) , SALSA2.0_Bsp.txt
19.07. WebAnno-Demo (2), Evaluation 2 Forts. A12 IAA (19.07.) HA08 (IAA) (19.07.) ,
data_HA08
26.07. A13 Zirkeltraining (26.07.)
* Das angegebene Datum weist auf die letzte Änderung der Dateien hin.

» weitere Kursmaterialien

zum Seitenanfang