Ruprecht-Karls-Universität Heidelberg
Bilder vom Neuenheimer Feld, Heidelberg und der Universität Heidelberg
Siegel der Uni Heidelberg

Einführung in die statistische Sprachverarbeitung

Kursbeschreibung

DozentInnen Simone Paolo Ponzetto
Veranstaltungsart Vorlesung/Übung
Zeit und Ort Mi, 14:15 - 15:45, INF 306 / SR 13 (SR)
Studiengang Magister, ABA, NBA
Modul-Kürzel ABA: A10; NBA: FF-SM
Leistungsbewertung ABA: 4 LP
NBA: 6 LP

Teilnahmevoraussetzungen

Voraussetzung ist der erfolgreiche Abschluss der Kurse "Einführung in die Computerlinguistik" sowie "Formale Grundlagen". Programmierkenntnisse (auf dem Niveau von Programmieren I) sind für die Lösung der Übungsaufgaben von Vorteil.

Leistungsnachweis

Wöchentliche Hausaufgaben (Übungen sowie Programmieraufgaben)
Schriftliche Abschlussklausur

Zur Klausur wird nur zugelassen, wer mindestens 80% der Übungsaufgaben bearbeitet hat und mindestens 60% der maximalen Punktzahl erreicht hat.

Inhalt

Statistische NLP-Methoden sind de-facto der Standardansatz in der aktuellen NLP-Forschung. Dieser Kurs wird eine Einführung in die theoretischen sowie in die praktischen Grundlagen der Statistischen NLP geben.

Der Schwerpunkt des Kurses wird data-driven sein, d.h. die Studierenden werden mit großen Korpora arbeiten und sie werden lernen, große Datenmengen zu handhaben. Die Anwendung von statistischen NLP-Methoden wird uns z.B. ermöglichen, Kollokationen und N-Gramme zu analysieren und diese für Textkategorisierung zu verwenden.

Wir werden uns mit einer Auswahl von bestimmten NLP-Anwendungen befassen, z.B. PoS-Tagging und Parsing, obwohl diese Methoden auf eine Vielzahl anderer NLP-Themen übertragbar sind. Als solches bietet der Kurs eine Grundlage für fortgeschrittene NLP-Themen, z.B. Maschinelle Übersetzung.

Von den Studierenden wird erwartet, dass sie ein gutes Verständnis der Theorie entwickeln und in der Lage sind, einfache NLP-Anwendungen, wie z.B. ein Hidden Markov Model oder einen Maximum Entropy basierten PoS-Tagger, zu implementieren.

Kursmaterialien

In Moodle verfügbar.

Literatur

  • Daniel Jurafsky and James H. Martin. 2009. Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics and Speech Recognition. Second Edition. Prentice Hall.
  • Christopher D. Manning and Hinrich Schütze. 1999. Foundations of Statistical Natural Language Processing. MIT Press.
  • Natural Language Toolkit: http://nltk.sourceforge.net/index.php/Book

» weitere Kursmaterialien