Ruprecht-Karls-Universität Heidelberg
Institut für Computerlinguistik

Bilder vom Neuenheimer Feld, Heidelberg und der Universität Heidelberg

Embeddings

Kursbeschreibung

Studiengang Modulkürzel Leistungs-
bewertung
BA-2010[100%|75%] CS-CL 6 LP
BA-2010[50%] BS-CL 6 LP
BA-2010[25%] BS-AC, BS-FL 4 LP
Dozenten/-innen Katja Markert
Veranstaltungsart Vorlesung / Übung
Sprache Deutsch
Erster Termin 20.04.2021
Zeit und Ort Dienstag, 09:15-10:45
Mittwoch, 11:15-12:45, tba
Commitment-Frist tbd.

Teilnehmerkreis

Für Studierende der Computerlinguistik (mind 25%) sowie für Studierende des Bsc Informatik und Bsc Mathematik, die Computerlinguistik als Anwendungsgebiet gewählt haben. Nicht für MA-Studierende. Andere Studierende sind nicht zugelassen.

Teilnahmevoraussetzungen

  • Einführung in die Computerlinguistik
  • Programmieren I

Sollten sich unerwarteterweise zu viele Teilnehmer anmelden, haben CL-Studierende sowie CL-Studierende ab Semester 4 Vorrang.

Leistungsnachweis

Modalitäten des Scheinerwerbs

  • Aktive Teilnahme (Lektüre, Kurzreferate/Diskussionsbeiträge)
  • Bearbeitung von Übungsaufgaben (theoretische sowie Programmieraufgaben)
  • Klausur

Inhalt

Repräsentationen von Wörtern oder anderen lingustischen Einheiten (Buchstaben, Phrasen, etc.) sind ein nicht wegzudenkender Bestandteil in vielen NLP-Anwendungen. Sie sind nicht nur die einzgen Features in neuralen End-to-end-Systemen, sondern werden auch in vielen "vintage" Machine-Learning-Systemen eingesetzt (z.B. zur Textklassifikation mit SVMs etc.).

Im Kurs werden wir uns mit verschiedenen Arten neuraler Embeddings beschäftigen, aber auch mit den sogenannten zähl-basierten Repräsentationen, die auf der Frequenz von Kookkurenzen in großen Korpora basieren.

Grundlagenthemen, die wir behandeln, sind

  • Grundlagen lineare Algebra
  • zähl-basierte BOW-Techniken und Matrix-Faktorisierung (TF-IDF, SVD/LSA/PCA)
  • neurale und andere Embeddings (Skipgram und BOW, Glove, Fasttext, Flair)
  • Evaluation von Embeddings, Probleme, Bias

Weiterführende Themen werden aus den folgenden Bereichen unter Berücksichtigung des Interesses der Teilnehmenden ausgewählt:

  • Variationen von Skipgram
  • Multilingual Embeddings
  • Multimodal Embeddings
  • Multisense Embeddings
  • Character embeddings, phrase-based embeddings, compositionality

Die Veranstaltung ist kein Deep-Learning-Kurs und ersetzt nicht die Veranstaltung "Neural Networks".

Kursübersicht

Seminarplan

Datum Sitzung Materialien

Literatur

Wird zu Semesterbeginn bekanntgegeben.

» weitere Kursmaterialien

zum Seitenanfang