Ruprecht-Karls-Universität Heidelberg
Institut für Computerlinguistik

Bilder vom Neuenheimer Feld, Heidelberg und der Universität Heidelberg

Embeddings

Kursbeschreibung

Studiengang Modulkürzel Leistungs-
bewertung
BA-2010[100%|75%] CS-CL 6 LP
BA-2010[50%] BS-CL 6 LP
BA-2010[25%] BS-AC, BS-FL 4 LP
Dozenten/-innen Katja Markert
Veranstaltungsart Vorlesung / Übung
Sprache Deutsch
Erster Termin 20.04.22
Zeit und Ort Montag, 15:15–16:45
INF 328 / SR25

Mittwoch, 10:15–11:45
INF 328 / SR25
Commitment-Frist tbd.

Teilnehmerkreis

Für Studierende der Computerlinguistik (mind 25%) sowie für Studierende des Bsc Informatik und Bsc Mathematik, die Computerlinguistik als Anwendungsgebiet gewählt haben. Nicht für MA-Studierende. Andere Studierende sind nicht zugelassen.

Teilnahmevoraussetzungen

  • Einführung in die Computerlinguistik
  • Programmieren I

Sollten sich unerwarteterweise zu viele Teilnehmer anmelden, haben CL-Studierende sowie CL-Studierende ab Semester 4 Vorrang.

Leistungsnachweis

Modalitäten des Scheinerwerbs

  • Aktive Teilnahme (Lektüre, Kurzreferate/Diskussionsbeiträge)
  • Bearbeitung von Übungsaufgaben (theoretische sowie Programmieraufgaben)
  • Klausur (wer im letzten Jahr die Klausurzulassung erlangt hat, kann auch an der Klausur teilnehmen)

Inhalt

Repräsentationen von Wörtern oder anderen lingustischen Einheiten (Buchstaben, Phrasen, etc.) sind ein nicht wegzudenkender Bestandteil in vielen NLP-Anwendungen. Sie sind nicht nur oft die einzigen Features in neuralen End-to-end-Systemen, sondern werden auch in vielen "vintage" Machine-Learning-Systemen eingesetzt (z.B. zur Textklassifikation mit SVMs etc.).

Im Kurs werden wir uns mit verschiedenen Arten neuraler Embeddings beschäftigen, aber auch mit den sogenannten zähl-basierten Repräsentationen, die auf der Frequenz von Kookkurenzen in großen Korpora basieren.

Grundlagenthemen, die wir behandeln, sind

  • Grundlagen lineare Algebra
  • zähl-basierte BOW-Techniken und Matrix-Faktorisierung (TF-IDF, SVD/LSA/PCA)
  • neurale und andere Embeddings (Skipgram und BOW in w2vec, Glove, Fasttext, Flair)
  • Evaluation von Embeddings, Probleme, Bias

Weiterführende Themen werden aus den folgenden Bereichen unter Berücksichtigung des Interesses der Teilnehmenden ausgewählt:

  • Variationen von Skipgram
  • Multilingual Embeddings
  • Multimodal Embeddings
  • Multisense Embeddings
  • Character embeddings, phrase-based embeddings, sentence embedding

Die Veranstaltung ist kein Deep-Learning-Kurs und ersetzt nicht die Veranstaltung "Neural Networks".

Kursübersicht

Seminarplan

Datum Sitzung Materialien

Literatur

Entsprechende Literatur wird zu Semesterbeginn bekanntgegeben.

» weitere Kursmaterialien

zum Seitenanfang