Einführung in die Nutzung computerlinguistischer Ressourcen
Kursbeschreibung
Dozenten/-innen | Gesa Stupperich |
Veranstaltungsart | Übung |
Erster Termin | 09.04.2013 |
Zeit und Ort | 09.04.–12.04.2013, 09:00–17:00, INF 325 / PCPool (SR) |
Commitment-Frist | Kein Commitment |
Teilnahmevoraussetzungen
Programmieren 1 (P I), Grundlagen der Linux/Unix-Bedienung.
Voranmeldung bitte per E-Mail an den Dozenten: stuppericl.uni-heidelberg.de
Leistungsnachweis
Regelmäßige Teilnahme und Bearbeitung von Übungsaufgaben.
Die erfolgreiche Teilnahme am Blockkurs ist Voraussetzung für die Teilnahme am Softwareprojekt.
Inhalt
Der Vorkurs gibt Grundlagen in der Nutzung von GNU/Linux-basierten (computerlinguistischen) Tools sowie der vorhandenen Korpora. Dabei geht es sowohl um allgemeine Grundlagen der Shell (wie z.B. Ein-/Ausgabeumleitung) als auch um einzelne Toolkits im Speziellen. Wir werden uns anschauen, wie bestimmte Tools zu benutzen sind, was man aus ihnen herausbekommt (und was nicht) und wie man solche Ausgaben automatisch weiterverarbeiten kann (und zum Beispiel an das nächste Tool weiterverfüttert). Zudem umfasst der Kurs eine Kurzeinführung in MapReduce und den am Institut vorhandenen Hadoop Cluster.
Kursübersicht
Seminarplan
Datum | Sitzung | Folien | Übungen |
09.04. | Einführung: Linux-Shell und Ressourcen | Intro1, Intro2, Ressourcen | Übung 1, Übung 2, Übung 3 |
10.04. | NLTK, Versionkontrolle, Arbeiten mit großen Datenmengen | NLTK, Versionskontrolle | Übung 4, Übung 5 |
11.04. | Weka, Parser, XML/XSLT, Small Tools | Weka, Parser, XML/XSLT, Utilities | Übung 6, Übung 7, Übung 8, Übung 9 |
12.04. | MapReduce mit Hadoop | MapReduce | Übung 10 |
Literatur
Literatur wird zu Beginn der Veranstaltung bekanntgegeben.