Ruprecht-Karls-Universität Heidelberg
Institut für Computerlinguistik

Bilder vom Neuenheimer Feld, Heidelberg und der Universität Heidelberg

Text Mining

Kursbeschreibung

Studiengang Modulkürzel Leistungs-
bewertung
BA-2010[100%|75%] CS-CL 6 LP
BA-2010[50%] BS-CL 6 LP
BA-2010[25%] BS-AC 4 LP
NBA[100%|75%] CS-CL 6 LP
NBA[50%|25%] BS-CL, BS-AC 4 LP
Master SS-CL, SS-TAC 8 LP
Magister - -
Dozenten/-innen Andrea Zielinski
Veranstaltungsart Vorlesung
Erster Termin 26.10.2012
Zeit und Ort Fr, 11:1512:45, INF 325 / SR 24 (SR)
Commitment-Frist 6. Dezember 30. Januar

Wichtiger Hinweis

Dieser Kurs ist ab sofort auch von Masterstudenten als Hauptseminar belegbar.

Teilnahmevoraussetzungen

Grundbegriffe in Statistik

Leistungsnachweis

  • Regelmäßige Teilnahme an Vorlesung und Übung
  • Bearbeitung von übungsaufgaben
  • Klausur
  • Aktive Teilnahme an den Veranstaltungen
  • Seminarvortrag (ca. 20 min)

Inhalt

Im Text Mining werden Data-Mining Verfahren (wie z.B. Klassifikation, Clustering, Trend-Analyse) eingesetzt, um nicht bekannte Information in natürlich-sprachlichen Texten aufzufinden. Die Vorlesung führt in das Spektrum der vorhandenen Methoden (regelbasiert, wissensbasiert oder statistisch) ein und bietet einen Überblick über mögliche Anwendungsgebiete wie z.B. Social Media Monitoring, Fraud Detection, Informationsrecherche in den Life Sciences.

Kursübersicht

Seminarplan

Datum Sitzung Materialien
26.10.2012 Einführung in das Thema Text Mining - Motivation, Definition, Methoden, Repräsentationsebenen, Praktische Anwendungen .pdf
02.11.2012 Preprocessing - Von unstrukturiertem Text zu Wissen: Klassische Analysemodule der Korpus- bzw. Computerlinguistik bzw. der statistischen Linguistik für das Text Mining .pdf
09.11.2012 Information Extraction - Named Entity Recognition, Term Extraction,HMM, CRF .pdf
16.11.2012 Relation Extraction - Überwachte Lernmethoden .pdf
23.11.2012 Vektorraummodell, Latent Semantic Indexing, Random Indexing, HAL .pdf
30.11.2012 Klassifikation von Texten, Naive Bayes, Rocchio, KNN, Entscheidunsbäume .pdf
07.12.2012 Clustering von Texten, Kmeans, DBCLust, Hierarchical Agglomerative Clustering .pdf
14.12.2012 Hands_on Session mit R  
21.12.2012 Hands_on Session mit R und Weka .pdf
11.01.2013 Autorenidentifikation, Evaluierung von NER
18.01.2013 Reputationsmanagement, Sprachressourcen für NER, Twitteranalyse "Sandy-Storm"
25.01.2013 Visualisierung, Plagiatserkennung
01.02.2013 Crosslinguale Klassifikation, Twitteranalyse in TRIDEC

Wiki-Seite

Wiki zu Text-Mining WS2012/13

Literatur

  • Christopher D. Manning, Prabhakar Raghavan & Hinrich Schütze (2008). Introduction to Information Retrieval. Cambridge University Press.
  • Bing Liu (2007). Web Data Mining . Springer.

» weitere Kursmaterialien

zum Seitenanfang