
Text Mining
Kursbeschreibung
Studiengang | Modulkürzel | Leistungs- bewertung |
---|---|---|
BA-2010[100%|75%] | CS-CL | 6 LP |
BA-2010[50%] | BS-CL | 6 LP | BA-2010[25%] | BS-AC | 4 LP |
NBA[100%|75%] | CS-CL | 6 LP |
NBA[50%|25%] | BS-CL, BS-AC | 4 LP |
Master | SS-CL, SS-TAC | 8 LP |
Magister | - | - |
Dozenten/-innen | Andrea Zielinski |
Veranstaltungsart | Vorlesung |
Erster Termin | 26.10.2012 |
Zeit und Ort | Fr, 11:15–12:45, INF 325 / SR 24 (SR) |
Commitment-Frist | 6. Dezember – 30. Januar |
Wichtiger Hinweis
Dieser Kurs ist ab sofort auch von Masterstudenten als Hauptseminar belegbar.
Teilnahmevoraussetzungen
Grundbegriffe in Statistik
Leistungsnachweis
- Regelmäßige Teilnahme an Vorlesung und Übung
- Bearbeitung von übungsaufgaben
- Klausur
- Aktive Teilnahme an den Veranstaltungen
- Seminarvortrag (ca. 20 min)
Inhalt
Im Text Mining werden Data-Mining Verfahren (wie z.B. Klassifikation, Clustering, Trend-Analyse) eingesetzt, um nicht bekannte Information in natürlich-sprachlichen Texten aufzufinden. Die Vorlesung führt in das Spektrum der vorhandenen Methoden (regelbasiert, wissensbasiert oder statistisch) ein und bietet einen Überblick über mögliche Anwendungsgebiete wie z.B. Social Media Monitoring, Fraud Detection, Informationsrecherche in den Life Sciences.
Kursübersicht
Seminarplan
Datum | Sitzung | Materialien |
26.10.2012 | Einführung in das Thema Text Mining - Motivation, Definition, Methoden, Repräsentationsebenen, Praktische Anwendungen | |
02.11.2012 | Preprocessing - Von unstrukturiertem Text zu Wissen: Klassische Analysemodule der Korpus- bzw. Computerlinguistik bzw. der statistischen Linguistik für das Text Mining | |
09.11.2012 | Information Extraction - Named Entity Recognition, Term Extraction,HMM, CRF | |
16.11.2012 | Relation Extraction - Überwachte Lernmethoden | |
23.11.2012 | Vektorraummodell, Latent Semantic Indexing, Random Indexing, HAL | |
30.11.2012 | Klassifikation von Texten, Naive Bayes, Rocchio, KNN, Entscheidunsbäume | |
07.12.2012 | Clustering von Texten, Kmeans, DBCLust, Hierarchical Agglomerative Clustering | |
14.12.2012 | Hands_on Session mit R | |
21.12.2012 | Hands_on Session mit R und Weka | |
11.01.2013 | Autorenidentifikation, Evaluierung von NER | |
18.01.2013 | Reputationsmanagement, Sprachressourcen für NER, Twitteranalyse "Sandy-Storm" | |
25.01.2013 | Visualisierung, Plagiatserkennung | |
01.02.2013 | Crosslinguale Klassifikation, Twitteranalyse in TRIDEC |
Wiki-Seite
Literatur
- Christopher D. Manning, Prabhakar Raghavan & Hinrich Schütze (2008). Introduction to Information Retrieval. Cambridge University Press.
- Bing Liu (2007). Web Data Mining . Springer.