Ruprecht-Karls-Universität Heidelberg
Bilder vom Neuenheimer Feld, Heidelberg und der Universität Heidelberg
Siegel der Uni Heidelberg

Lexical Acquisition

Kursbeschreibung

DozentMatthias Hartung
VeranstaltungsartProseminar
ZeitMo, 16:15 - 17:45 Uhr
OrtINF 325, SR 24
StudiengangABA, NBA
Modul-KürzelABA: A12; NBA: CS-CL, BS-CL
LeistungsbewertungNBA: 6 ECTS-Punkte
ABA: 4 ECTS-Punkte


Teilnahmevoraussetzungen

Einführung in die statistische Sprachverarbeitung

Leistungsnachweis

  • Referat und Hausarbeit
  • Kombination aus kursbegleitenden Übungs- und Implementierungsaufgaben (10 Activity Points im Laufe des Semesters)

Inhalt

Umfangreiche Lexika syntaktischen und semantischen Wissens sind von entscheidender Bedeutung für die Qualität und Robustheit computerlinguistischer Systeme. Die manuelle Erstellung lexikalischer Ressourcen ist jedoch teuer, zeitaufwändig und anfällig für Fehler und Inkonsistenzen. Das Ziel von computerlinguistischen Verfahren zur lexikalischen Akquisition ist daher die automatische Erschließung syntaktischen und semantischen Wissens über Wörter auf der Grundlage ihres empirischen Vorkommens in großen Textkorpora. In der Literatur existiert eine große Zahl von Arbeiten auf den "klassischen" Feldern der Akquisition von Subkategorisierungsrahmen von Verben und deren Selektionsrestriktionen sowie der Identifikation von Kollokationen. Im Seminar werden wir uns einen Überblick über diese Bereiche verschaffen; der Schwerpunkt soll jedoch auf den folgenden Themen liegen:

  • semantische Ähnlichkeit zwischen Wörtern
  • Akquisition semantischer Wortkategorien (mit Bezügen zum Ontologielernen)
  • Akquisition komplexer semantischer Bedeutungsrepräsentationen

Die Techniken, die zur Akquisition derartigen Wissens zum Einsatz kommen, sind Kombinationen aus statistischen Ansätzen und maschinellen Lernverfahren. Kenntnisse in Statistik sind daher unverzichtbare Voraussetzung für die Teilnahme am Seminar.

Kursübersicht

Seminarplan

DatumSitzungLiteraturVortragende/rMaterialien
30.03. Einführung, Organisation MHa Folien
06.04. Überblick, Leitfragen Lenci et al. (2006) MHa Folien
20.04. Lexical Ontologies: WordNet, FrameNet Fellbaum (1998), Ruppenhofer et al. (2006), Fillmore/Atkins (1992), Boas (2005), Vossen (2003) Inna Nickel Folien
27.04. Generative Lexicon I: Motivation, Grundlagen, generative Prozesse Pustejovsky (1995) Tetyana Keyvan Folien
04.05. Generative Lexicon II: Lernen von Qualia-Rollen Cimiano/Wenderoth (2007), Pustejovsky et al. (1993) Moritz Knapp Folien
11.05. Ontology Learning I: Taxonomy Learning, Attribute Learning Cimiano (2006), Hearst (1992), Poesio/Almuhareb (2005), Pasca/van Durme (2007) Danny Rehl Folien
18.05. Ontology Learning II: Relation Learning Pantel/Pennacchiotti (2008), Pennacchiotti/Pantel (2006), Cimiano et al. (2006), Agichtein/Gravano (2000) Dominic Jehle, Zheng Ye Folien (DJ)
25.05. Vector Space Models, Distributional Hypothesis, Ähnlichkeitsmaße Widdows (2003), Harris (1968), Manning/Schütze (1999), Cramer (2008), Sahlgren (2006) MHa Folien
08.06. Semantische Klassifikation von Verben Schulte im Walde (2009, 2006), Levin (1993) Eric Hildebrand
15.06. Graph-basierte Modelle für Lexical Acquisition und Word Sense Disambiguation Widdows/Dorow (2002), Agirre/Soroa (2009), Navigli (2009) Lyubov Nakryyko, Xiaolin Bao Folien (LN)
22.06. Gastvortrag: Representing FrameNet in Semantic Spaces Roth (2008) Michael Roth Folien
29.06. Erweiterungen von Vector Space Models Pado/Lapata (2007), Rothenhäusler/Schütze (2009), Widdows (2008), Erk/Pado (2008) Saskia Vola Folien
06.07. Zusammenfassung, Abschlußbesprechung

Aufgaben

Die nachstehenden Aufgabenblätter sind als Anregung zum Erwerb von ''Activity Points'' zu verstehen. Abgabe der Aufgaben jeweils bis Samstag abend vor der nächsten Seminarsitzung !

Literaturliste

  • Agichtein, Eugene & Luis Gravano (2000): Snowball. Extracting Relations from Large Plain-Text Collections, in: Proceedings of the 5th ACM International Conference on Digital Libraries (DL'00).
  • Agirre, Eneko & Aitor Soroa (2009): Personalizing PageRank for Word Sense Disambiguation. Proceedings of the 12th Conference of the European Chapter of the Association for Computational Linguistics (EACL-2009). Athens, Greece.
  • Bannard, Colin & Chris Callison-Burch (2005): Paraphrasing with Bilingual Parallel Corpora, in: Proceedings of the 43rd Annual Meeting of the Association for Computational Linguistics. Ann Arbor, Michigan: 597-604.
  • Boas, Hans C. (2005): From Theory to Practice: Frame Semantics and the Design of FrameNet, in: Langer, S. & D. Schnorbusch (Hrsg.): Semantisches Wissen im Lexikon. Tübingen, Narr: 129-160.
  • Budanitsky, Alexander & Graeme Hirst (2006): Evaluating WordNet-based Measures of Lexical Semantic Relatedness, in: Computational Linguistics 32 (1): 13-48.
  • Cimiano, Philipp (2006): Ontology Learning and Population. Algorithms, Applications and Evaluation. Springer, Heidelberg.
  • Cimiano, Philipp & Johanna Wenderoth (2007): Automatic Acquisition of Ranked Qualia Structures from the Web, in: Proceedings of the 45th Annual Meeting of the Association for Computational Linguistics. Prague, Czech Republic.
  • Cimiano, Philipp, Matthias Hartung and Esther Ratsch (2006): Finding the Appropriate Generalization Level for Binary Relations Extracted from the Genia Corpus. Proceedings of the International Conference on Language Resources and Evaluation (LREC), Genoa, Italy.
  • Cramer, Irene (2008): How Well Do Semantic Relatedness Measures Perform? A Meta-Study, in: Bos, J. and Delmonte, R. (eds.): Semantics in Text Processing. Research in Computational Semantics 1. College Publications: 381-387.
  • Culo, Oliver, Katrin Erk, Sebastian Pado, Sabine Schulte im Walde (2008): Comparing and Combining Semantic Verb Classifications, in: Language Resources and Evaluation 42: 265-291.
  • Erk, Kathrin & Sebastian Pado (2008): A Structured Vector Space Model for Word Meaning in Context, in: Proceedings of the Conference on Empirical Methods in Natural Language Processing (EMNLP).
  • Fellbaum, Christiane (1998, Hrsg.): WordNet. An Electronic Lexical Database. MIT Press, Cambridge.
  • Fillmore, Charles J. & B.T.S. Atkins (1992): Towards a Frame-based Organization of the Lexicon: The Semantics of RISK and its Neighbors, in: Lehrer, A. and E. Kittay (Hrsg.): Frames, Fields, and Contrast. New Essays in Semantics and Lexical Organization. Hillsdale: Lawrence Erlbaum Associates: 75-102.
  • Guarino, Nicola (1992): Concepts, Attributes and Arbitrary Relations. Some Linguistic and Ontological Criteria for Structuring Knowledge Bases, in: Data and Knowledge Engineering 8: 249-261.
  • Harris, Zellig S. (1968): Mathematical Structures of Language. Wiley, New York.
  • Hasegawa, Takaaki, Satoshi Sekine, Ralph Grishman (2005): Paraphrase Acquisition using Unsupervised Relation Discovery, in: Proceedings of the 11th Annual Meeting of the Japanese Association for Natural Language Processing.
  • Hearst, Marti A. (1992): Automatic Acquisition of Hyponyms from Large Text Corpora, in: Proceedings of COLING-92: 539-545.
  • Lenci, Alessandro, Simonetta Montemagni & Vito Pirrelli (2006): Acquiring and Representing Meaning. Theoretical and Computational Perspectives, in: dies. (Hrsg.): Acquisition and Representation of Word Meaning. Theoretical and Computational Perspectives. Istituti Editoriali e Poligrafici Internazionali. Pisa: 19-66.
  • Levin, Beth (1993): English Verb Classes and Alternations. A Preliminary Investigation. The University of Chicago Press, Chicago.
  • Manning, Christopher D. & Schütze, Hinrich (1999): Foundations of Statistical Natural Language Processing. MIT Press: Kap. 5 und 8.
  • Matsumoto, Yuji (2003): Lexical Knowledge Acquisition, in: Mitkov, Ruslan (Hrsg.): The Oxford Handbook of Computational Linguistics. Oxford University Press: 395-413.
  • Navigli, Roberto (2009): Using Cycles and Quasi-Cycles to Disambiguate Dictionary Glosses, in: Proceedings of the 12th Conference of the European Association for Computational Linguistics (EACL 2009). Athens, Greece.
  • Pado, Sebastian & Mirella Lapata (2007): Dependency-based Construction of Semantic Space Models. Computational Linguistics 33(2), 161-199.
  • Pantel, Patrick & Marco Pennacchiotti (2008): Automatically Harvesting and Ontologizing Semantic Relations, in: Paul Buitelaar and Philipp Cimiano (eds.): Ontology Learning and Population. Bridging the Gap between Text and Knowledge. IOS Press.
  • Pasca, Marius & Benjamin van Durme (2007): What You Seek is What You Get. Extraction of Class Attributes from Query Logs, in: Proceedings of the International Joint Conference on Artificial Intelligence (IJCAI): 2832-2837.
  • Pennacchiotti, Marco & Patrick Pantel (2006): Ontologizing Semantic Relations, in: Proceedings of the International Conference on Computational Linguistics / Association for Computational Linguistics (COLING/ACL-06). Sydney, Australia: 793-800.
  • Poesio, Massimo & Abdulrahman Almuhareb (2005): Identifying Concept Attributes Using a Classfier, in: Proceedings of the ACL Workshop on Frontiers in Corpus Annotation. Ann Arbor, Michigan: 76-83.
  • Pustejovsky, James (1995): The Generative Lexicon. MIT Press, Cambridge.
  • Pustejovsky, James, Sabine Bergler & Peter Anick (1993): Lexical Semantic Techniques for Corpus Analysis, in: Computational Linguistics 19 (2): 331-358.
  • Roth, Michael (2008): Representing FrameNet in Semantic Spaces. M.Sc. Thesis. Saarbrücken, Universität des Saarlandes.
  • Rothenhäusler, Klaus & Hinrich Schütze (2009): Unsupervised Classification with Dependency Based Word Spaces, in: Proceedings of the EACL Workshop on Geometrical Models of Natural Language Semantics. Athens, Greece: 17-24.
  • Ruppenhofer, Josef, Michael Ellsworth, Miriam Petruck, Christopher Johnson and Jan Scheffczyk (2006): FrameNet II. Extended Theory and Practice. Technical Report. ICSI, Berkeley.
  • Sahlgren, Magnus (2006): The Word-Space Model. Using Distributional Analysis to Represent Syntagmatic and Paradigmatic Relations Between Words in High-Dimensional Vector Spaces. Ph.D. Dissertation. Department of Linguistics, Stockholm University.
  • Schulte im Walde, Sabine (2009): The Induction of Verb Frames and Verb Classes from Corpora, in: Anke Lüdeling and Merja Kytö (eds.): Corpus Linguistics. An International Handbook. Mouton de Gruyter, Berlin.
  • Sabine Schulte im Walde (2006): Experiments on the Automatic Induction of German Semantic Verb Classes, in: Computational Linguistics 32(2): 159-194.
  • Vossen, Piek (2003): Ontologies, in: Ruslan Mitkov (Hrsg.): The Oxford Handbook of Computational Linguistics. Oxford University Press, Oxford: 464-482.
  • Widdows, Dominic & Beate Dorow (2002): A Graph Model for Unsupervised Lexical Acquisition, in: Proceedings of the 19th International Conference on Computational Linguistics. Taipei: 1093-1099.
  • Widdows, Dominic (2003): Geometry and Meaning. CSLI Publications, Stanford.
  • Widdows, Dominic (2008): Semantic Vector Products. Some Initial Investigations, in: Proceedings of the Second AAAI Symposium on Quantum Interaction. College Publications, London.

Tutorial

Tutorial von Tim Baldwin (ESSLLI 2006)

» weitere Kursmaterialien

zum Seitenanfang