Methoden der textbasierten Sprachverarbeitung
Inhalt
Die Verarbeitung natürlicher Sprache befindet sich im Moment in einer
Umbruchphase. Während man vom Optimismus der 80-er Jahre mit der
Hoffnung, das Problem des Sprachverstehens bald zu lösen, abrückt, werden
die neuen Forschungsfelder Informationsextraktion (IE) und Text
Mining zunehmend wichtig. Die meisten Datenbestände sind als
natürlichsprachliche Texte gespeichert; unstrukturierte
bzw. semistrukturierte Texte sind die am häufigsten benutzte
Darstellungsart für Informationen im Internet. IE dient dazu, bestimmte
gewünschte Informationen in den unstrukturierten Texten zu identifizieren
und in eine strukturierte Form, die formale (kanonische) Anfragen erlaubt
und weiter maschinell verarbeitet werden kann, zu überführen. Ist die
Zielstruktur fest und vorgegeben, spricht man von
Faktenextraktion.
Text Mining ist ein verwandtes Forschungsgebiet zu IE, da
ähnliche Ziele angestrebt werden, die verwendeten Methoden sich jedoch
erheblich unterscheiden. Text Mining wendet die bereits bei
strukturierten Datenmengen erfolgreich benutzten Techniken des Data Mining
auf natürlichsprachliche Texte an. Das Spektrum der vorhandenen Methoden
und Systeme ist sehr breit, es reicht von sehr gut erforschten
regelbasierten Techniken über wissensbasierte bis zu statistischen
Systemen. In dem Seminar sollen unterschiedliche Ansätze und
Verarbeitungsschritte von IE und Text Mining untersucht und der Bezug
zwischen beiden Bereichen hergestellt werden. Ein Gesamtbild des State of
the Art der beiden Forschungsbereiche soll am Ende des Seminars entstehen.
Scheinkriterien
- Seminarvortrag (ca. 60 min) und Leitung der anschließenden
Diskussion (ca. 30 min).
Das Referat muss zwei Wochen vor dem Vortragstermin mit den
Veranstaltern besprochen werden; die Folien müssen spätestens eine Woche
vor dem Vortrag vorliegen.
Siehe auch Tipps
zum Halten von Referaten.
- Schriftliche Ausarbeitung zum Seminarvortrag (ca. 10 Seiten).
Die Ausarbeitung muss spätestens zwei Wochen nach dem Vortrag abgegeben
werden.
Siehe auch Beispiel-Ausarbeitung
mit Tipps.
- Kleine "Koreferate" zu zwei anderen Vorträgen: Diskussion nach dem
eigentlichen Vortrag eröffnen durch eigene Anmerkungen, Ergänzungen,
Fragestellungen zu dem Thema.
- Aktive Teilnahme an den Veranstaltungen.
Zielgruppe
Die Veranstaltung ist gedacht für Studierende der
Informatikstudiengänge im fortgeschrittenen Hauptstudium. Das Nebenfach
"Linguistik" wäre optimal, linguistische Kenntnisse sind jedoch keine
Voraussetzung. Kenntnisse in Statistik und/oder Künstlicher Intelligenz
sind nützlich aber nicht zwingend.
Im Anschluss an das Seminar können Studien- und Diplomarbeiten vergeben
werden.
Themen- und Terminplanung
Kursiv gedruckte Literaturangaben bieten ergänzende
Hintergrundinformationen oder stellen Alternativansätze vor; vorrangig
sind die anderen Quellen zu verwenden.
Hier gibt um einen allgemeinen Überblick über Aufgaben und Methoden der
Informationsextraktion (IE).
Kollokationen sind sprachliche Ausdrücke, die aus zwei oder mehr Wörtern
bestehen und einen gemeinsamen Inhalt ausdrücken (Bsp.: starker Tobak,
steife Brise, Big Blue).
Statistische Textklassifikation mittels SVMs
(13.11., S. Schmeier)
Verwendung von Supportvektormaschinen zur Textklassifikation.
Hier geht es darum, die Wortarten (engl. part of speech, kurz
POS) aller Worte eines Textes zu bestimmen. Dabei muss der
Satzzusammenhang berücksichtigt werden, weil bei einer Wortform häufig
verschiedene Wortarten möglich sind (Spiel kann
Substantiv Singular oder Verb Imperativ) sein.
Aufgabe eines Parsers ist es, die Struktur von Sätzen zu erkennen.
Sprachliche Vielfalt stellt für alle Bereiche der Sprachverarbeitung eines
der größten Probleme dar. Kernannahme der Conceptual Dependency
Theory ist, dass alle Sätze, die den gleichen Sachverhalt ausdrücken,
auf eine einzige semantische Darstellungsform reduziert werden
können. Dabei wird auf syntaktisches Parsing vollständig
verzichtet. MARGIE ist ein System, das Conceptual Dependency zum
Paraphrasieren und Schlussfolgern nutzt.
Faktenextraktion im Projekt FEx
(18.12., Peter Siniakov)
Siehe http://www.project-fex.de.vu/.
Statistische Entitäten-Erkennung und Informationsextraktion
(8.1.2004, Christian Siefkes)
Siehe
http://www.siefkes.net/ie/.
Methoden der syntaktischen Analyse und Informationsextraktion werden
genutzt, um logische Zusammenhänge im Text zu entdecken.
Auf Covering-Algorithmen basierende Systeme verwenden Techniken des
induktiven Lernens zur Generierung von Extraktionsregeln.
Hier geht es gezielt um die Verarbeitung von Informationen aus Listen und
Tabellen, die bei anderen Ansätzen (außer der Wrapper Induction)
weitgehend außen vor bleibt.
Informationsextraktion mittels statistischer Verfahren (S. Bender)
+ Abschlussbesprechung (19.2.)
Die ausgewählten Ansätze verwenden verschiedene Varianten von
Markov-Modellen zur Informationsextraktion.
Literatur
-
Douglas E. Appelt & David Israel.
- Introduction to information extraction technology, 1999.
URL http://www.ai.sri.com/~appelt/ie-tutorial/IJCAI99.pdf.
-
Eric Brill.
- Transformation-based error-driven learning and natural language
processing: A case study in part-of-speech tagging.
Computational Linguistics, 21(4):-565,
1995.
URL http://citeseer.nj.nec.com/brill95transformationbased.html.
-
Claire Cardie.
- Empirical methods in information extraction.
AI Magazine, 1997.
URL
http://www.cs.cornell.edu/Info/People/cardie/papers/ai-mag.ps.
-
Fabio Ciravegna.
- (LP)2, an adaptive algorithm for information extraction
from Web-related texts, 2001.
URL
http://www.smi.ucd.ie/ATEM2001/proceedings/ciravegna-atem2001.pdf.
-
William W. Cohen.
- Learning to classify English text with ILP methods.
In L. De Raedt, editor, Proceedings of the 5th International
Workshop on Inductive Logic Programming, pages 3-24. Department of Computer
Science, Katholieke Universiteit Leuven, 1995.
URL http://citeseer.nj.nec.com/cohen95learning.html.
-
Dayne Freitag & Nicholas Kushmerick.
- Boosted wrapper induction.
In AAAI/IAAI, pages 577-583, 2000.
URL http://citeseer.nj.nec.com/freitag00boosted.html.
-
Marti A. Hearst.
- Untangling text data mining.
In Proceedings of ACL'99: the 37th Annual Meeting of the
Association for Computational Linguistics. University of Maryland, 1999.
URL
http://www.sims.berkeley.edu/~hearst/papers/acl99/acl99-tdm.html.
-
Kristina Lerman, Craig Knoblock & Steven Minton.
- Automatic data extraction from lists and tables in Web sources.
In Proceedings of the IJCAI-2001 Workshop on Adaptive Text
Extraction and Mining, 2001.
URL http://citeseer.nj.nec.com/448792.html.
-
Christopher D. Manning & Hinrich Schütze.
- Foundations of Statistical Natural Language Processing.
MIT Press, Cambridge, MA 2000, 1999.
-
Andrew McCallum, Dayne Freitag & Fernando Pereira.
- Maximum entropy Markov models for information extraction and
segmentation.
In Proceedings of ICML-2000, 2000.
URL http://www-2.cs.cmu.edu/afs/cs/user/dayne/www/ps/memm.ps.
-
Ion Muslea, Steven Minton & Craig A. Knoblock.
- Hierarchical wrapper induction for semistructured information
sources.
Autonomous Agents and Multi-Agent Systems, 4(1/2):-114, 2001.
URL http://citeseer.nj.nec.com/muslea01hierarchical.html.
-
Christopher K. Riesbeck, Roger C. Schank, Neil M. Goldman & Charles
J. Rieger.
-
Inference and Paraphrase by Computer.
Journal of the ACM (JACM), Volume 22 Issue 3 , July 1975.
(Local copy: /home/datsche/ag-db/projekte/fex/literatur/ConceptualDependency.pdf)
-
Tobias Scheffer, Christian Decomain & Stefan Wrobel.
- Active hidden Markov models for information extraction.
In Proceedings of the International Symposium on Intelligent
Data Analysis, 2001.
URL http://citeseer.nj.nec.com/sche01active.html.
-
Stephen Soderland.
- Learning information extraction rules for semi-structured and free
text.
Machine Learning, 34(1-3):-272, 1999.
URL http://citeseer.nj.nec.com/soderland99learning.html.
-
Stephen Soderland, David Fisher, Jonathan Aseltine & Wendy Lehnert.
- CRYSTAL: Inducing a conceptual dictionary.
In Chris Mellish, editor, Proceedings of the Fourteenth
International Joint Conference on Artificial Intelligence, pages 1314-1319,
San Francisco, 1995. Morgan Kaufmann.
URL http://citeseer.nj.nec.com/soderland95crystal.html.
-
Karsten Winkler & Myra Spiliopoulou.
- Extraction of semantic XML DTDs from texts using data mining
techniques, 2001.
URL http://citeseer.nj.nec.com/461789.html.
-
William S. Yerazunis.
- Sparse binary polynomial hashing and the CRM114 discriminator.
Version 2003-01-20, 2003.
URL http://crm114.sourceforge.net/CRM114_paper.html.