Methoden der textbasierten Sprachverarbeitung


AG DB Logo
S 19583
WS 2003/04
 
Termine
Seminar: Do 16-18 Uhr
Beginn: 23.10.2003
 
Ort
Seminarraum 051
 
Betreuung
Prof. Schweppe (schweppe)
Sprechstunde: Mi 14-15 Uhr
Christian Siefkes (siefkes)
Sprechstunde: Di 14:30-15:30 Uhr
Peter Siniakov (siniakov)
Sprechstunde: n.V.
 
Homepage:
http://www.inf.fu-berlin.de/lehre/ WS03/sprachverarbeitung/

Inhalt

Die Verarbeitung natürlicher Sprache befindet sich im Moment in einer Umbruchphase. Während man vom Optimismus der 80-er Jahre mit der Hoffnung, das Problem des Sprachverstehens bald zu lösen, abrückt, werden die neuen Forschungsfelder Informationsextraktion (IE) und Text Mining zunehmend wichtig. Die meisten Datenbestände sind als natürlichsprachliche Texte gespeichert; unstrukturierte bzw. semistrukturierte Texte sind die am häufigsten benutzte Darstellungsart für Informationen im Internet. IE dient dazu, bestimmte gewünschte Informationen in den unstrukturierten Texten zu identifizieren und in eine strukturierte Form, die formale (kanonische) Anfragen erlaubt und weiter maschinell verarbeitet werden kann, zu überführen. Ist die Zielstruktur fest und vorgegeben, spricht man von Faktenextraktion.

Text Mining ist ein verwandtes Forschungsgebiet zu IE, da ähnliche Ziele angestrebt werden, die verwendeten Methoden sich jedoch erheblich unterscheiden. Text Mining wendet die bereits bei strukturierten Datenmengen erfolgreich benutzten Techniken des Data Mining auf natürlichsprachliche Texte an. Das Spektrum der vorhandenen Methoden und Systeme ist sehr breit, es reicht von sehr gut erforschten regelbasierten Techniken über wissensbasierte bis zu statistischen Systemen. In dem Seminar sollen unterschiedliche Ansätze und Verarbeitungsschritte von IE und Text Mining untersucht und der Bezug zwischen beiden Bereichen hergestellt werden. Ein Gesamtbild des State of the Art der beiden Forschungsbereiche soll am Ende des Seminars entstehen.

Scheinkriterien

Zielgruppe

Die Veranstaltung ist gedacht für Studierende der Informatikstudiengänge im fortgeschrittenen Hauptstudium. Das Nebenfach "Linguistik" wäre optimal, linguistische Kenntnisse sind jedoch keine Voraussetzung. Kenntnisse in Statistik und/oder Künstlicher Intelligenz sind nützlich aber nicht zwingend.

Im Anschluss an das Seminar können Studien- und Diplomarbeiten vergeben werden.

Themen- und Terminplanung

Kursiv gedruckte Literaturangaben bieten ergänzende Hintergrundinformationen oder stellen Alternativansätze vor; vorrangig sind die anderen Quellen zu verwenden.

Informationsextraktion - Einführung und Überblick
(30.10., I. Guimpeliovskaia)

Hier gibt um einen allgemeinen Überblick über Aufgaben und Methoden der Informationsextraktion (IE).

Statistische Verfahren zur Bestimmung von Kollokationen
(6.11., Prof. Schweppe)

Kollokationen sind sprachliche Ausdrücke, die aus zwei oder mehr Wörtern bestehen und einen gemeinsamen Inhalt ausdrücken (Bsp.: starker Tobak, steife Brise, Big Blue).

Statistische Textklassifikation mittels SVMs
(13.11., S. Schmeier)

Verwendung von Supportvektormaschinen zur Textklassifikation.

POS-Tagging
(20.11., H. Ehrig)

Hier geht es darum, die Wortarten (engl. part of speech, kurz POS) aller Worte eines Textes zu bestimmen. Dabei muss der Satzzusammenhang berücksichtigt werden, weil bei einer Wortform häufig verschiedene Wortarten möglich sind (Spiel kann Substantiv Singular oder Verb Imperativ) sein.

Parsing
(4.12., K. Becker)

Aufgabe eines Parsers ist es, die Struktur von Sätzen zu erkennen.

Alternativen zum Parsing: Conceptual Dependency
(11.12., S. Zwierlein)

Sprachliche Vielfalt stellt für alle Bereiche der Sprachverarbeitung eines der größten Probleme dar. Kernannahme der Conceptual Dependency Theory ist, dass alle Sätze, die den gleichen Sachverhalt ausdrücken, auf eine einzige semantische Darstellungsform reduziert werden können. Dabei wird auf syntaktisches Parsing vollständig verzichtet. MARGIE ist ein System, das Conceptual Dependency zum Paraphrasieren und Schlussfolgern nutzt.

Faktenextraktion im Projekt FEx
(18.12., Peter Siniakov)

Siehe http://www.project-fex.de.vu/.

Statistische Entitäten-Erkennung und Informationsextraktion
(8.1.2004, Christian Siefkes)

Siehe http://www.siefkes.net/ie/.

Generierung einer Wissensbasis als übergreifende Anwendung der IE
(22.1., Fr. Filandre)

Methoden der syntaktischen Analyse und Informationsextraktion werden genutzt, um logische Zusammenhänge im Text zu entdecken.

Experimente zur automatischen Textstilerkennung
(29.1., Pavel Braslavsky)

Covering-Algorithmen
(5.2.2004, M. Dittmar)

Auf Covering-Algorithmen basierende Systeme verwenden Techniken des induktiven Lernens zur Generierung von Extraktionsregeln.

Extraktion aus Listen und Tabellen
(12.2., H. Traulsen)

Hier geht es gezielt um die Verarbeitung von Informationen aus Listen und Tabellen, die bei anderen Ansätzen (außer der Wrapper Induction) weitgehend außen vor bleibt.

Informationsextraktion mittels statistischer Verfahren (S. Bender)
+ Abschlussbesprechung (19.2.)

Die ausgewählten Ansätze verwenden verschiedene Varianten von Markov-Modellen zur Informationsextraktion.

Literatur

Douglas E. Appelt & David Israel.
Introduction to information extraction technology, 1999.
URL http://www.ai.sri.com/~appelt/ie-tutorial/IJCAI99.pdf.

Eric Brill.
Transformation-based error-driven learning and natural language processing: A case study in part-of-speech tagging.
Computational Linguistics, 21(4):-565, 1995.
URL http://citeseer.nj.nec.com/brill95transformationbased.html.

Claire Cardie.
Empirical methods in information extraction.
AI Magazine, 1997.
URL http://www.cs.cornell.edu/Info/People/cardie/papers/ai-mag.ps.

Fabio Ciravegna.
(LP)2, an adaptive algorithm for information extraction from Web-related texts, 2001.
URL http://www.smi.ucd.ie/ATEM2001/proceedings/ciravegna-atem2001.pdf.

William W. Cohen.
Learning to classify English text with ILP methods.
In L. De Raedt, editor, Proceedings of the 5th International Workshop on Inductive Logic Programming, pages 3-24. Department of Computer Science, Katholieke Universiteit Leuven, 1995.
URL http://citeseer.nj.nec.com/cohen95learning.html.

Dayne Freitag & Nicholas Kushmerick.
Boosted wrapper induction.
In AAAI/IAAI, pages 577-583, 2000.
URL http://citeseer.nj.nec.com/freitag00boosted.html.

Marti A. Hearst.
Untangling text data mining.
In Proceedings of ACL'99: the 37th Annual Meeting of the Association for Computational Linguistics. University of Maryland, 1999.
URL http://www.sims.berkeley.edu/~hearst/papers/acl99/acl99-tdm.html.

Kristina Lerman, Craig Knoblock & Steven Minton.
Automatic data extraction from lists and tables in Web sources.
In Proceedings of the IJCAI-2001 Workshop on Adaptive Text Extraction and Mining, 2001.
URL http://citeseer.nj.nec.com/448792.html.

Christopher D. Manning & Hinrich Schütze.
Foundations of Statistical Natural Language Processing.
MIT Press, Cambridge, MA 2000, 1999.

Andrew McCallum, Dayne Freitag & Fernando Pereira.
Maximum entropy Markov models for information extraction and segmentation.
In Proceedings of ICML-2000, 2000.
URL http://www-2.cs.cmu.edu/afs/cs/user/dayne/www/ps/memm.ps.

Ion Muslea, Steven Minton & Craig A. Knoblock.
Hierarchical wrapper induction for semistructured information sources.
Autonomous Agents and Multi-Agent Systems, 4(1/2):-114, 2001.
URL http://citeseer.nj.nec.com/muslea01hierarchical.html.

Christopher K. Riesbeck, Roger C. Schank, Neil M. Goldman & Charles J. Rieger.
Inference and Paraphrase by Computer.
Journal of the ACM (JACM), Volume 22 Issue 3 , July 1975.
(Local copy: /home/datsche/ag-db/projekte/fex/literatur/ConceptualDependency.pdf)

Tobias Scheffer, Christian Decomain & Stefan Wrobel.
Active hidden Markov models for information extraction.
In Proceedings of the International Symposium on Intelligent Data Analysis, 2001.
URL http://citeseer.nj.nec.com/sche01active.html.

Stephen Soderland.
Learning information extraction rules for semi-structured and free text.
Machine Learning, 34(1-3):-272, 1999.
URL http://citeseer.nj.nec.com/soderland99learning.html.

Stephen Soderland, David Fisher, Jonathan Aseltine & Wendy Lehnert.
CRYSTAL: Inducing a conceptual dictionary.
In Chris Mellish, editor, Proceedings of the Fourteenth International Joint Conference on Artificial Intelligence, pages 1314-1319, San Francisco, 1995. Morgan Kaufmann.
URL http://citeseer.nj.nec.com/soderland95crystal.html.

Karsten Winkler & Myra Spiliopoulou.
Extraction of semantic XML DTDs from texts using data mining techniques, 2001.
URL http://citeseer.nj.nec.com/461789.html.

William S. Yerazunis.
Sparse binary polynomial hashing and the CRM114 discriminator.
Version 2003-01-20, 2003.
URL http://crm114.sourceforge.net/CRM114_paper.html.