Freie Universität
Berlin

Fachbereich Mathematik und
Informatik
Institut für Informatik
AG
Datenbanken / Informationssysteme
Statistische
Verfahren der Verarbeitung von Texten
S 19566
SS
2005
Dozent: Prof. Dr. H. Schweppe, Christian Siefkes, Peter Siniakov
Das Seminar wurde als Blockveranstaltung am Freitag/Samstag, dem
17./18. Juni im K40 (Multimediaraum) durchgeführt.
Die fertigen Ausarbeitungen sind jetzt online zugänglich, allerdings
ist der Zugriff nur von der FU-Informatik aus möglich.
Zielgruppe
Die Veranstaltung ist gedacht für Studierende der
Informatikstudiengänge im Hauptstudium. Linguistische Kenntnisse
sind von Vorteil, jedoch keine
Voraussetzung. Kenntnisse in Statistik und/oder künstlicher
Intelligenz
sind nützlich aber nicht zwingend erforderlich.
Im Anschluss an das Seminar können Studien- und Diplomarbeiten
vergeben
werden.
Scheinkriterien
- Seminarvortrag (ca. 60 min) und Leitung der
anschließenden
Diskussion (ca. 30 min).
Das Referat muss zwei Wochen vor dem Vortragstermin mit den
Veranstaltern besprochen werden; die Folien müssen spätestens
eine Woche
vor dem Vortrag vorliegen.
Siehe auch Tipps
zum Halten von Referaten.
- Schriftliche Ausarbeitung zum Seminarvortrag (ca. 10-12 Seiten).
Die Ausarbeitung muss spätestens zwei Wochen nach dem
Vortrag abgegeben
werden. Siehe auch Beispiel-Ausarbeitung
mit Tipps.
- Aktive Teilnahme an den Veranstaltungen.
Themen
Kursiv gedruckte Literaturangaben bieten ergänzende
Hintergrundinformationen oder stellen Alternativansätze vor;
vorrangig
sind die anderen Quellen zu verwenden. In Klammern wird der Name des
Bearbeiters eingetragen.
Information Retrieval (D. Graf):
Ausarbeitung
(Word-Format)
- [Weiss], Kap. 4 (S. 85-102)
Preprocessing & Feature Selection (S. Weinmann)
- [Weiss], Kap. 2 (S.15 -46)
Textklassifikation (P. Fiedler):
Ausarbeitung (PDF-Format)
- [Weiss], Kap. 3 (S. 47-84)
Hier soll nach Rücksprache mit den Veranstaltern nur ein
Klassifikationsverfahren genauer dargestellt werden, z.B. Decision
Rules
oder Winnow (Linear Scoring).
Parsing (H. Bunjes):
Ausarbeitung (PDF-Format)
Informationsextraktion mittels statistischer Verfahren (J. Lüning):
Ausarbeitung (PDF-Format)
- [Weiss], Kap. 6 (S. 129-156)
Wrapper Induction (M. Nachtigall):
Ausarbeitung (Word-Format)
Disambiguierung von Wortbedeutungen (Word Sense Disambiguation)
(F. Rauch)
- [Manning], Kap. 7 (S. 229-264)
Literatur
Bücher (im Handapparat)
- [Manning]
Manning, Christopher D. und Hinrich Schütze.
Foundations of Statistical Natural Language Processing.
MIT Press, Cambridge, MA 2000, 1999.
- [Weiss]
Weiss, Sholom M.; Nitin Indurkhya; Tong Zhang und Fred J. Damerau.
Text Mining.
Springer, New York 2005.
Wissenschaftliche Artikel (verlinkt)