Lastenheft V.1.0: Projekt Suchmaschine

Version Autor Datum Status Kommentar
1.0 Sabisch 18-Nov-1998 Freigabe

1. Zielbestimmung

Im Rahmen der Veranstaltung 'Grundlagen Digitaler Bibliotheken' soll eine Web-Suchmaschine erstellt werden. Damit sollen die durch Vorlesung und Seminar erworbenen Kenntnisse praktisch erprobt und vertieft werden.

2. Einsatz

Die Suchmaschine soll die zugänglichen Seiten der Informatikfachbereiche in Deutschland erfassen. Es soll nur die Seiten erfasst werden, die innerhalb von uns vorgegebenen Domänen liegen. Damit wird eine sinnvolle Begrenzung der erfassten Information auf (zumindest weitgehend) kontrollierte Information in einem bestimmten Bereich beschränkt.


3. Funktionen

3.1 WebCrawler

/LF10/ Der Crawler wird jede Domäne besuchen, die in der Startdatei vorgegeben ist.
/LF20/ Der Crawler soll jede Seite nur einmal besuchen, insbesondere darf er keine Schleife beinhalten.
/LF30/ Der Crawler entdeckt alle Links, die innerhalb der in der Startdatei vorgesehen Domänen liegen und fügt diese an die Liste der zu besuchenden Seiten an.
/LF50/ Das Programm fügt neue Seiten ein, frischt geänderte Seiten auf und löscht nicht mehr vorhandene Seiten. Dazu nutzt es die Informationen aus den vorangegangenen Untersuchungen.

/LF60/ Das Programm indiziert keine fär Robots verbotene Seiten. Robot-Verbote können sowohl in der Datei robot.txt stehen, wie auch als Tag: innerhalb des head-Tags.

/LF70/ Es werden nur Seiten mit HTML oder ASCII-Text indiziert.


3.2 Index erstellen

/LF100/ Jeder Seite, die in HTML oder Ascii (auch Latex) ist, wird in den Index der URL eingefügt.Dies sind die Suffixe: /dir : /dir/ : ...htm : ...html : ....shtml : ...tex : ...txt : ...asp : ...asc
/LF110/ Zu jeder Seite sollen als zusätzliche Angaben gespeichert werden: last_modified, size, number_of_terms, url

/LF120/ Es soll Wordstemming stattfinden.
/LF130/ Es soll Truncation stattfinden.
/LF140/ Es wird eine Stoppwortliste verwendet.
/LF150/ Es ist mit deutschen und englischen Texten zugleich umzugehen.


3.3 Anfragesprache

/LF200/ Die Anfrage soll ein geranktes Ergebnis geben. Dazu ist eine Gewichtung der Terme notwendig.
/LF210/ Die Anfrage soll es erlauben, in den gefundenen Dokumenten sowohl einzelne Terme auszuschließen als auch deren Vorkommen notwendig zu machen ( - ; + Zeichen).
/LF220/ Es sollen Proximity-Operatoren unterstützen (near by,...).
/LF230/ Die Suche nach Phrasen (zusammenhängende Worte) soll ermöglicht werden.
/LF240/ Die Anfragesprache soll auf Wunsch auch Groß- und Kleinschreibung unterstützen.
/LF250/ Die Eingabe von Wildcards (Ersatz eines Buchstaben, mehrer Buchstaben) am Wortende soll möglich sein.
/LF260/ Die gezielte Suche nach Metadaten (Titel, Autor, Überschrift,Zusammenfassung,Schlüsselworte, Literaturliste, Link, URL) soll unter Verwendung von boolschen Ausdrücke (and, or, not,()) unterstützt werden.
/LF270/ Die Suche nach Zahlen, Chem. Symbolen und Formeln, 3-D-Objekten etc. wird nicht unterstützt.


3.4 Ergebnisdarstellung

/LF310/ Zu jedem Treffer soll die URL anklickbar dargestellt werden.
/LF320/ Mehrere Treffer auf eine Seite sollen nur einmal dargestellt werden.
/LF330/ Die Seiten sollen nach Relevanz sortiert (gerankt) werden. Die Relevanzfunktion soll vom Nutzer beeinflusst werden können.
/LF340/Die Suchanfrage soll speicherbar sein, um sie erneut, ggf. mit Änderungen, erneut stellen zu können (Cookies?)(S.a. LF430).
/LF350/Die Verwendung von relevance feedback soll geprüft werden.


3.5 GUI

/LF400/ Es soll eine einfache und eine ausgefeiltere Suche ermüglicht werden.
/LF410/ Die Ergebnisdarstellung soll die Anfrage beinhalten.
/LF420/ Die Anzahl der Treffer soll angezeigt werden.
/LF430/ Die Anfrage muss rückholbar und editierbar sein, um sie in geänderter Form wieder absetzen zu können.
/LF440/ Es sollen nur ein geeignet kleiner Teil der Trefferzahl auf einmal angezeigt werden.


4. Daten

/LD10/ Es sind alle URL's zu speichern, die indiziert wurden.
/LD20/ Es ist der Index zu speichern.
/LD30/ Zu jeder URL ist das Datum der letzten Aenderung auf der Seite zu speichern.


5. Leistungen

/LL10/ Die Indizierung muß nicht schnell erfolgen; sie kann als Hintergrundprozess in der Nacht oder am Wochenende erfolgen.
/LL20/ Die Antwort auf eine Suchanfrage soll weniger als 15 Sekunden betragen.


6. Qualitätsanforderungen


Andreas Sabisch

Last modified: Wed Oct 28 17:37:30 MET 1998