Webbasierte Informationssysteme

 

Projekt 1: Suchmaschine



  Im ersten Abschnitt wird die Architektur der geplanten Suchmaschine ueberblicksartig dargestellt. der zweite Abschnitt beschreibt Funtionenen und Anforderungen an die Komponenten.

Architektur

Funktionen und Anforderungen

  1. WebCrawler
    1. Der Crawler wird jede Domäne besuchen, die in der Startdatei vorgegeben ist.
    2. Der Crawler soll jede Seite nur einmal besuchen, insbesondere darf er keine Schleife beinhalten.
    3. Der Crawler entdeckt alle Links, die innerhalb der in der Startdatei vorgesehen Domänen liegen und fügt diese an die Liste der zu besuchenden Seiten an.
    4. Das Programm fügt neue Seiten ein, frischt geänderte Seiten auf und löscht nicht mehr vorhandene Seiten. Dazu nutzt es die Informationen aus den vorangegangenen Untersuchungen.
    5. Das Programm indiziert keine fär Robots verbotene Seiten. Robot-Verbote können sowohl in der Datei robot.txt stehen, wie auch als Tag: innerhalb des head-Tags.
    6. Es werden Seiten mit HTML, XML oder ASCII-Text indexiert (im folgenden Textseiten genannt). Die zu behandelnden Extensions sind: htm, html, shtml, tex, txt, asp, asc. Indexdateien werden anhand fehlender Dateinamen identifiziert.
    7. Es werden Dateien mit Musik bzw. Video indexiert (Extensions: ....) (im folgenden Mediendatei genannt).
    8. Parser
      1. Die im Text verwendete Sprache wird automatisch erkannt, nur deutsche und englische Texte werden weiterverarbeitet.
      2. Der Parser fuegt die URLs von verlinkten Seiten in die URL-Liste des Crawlers ein.
    9. Index erstellen
      1. Zu jeder Textseite mit Links auf Mediendateien wird die URL gespeichert.
      2. Jede Mediendatei wird mit URL gespeichert und allen Textdateien, die auf sie verweisen.
      3. der genaue aufbau des Index ist noch zu spezifizieren
    10. Lexikographische Vorverarbeitung
      1. Es erfolgt ein Wort-Stemming und Truncation.
      2. Es werden eine deutsche und eine englische Stoppwortliste verwendet und die Stoppwörter aus dem Text entfernt. (muss nochmals diskutiert werden)
      3. Es ist mit deutschen und englischen Texten zugleich umzugehen.
      4. Themenanfragen werden mit einem Thesaurus vorverarbeitet.
    11. Anfragesprache
      1. Es sollen anfragen auf Titel (genaues Matching) und Anfragen nach Themen unterstuetzt werden. Die Art des gewuenschten Mediums kann definiert werden (Musik, Video).
      2. Die Anfrage soll ein geranktes Ergebnis geben.
      3. Phrasen werden unterstuetzt.
      4. Es sollen Proximity-Operatoren unterstützen (near by,...).
      5. Die Suche nach Zahlen, Chem. Symbolen und Formeln, 3-D-Objekten etc. wird nicht unterstützt.
      6. Die Anfragesprache muss noch weiter spezifiziert werden.
    12. Ergebnisdarstellung
      1. wird noch diskutiert
    13. GUI
      1. wird noch diskutiert
    14. Daten
      1. Es sind alle URL's zu speichern, die indiziert wurden.
      2. Es ist der Index zu speichern.
      3. Zu jeder URL ist das Datum der letzten Aenderung auf der Seite zu speichern.
      4. weitere Daten noch spezifizieren
    15. Leistungen
      1. Die Indizierung muß nicht schnell erfolgen; sie kann als Hintergrundprozess in der Nacht oder am Wochenende erfolgen.
      2. Die Antwort auf eine Suchanfrage soll weniger als 15 Sekunden betragen.