Quellcodedokumentation und Installation

Die Implementierung erfolge in Java. Der Quelltext ist mit Kommentaren versehen, die über Java-Doc extrahiert wurden. Diese Dokumentation ist zugänglich über http://www.inf.fu-berlin.de/lehre/WS98/digBib/projekt/javadoc/tree.html.

Eine lauffähige Testversion ist auf Ganymed installiert, Zugriff über Link .

Hinweise zur Installaton und Inbetriebnahme der Suchmaschine befinden sich in der Datei README im Programmverzeichnis:

ACHTUNG: DIE VORLIEGENDE SOFTWARE IST KEIN PRODUKTIONSRELEASE!
DER DERZEITIGE STAND DER ENTWICKLUNG IST ALLENFALLS
ALS 'EARLY BETA' ZU KLASSIFIZIEREN.
FÜR WEITERENTWICKLUNGEN DURCH DRITTE SIND WIR SEHR
AUFGESCHLOSSEN.

Infubot. - Eine Java(TM)-Suchmaschine für's Web.
================================================

Infubot benutzt ein gängiges Webinterface um Suchanfragen an seine Datenbasis zu stellen. Diese Datenbasis kann vom Infubot-Administra- tor auf bestimmte Domains beschränkt werden, so daß mit der vorlie- genden Software eine siteweite Suche auf einfache Art zu realisieren ist.
Es ist als Kombination aus Java Applikation und Java Servlet entwickelt und bietet damit relativ große Plattformunabhängigkeit.

Systemvoraussetzungen.
======================

Computer mit installiertem und konfiguriertem TCP/IP-Protokollstack und einem Programm, das Java-Servlets ausführen kann. Für einen ersten Test bietet sich das JavaServletDevelopmentKit (JSDK) in Verbindung mit dem JavaRuntimeEnvironment (JRE) oder dem JavaDevelopmentKit (JDK) an. Diese Softwarepakete sind frei auf der Website von Sun Computer unter http://java.sun.com zu finden. Infubot wurde für Java 1.1 entwickelt und auch nur dort getestet. Für Erfahrungsberichte mit der Java 2 Plattform sind wir dankbar.

Distribution.
=============

Das Infubot-Archiv enthält - eine ganze Reihe von .class-Files, - einen Beispielindex 'index.dat', - 'domains.dat' eine Beispieldatei, die Einstiegspunkte für den Aufbau eines neuen Indexes enthält. - 'infubot.properties': Konfigurationsdatei für das Servlet - 'anfrage.html' Beispiel-HTML-Formular für die Suchanfrage - 'infubot.gif' Grafik zum anzeigen in Anfrage- und Ergebnisseiten - im Verzeichnis 'src' die Java-Quellcodes - im Verzeichnis 'src/doc' die Programmiererdokumentation (JavaDoc) - diese Datei.

Installation.
=============

Von den .class-Dateien sind für den Nutzer nur zwei interessant:

- BDumpIndex liest HTML- und Textdateien aus dem Web, generiert daraus einen Index und schreibt ihn als Datei auf einen Datenträger. BDumpIndex ist eine Java Applikation.

- BHandleWebRequest ist das Servlet, das die Anfragen der NutzerInnen aus dem Web verarbeitet und die Suchergebnisse ausgibt.

Zunächst sollte sichergestellt werden, daß die Servlet-Engine, wie zum Beispiel das Programm 'servletrunner' aus dem JSDK-Paket läuft und Servlets aus dem Verzeichnis ausführen kann, in das die Infubot-Distribution entpackt wurde.
Infubot nimmt einige Parameter entgegen, die der 'servletrunner' in einer Datei wie 'infubot.properties' erwartet. Für die Dokumentation der Parameter ist das Studium dieser Datei zu empfehlen.

Ein erster Test kann dann schon mit den Standardeinstellungen laufen. Dazu laden Sie einfach die Datei 'anfrage.html' in einen Webbrowser, der auf dem gleichen Rechner läuft, wie die Servlet-Engine. Starten Sie eine Suche und schauen Sie, was passiert.

Bekommen Sie keine Ausgabe von Infubot, überprüfen Sie bitte anhand der Doku- mentation Ihrer Servlet-Engine deren Konfuguration.

Ist der erste Test erfolgreich verlaufen, können Sie einen eigenen Index mit den von Ihnen gewünschten Inhalten aufbauen.

Ändern Sie dazu die Datei 'domains.dat' und tragen Sie die Startseiten der Domains ein, die Sie gerne indizieren möchten. Eine Startseite pro Zeile.

Beachten Sie, daß URLs, die auf einem Verzeichnisnamen enden, mit einem Schrägstrich (/) abgeschlossen werden müssen!

So lautet der richtige Eintrag für eine Dokumentadresse z.B. http://www.infubot.de/index.html

für eine Verzteichnisadresse aber http://www.infubot.de/

Das führende 'http://' ist obligatorisch. Speichern Sie die 'domains.dat' - ggf. unter einem anderen Namen - und rufen Sie das Programm BDumpIndex auf. Diesem Programm können Sie als Parameter angeben, woher es seine Konfiguraionsdatei - die Sie gerade verändert haben - liest (Parameter '-i') und wohin es den für das Servlet aufbereiteten Index schreiben soll (Parameter '-o'). Mit dem Parameter '-?' gestartet, gibt das Programm eine kurze Hilfe aus. Wird BDumpIndex ohne Parameter aufgerufen, versucht es, seine Eingabedaten aus doamins.dat zu lesen und nach index.dat zu schreiben.

Um einen neuen Index aufzubauen, tippen Sie beispielsweise am der Eingabeauf- forderung ein:

java BDumpIndex -i domains.dat -o index.dat

Nun holt Infubot die von ihnen gewünschten Dokumente aus dem Web und baut den Index auf. Ist dies erledigt, starten Sie einfach das Servlet neu und können sofort mit Ihrer neuen Datenbasis arbeiten, wenn das Servlet den neuen Index als Eingabe bekommt.

Viel Spaß mit Infobot.

-----

Diese Software wurde im Wintersemester 1998/99 an der Freien Universität Berlin erstellt. Für Verbesserungen ist das Projektteam immer aufgeschlossen. Kontakt: Andreas Sabisch ( sabisch@inf.fu-berlin.de )

Simon Berg, 14.2.1999


Last modified: Mon Feb 22 10:34:51 MET 1999