hide random home http://esther.mathematik.uni-osnabrueck.de/workshop/vortraege/fruehbis/gatherer.html (Einblicke ins Internet, 10/1995)

Der gatherer

Der gatherer

Erzeugung eines Suchindex

Schritt 1:

Festlegung des Dateityps an Hand

Schritt 2:

Auflösen geschachtelter Dateitypen und Aufruf von Schritt 1 für die ausgepackten Dateien

Beispiel:
1993.tar.gz: Dateityp GCompressedTar
Aktion 1: Dekomprimieren und Auspacken des Archives
Aktion 2: Schritt 1 für die Dateien 1993/reportnr.ps

Schritt 2:

Auswahl der zu indizierenden Dateien an Hand des Typs

Schritt 3:

Zusammenfassen der ausgewählten Dateien durch einen typ-spezifischen summarizer

Schritt 4:

Bereitstellen des Suchindexes für Netzwerkzugriff

Konfigurationsmöglichkeiten

vor Schritt 1:

Restlegung der zu gathernden URL durch explizite Auflistung oder als URL-Baum

in Schritt 1:

Konfiguration der Typerkennung mittels regular expression

in Schritt 2:

Festlegung der relevanten Typen durch Verbots- oder Erlaubnisliste

in Schritt 3:

typspezifische summarizer als C-Programm, Perl-Skript, Schell-Skript, o.ä. frei programmierbar

quicksummarizer mittels regualr expression

in Schritt 4:

Freigabe des Index für bestimmte HOsts bzw. Sperren für bestimmte Hosts

vor Schritt 1:

Datei summaries.cf allg. Konfiguration

#
# summaries.cf - Configuration file for a Harvest Gatherer
# searching  http://dinoa0.indmath.uni-linz.ac.at:80/www/abstract
#
Gatherer-Name:          Abstracts von IndMath Linz
Gatherer-Port:          9109
Top-Directory:          /users/www/harvest/gatherers/linz

# RootNode URLs go here



# LeafNode URLs go here
http://dinoa0.indmath.uni-linz.ac.at:80/www/abstract/bienve90.html
http://dinoa0.indmath.uni-linz.ac.at:80/www/abstract/bi91.html
http://dinoa0.indmath.uni-linz.ac.at:80/www/abstract/bi92.html
.
.
.
http://dinoa0.indmath.uni-linz.ac.at:80/www/abstract/sc94a.html

in Schritt 1:

Dateien byname.cf byurl.cf bycontent.cf

#<
# byname.cf - File naming conventions that yield type recognition
#<
# Format:  
.
.
.
GNUCompressedTar          ^.*\.(tar\.gz|tar\.z|taz|tgz)$
GNUCompressed             ^.*\.(gz|z)$
.
.
.
Pascal                    ^.*\.(p|pas)$
Patch                     ^.*\.(patch|bug)$
Perl                      ^.*\.(pl|ph)$
PixrectImage              ^.*\.pcx$
PostScript                ^.*\.(ps|eps)$
PostScriptFont            ^.*\.afm$
.
.
.
in Schritt 4:

Large Datei gatherd.cf

#
# gatherd.cf - Access Control List for gatherd
#
Allow all