Festlegung des Dateityps an Hand
Auflösen geschachtelter Dateitypen und Aufruf von Schritt 1 für die ausgepackten Dateien
Beispiel:
1993.tar.gz: Dateityp GCompressedTar
Aktion 1: Dekomprimieren und Auspacken des Archives
Aktion 2: Schritt 1 für die Dateien 1993/reportnr.ps
Schritt 2:
Auswahl der zu indizierenden Dateien an Hand des Typs
Schritt 3:
Zusammenfassen der ausgewählten Dateien durch einen typ-spezifischen summarizer
Schritt 4:
Bereitstellen des Suchindexes für Netzwerkzugriff
Restlegung der zu gathernden URL durch explizite Auflistung oder als URL-Baum
in Schritt 1:
Konfiguration der Typerkennung mittels regular expression
in Schritt 2:
Festlegung der relevanten Typen durch Verbots- oder Erlaubnisliste
in Schritt 3:
typspezifische summarizer als C-Programm, Perl-Skript, Schell-Skript, o.ä. frei programmierbar
quicksummarizer mittels regualr expression
in Schritt 4:
Freigabe des Index für bestimmte HOsts bzw. Sperren für bestimmte Hosts
vor Schritt 1:
Datei summaries.cf allg. Konfiguration
# # summaries.cf - Configuration file for a Harvest Gatherer # searching http://dinoa0.indmath.uni-linz.ac.at:80/www/abstract # Gatherer-Name: Abstracts von IndMath Linz Gatherer-Port: 9109 Top-Directory: /users/www/harvest/gatherers/linzin Schritt 1:# RootNode URLs go here # LeafNode URLs go here http://dinoa0.indmath.uni-linz.ac.at:80/www/abstract/bienve90.html http://dinoa0.indmath.uni-linz.ac.at:80/www/abstract/bi91.html http://dinoa0.indmath.uni-linz.ac.at:80/www/abstract/bi92.html . . . http://dinoa0.indmath.uni-linz.ac.at:80/www/abstract/sc94a.html
Dateien byname.cf byurl.cf bycontent.cf
#< # byname.cf - File naming conventions that yield type recognition #< # Format:in Schritt 4:. . . GNUCompressedTar ^.*\.(tar\.gz|tar\.z|taz|tgz)$ GNUCompressed ^.*\.(gz|z)$ . . . Pascal ^.*\.(p|pas)$ Patch ^.*\.(patch|bug)$ Perl ^.*\.(pl|ph)$ PixrectImage ^.*\.pcx$ PostScript ^.*\.(ps|eps)$ PostScriptFont ^.*\.afm$ . . .
Large Datei gatherd.cf
# # gatherd.cf - Access Control List for gatherd # Allow all