Gesucht: Software fuer Zeitschriftenarchiv

Thomas Templin lists at gnuwhv.de
Mi Sep 22 00:46:48 CEST 2004


On Tuesday 21 September 2004 23:29, Sonngrit Fürter wrote:
[...]
> im Buero (= Windows, z.Zt. NT, demnaechst XP) habe ich die Aufgabe, ein
> Zeitschriftenarchiv anzulegen, mit Schlagwortverzeichnis, Volltextsuche
> und Moeglichkeiten verknuepfter Abfragen einschließlich Wahl eines
> Zeitraumes. Ach ja, und ein gutes Scan-Programm, das auch Texte mit
> unterschiedlicher Spaltenlaenge zuschneiden kann, sollte auch dazu
> gehoeren. Einfach zu bedienen fuer alle, die Zugriff erhalten (viele)
> sowieso.
>
> Frage: Ist jemandem von Euch ein freies, plattformunabhaengiges Programm
> bekannt??
>
> (Bisher wurde mir nur der elektronische Leitz-Ordner genannt, mir
> scheint aber, der geht erstens ueber die Anforderungen hinaus und
> ausserdem waer mir ein freies Programm, das ich auch zu Hause (= Linux)
> nutzen koennte, lieber.)
Es gibt das swish++ Paket auch für Windows.
swish++ - Simple Document Indexing System for Humans: C++ version
http://homepage.mac.com/pauljlucas/software/swish/

Die Tools index++ zum indizieren und search++ zum suchen sind unschlagbar.
Man kann swish++ so konfigurieren das es xhtml Output generiert. Damit kann 
man dann über eine einfache html Seite auf die Suchfunktionen zugreifen.
Allerdings nur wenn auf der Maschine ein Apache läuft, was ja bei Windows 
Maschinen nicht so verbreitet sein soll. (-;
Ein Beispiel dazu findest du hier:
http://www.vis.uni-stuttgart.de/ger/search/
In diesem Beispiel wird es zwar nur für den HTML Verzeichnisbaum eingesetzt es 
ist aber auch möglich über solch eine Seite auf ein index File zuzugreifen in 
dem die Einträge für ein irgendwo anders liegendes Dokumenten Verzeichnis 
liegen.

Aber selbst wenn man search++ in einer Konsole ausfruft ist es rattenfix. Die 
erste indizierung kann etwas dauern. Und das index file ist auch nicht gerade 
klein, bei mir für ein 0.8GB grosses Dokumentationsverzeichnis etwa 160MB.

Das suchen im Index ist aber unschlagbar schnell, unter einer Sekunde. 
Alerdings auf GNU/Linux Systemen, ich hab keinen blassen Schimmer wie das 
unter Windows sein wird. NTFS ist allerdings nicht als eines der langsamsten 
Dateisysteme bekannt von da her würde ich mal stark vermuten das es dort 
gleich schnell sein dürfte.

Für deine Anforderung ist es interessant zu wissen in welchem Datei Format die 
eigentlichen Zeitschriften Artikel vorliegen. Wenn es im proprietären MS 
Office Format ist dann müsste man dem index++ die doc files erst durch eine 
antiword pipe zufüttern. Dabei würden dann aber alle Hinweise darauf an 
welcher Stelle ein Stichwort im doc file liegt verloren gehen.

Allerdings hab ich aus versehen den index++ auch schon mal über jpg, png, eps 
und andere Formate lauffen lassen und war blass erstaunt wieviel er an 
Informationen aus gespuckt hat. Ich könnte mir vorstellen das swish++ auch 
doc files verarbeiten kann.

Tschüss,
Thomas