Gesucht: Software fuer Zeitschriftenarchiv
Thomas Templin
lists at gnuwhv.de
Mi Sep 22 00:46:48 CEST 2004
On Tuesday 21 September 2004 23:29, Sonngrit Fürter wrote:
[...]
> im Buero (= Windows, z.Zt. NT, demnaechst XP) habe ich die Aufgabe, ein
> Zeitschriftenarchiv anzulegen, mit Schlagwortverzeichnis, Volltextsuche
> und Moeglichkeiten verknuepfter Abfragen einschließlich Wahl eines
> Zeitraumes. Ach ja, und ein gutes Scan-Programm, das auch Texte mit
> unterschiedlicher Spaltenlaenge zuschneiden kann, sollte auch dazu
> gehoeren. Einfach zu bedienen fuer alle, die Zugriff erhalten (viele)
> sowieso.
>
> Frage: Ist jemandem von Euch ein freies, plattformunabhaengiges Programm
> bekannt??
>
> (Bisher wurde mir nur der elektronische Leitz-Ordner genannt, mir
> scheint aber, der geht erstens ueber die Anforderungen hinaus und
> ausserdem waer mir ein freies Programm, das ich auch zu Hause (= Linux)
> nutzen koennte, lieber.)
Es gibt das swish++ Paket auch für Windows.
swish++ - Simple Document Indexing System for Humans: C++ version
http://homepage.mac.com/pauljlucas/software/swish/
Die Tools index++ zum indizieren und search++ zum suchen sind unschlagbar.
Man kann swish++ so konfigurieren das es xhtml Output generiert. Damit kann
man dann über eine einfache html Seite auf die Suchfunktionen zugreifen.
Allerdings nur wenn auf der Maschine ein Apache läuft, was ja bei Windows
Maschinen nicht so verbreitet sein soll. (-;
Ein Beispiel dazu findest du hier:
http://www.vis.uni-stuttgart.de/ger/search/
In diesem Beispiel wird es zwar nur für den HTML Verzeichnisbaum eingesetzt es
ist aber auch möglich über solch eine Seite auf ein index File zuzugreifen in
dem die Einträge für ein irgendwo anders liegendes Dokumenten Verzeichnis
liegen.
Aber selbst wenn man search++ in einer Konsole ausfruft ist es rattenfix. Die
erste indizierung kann etwas dauern. Und das index file ist auch nicht gerade
klein, bei mir für ein 0.8GB grosses Dokumentationsverzeichnis etwa 160MB.
Das suchen im Index ist aber unschlagbar schnell, unter einer Sekunde.
Alerdings auf GNU/Linux Systemen, ich hab keinen blassen Schimmer wie das
unter Windows sein wird. NTFS ist allerdings nicht als eines der langsamsten
Dateisysteme bekannt von da her würde ich mal stark vermuten das es dort
gleich schnell sein dürfte.
Für deine Anforderung ist es interessant zu wissen in welchem Datei Format die
eigentlichen Zeitschriften Artikel vorliegen. Wenn es im proprietären MS
Office Format ist dann müsste man dem index++ die doc files erst durch eine
antiword pipe zufüttern. Dabei würden dann aber alle Hinweise darauf an
welcher Stelle ein Stichwort im doc file liegt verloren gehen.
Allerdings hab ich aus versehen den index++ auch schon mal über jpg, png, eps
und andere Formate lauffen lassen und war blass erstaunt wieviel er an
Informationen aus gespuckt hat. Ich könnte mir vorstellen das swish++ auch
doc files verarbeiten kann.
Tschüss,
Thomas