Sinn
Einfaches Anlegen von Informationszusammenstellungen wie z.B.:
- digitale Pressemappen
- Dokumentation eines bestimmten Themas
- etc.
Das Ganze soll am Ende auch durchsuchbar sein. So ist man nicht mehr abhängig von dem guten Willen einiger Websitebetreiber und der Verfügbarkeit der Server. (Und nebenbei kann man seinen Jäger und Sammeltrieb befriedigen.)
Konzeption
Der Ablauf ist generell folgender:
- URL in das Frontend reinschmeißen
- Website wird runter geladen und es wird geraten in welche Kategorie sie gehört
- Die Kategorie wird vom Benutzer bestätigt oder eine andere wird ausgewählt
- Die Website wird im vorher ausgewählten Umfang gespeichert
Webfrontend
Ein einfaches Webfrontend sollte zur Konfiguration des Tools reichen. Beim einfügen einer Website in das Archiv sollten mehrere Optionen zur Verfügung stehen. Wie z.B. die gesamte Site sammt der Bilder, das komplette Verzeichnis o.ä.
Kategorisierung
Dateien verschiedener Art (PDFs, HTML, jpg,...) sollen semi-automagisch in einem Verzeichnisbaum archiviert werden.
Zuerst werden die Verzeichnisse angelegt. In diese Verzeichnisse kommt jeweils eine Konfigurationsdatei die folgendes enthält:
keywords={in CSV-Form aufgeführte Schlüsselwörter die zur Einordnung in die Richtige Kategorie}
Anhand der Keywords wird eine Baum durchlaufen. Zuerst wird in der ersten Ebene geschaut in welche Kategorie die Datei passt. Die einfachste Methode hierfür ist, die Treffer zu zählen und die Kategorie mit den meisten Hits weiter zu benutzen. Wenn diese gefunden ist, wird in dieser die nächste sub-Kategorie ausgewählt usw.
Verzeichnisstruktur (Beispiel):
- politik
- europa
- deutschland
- Bundesrat
- Bundestag
- Regional
- NRW
- computer
- Linux
- BSD
- sonst.
- Standards
Archivieren
Für jede neue Datei oder Dateien wird ein neues Verzeichnis angelegt, dessen Name bezeichnend sein soll. Hinzu kommt eine Datei die folgendes enthält:
- name={Name der Person, die das Verzeichnis angelegt hat.}
- date={Datum und Uhrzeit der Archivierung.}
- uri={Falls direkt aus dem Internet runter geladen, kommt hier die URI hin.}
- dns={DNS-Name des Servers.}
- ip={IP des Servers.}
- dns-server={Der angefragte DNS-Server.}
- files={Dateinamen und MD5 Hashes in CSV-Format (File1;Hash1;File2;Hash2)}
Diese Datei kann evtl. mit gnupg signiert werden. Damit wird sichergestellt, dass nur die Person die das Archiv angelegt hat die Dateien im nachhinein verändert hat.
suchen
htdig bietet sich als Suchmaschine an. auch die Erkennung von Texten aus Bildern und PDFs kann eingebaut werden.