Harvester

Für mein aktuelles »Projekt K« muss ich zunächst noch neue Inhalte in die alte Site einpflegen, da das Projekt aus mehreren Phasen besteht (und der Noch-Klinikleiter würde gerne noch diese Inhalte online sehen, wobei der künftige Klinikleiter sicher gern etwas beim Design mitreden würde).
Problem: Ich komme nicht an die alten Dateien heran. Ich kenne zwar den Kollegen, der anno 1996 die Seiten gemacht hat, aber falls es aus der Zeit überhaupt noch Backups gibt, sind sie nicht so schnell aufzutreiben. Login und Passwort für den Webspace im Uni-Rechenzentrum sind in der Hand der Kundin, und das soll auch so bleiben. Wie komme ich also bequem an die alten Dateien ran, ohne mir selbst den Wolf zu surfen? Ich brauche ein Programm, das diese Aufgabe für mich erledigt.
»Never send a human to do a machine’s job.«

Der IE für den Mac hat die Funktion »Speichern unter«, die eine komplette Website inklusive Bilder und einer einstellbaren Linktiefe auf die Festplatte runterlädt. Allerdings nicht einzelne Dateien in eine Verzeichnisstruktur, wie sie auch auf dem Webserver liegen, sondern in eine einzige, propritäre Datei. Ich brauche ein FTP-Programm ohne FTP: Kein Login/Passwort, aber trotzdem ein Download Datei für Datei über mehrere Verzeichnisse und Unter-Verzeichnisse, ohne an den Dateien was zu verändern, per http-Protokoll.
Kai schlug verschiedene Alternativen vor (danke):

  • »WebArchiveConverter« (WAC)
    Vom selben Entwickler, der auch iCab geschrieben hat. WAC läuft nur unter OS 9 bzw. Classic und wandelt die Webarchive des IE/Mac in Zip-Dateien um. Problem: Irgendwas passt bei mir mit den von WAC generierten Zip-Dateien nicht: StuffIt Expander entpackt aus einer 2,3 MB großen Zip-Datei nur eine leere Datei »iCabWebArchive« und ein leeres Verzeichnis, das als Namen die URL der gezogenen Website trägt. Der Explorer von WinXP kann in die Zip-Datei hinein sehen und zeigt auch Dateien und Unterverzeichnisse an, aber der Extrahier-Assi (!) von WinXP findet nichts zum Entpacken. Selbst wenn es auf Windows gegangen wäre: Kann doch nicht sein, dass ich für so eine simple Aufgabe drei Betriebssysteme mobilisieren muss: OS X, OS 9-Emulation, WinXP-Emulation…
     
  • Interarchy
    Ist ein FTP-Programm für den Mac, Konkurrent von Transmit. Es stammt von von Stairways Software und wird von Kagi vertrieben. Als ich zum Mac gewechselt bin, wollte ich eine Demo-Version von Interarchy ziehen aber es gab keine oder ich habe sie übersehen. Ich testete Transmit und kaufte das dann. Kai meinte vorhin im Chat, dass man Interarchy nun tatsächlich von der Website runterladen könne, was ich dann auch gleich tat. Nach dem Start wurde ich von einem Nag-Screen mit zwei Buttons begrüßt: »Purchase new license« und »Use existing license«, nix von Demo-Version zu sehen. Kai zufolge gab es früher an der Stelle mal einen Demo-Button. Die scheinen auch nicht zu wissen, was sie wollen…
     
  • rsync, ein Terminal-Programm.
    Wuah, Shell! Nicht, dass ich mich mit dem Terminal bzw. der Shell nicht auskennen würde (habe zusammengenommen etwa anderthalb Jahre Linux-Erfahrung), aber ich bin ja wegen »Power of Unix with the legendary elegance and simplicity of the Macintosh« zum Mac gewechselt. Wenn ich eine spartanische Oberfläche mit tausend Config-Files haben wollen, hätte ich auch bei Linux bleiben können.

Beim Surfen fand ich noch eine Alternative: wget. Als ich es sah, viel mir auch wieder ein, dass ich sogar schon mal davon gehört habe. Ein GNU-Tool; zwar auch für die Shell, aber über Versiontracker fand ich schnell einen Installer für OS X (das Programm wird nach /usr/local/bin installiert) und ein Cocoa-Frontend: SimpleWget.

Um’s kurz zu sagen: wget und SimpleWget funktionieren genau so, wie sie sollen und das auch noch einfach; einfacher geht’s kaum. Eben Mac-like. Man gibt einfach eine URL im Frontend an, macht ggf. noch einige optionale Einstellungen wie Linktiefe oder Speicherort, klickt auf »Get« und wenn wget fertig ist, spielt SimpleWget einen Sound ab. Danach ist eine komplette Website auf der lokalen Festplatte, alle einzelnen Dateien in den Verzeichnissen, in die sie gehören, auch Bilder.
Übrigens lässt sich damit noch einiges anstellen: Da es ein Programm für die Kommandozeile ist, ließe es sich auch per cron fernsteuern…

 
Erschienen am Mittwoch, 09.07.2003 @ 2:48
Tags: ,

+++

Die Kommentare sind geschlossen.

+++

Archiv
RSS-Feeds: Einträge und Kommentare (zu allen Einträgen).