Besuchte Seiten automatisch Archivieren ...

  • Hi, ich weiß jetzt zwar nicht ob ich hier richtig bin, aber vielleicht könnt ihr mir ja doch helfen.

    Ich suche ein Programm, was mir automatisch jede besuchte Webseite nach Datum und Uhrzeit archiviert.
    Also nicht solche "manuellen" wie Scrapbook oder httrack.

    Das ganze hat folgenden Hintergrund. Hin und wieder kommt es vor, das auf div. Webseiten und Foren der Zensurteufel sein Unwesen treibt.
    Hier hilft dann auch der Verlauf und der Cache nicht mehr weiter, weil die Seite schon überschrieben oder gelöscht wurde.

    Ich stelle mir das so vor...
    Im Hintergrund läuft so eine Art Proxyserver, dieser wird in Browser eingetragen. Jetzt wird jede angesurfte Webseite nach Seite-Datum-Uhrzeit automatisch gesichert und Archiviert und in einer Datenbank ablegt.

    Ich meine sowas schon einmal gesehen zu haben, weiß aber nicht mehr wo. Kennt jemand vielleicht so eine Lösung oder hat eine Idee, wie man das realisieren kann?

    Wenn du denkst, dass du denkst, dann denkst du nur, dass du denkst.

  • Mir würde da spontan HTTP Ripper einfallen. Funktioniert wie ein Proxy, rippt den gesamten Stream und zeigt die Ausgabe als Dateien an. Diese Dateien kann man dann abspeichern.

    http://29a.ch/httpripper/

    Mozilla/5.0 (X11; U; Linux x86_64; de-DE; rv:1.9.1.1) Gecko/20090702 Firefox/3.5

  • Zitat von DasIch

    Mir würde da spontan HTTP Ripper einfallen. Funktioniert wie ein Proxy, rippt den gesamten Stream und zeigt die Ausgabe als Dateien an. Diese Dateien kann man dann abspeichern.

    http://29a.ch/httpripper/

    Ist aber immer noch "manuell", das ganze soll ja im Hintergrund ablaufen.
    Eignet sich aber gut, um bestimmte Elemente einer Seite zu speichern.

    Habe gerade http://www.proxy-offline-browser.de/ gefunden, das kommt der Sache schon näher.
    Allerdings brauche ich noch eine "Versionierung" der Seiten, sonst macht das keinen Sinn.
    Wenn ich eine Seite 20 mal am Tag besuche, dann müssen auch 20 Versionen abgelegt sein. Was nütz es, wenn diese immer wieder überschrieben wird und nur die letzte aktuellen zu Verfügung steht.

    Wenn du denkst, dass du denkst, dann denkst du nur, dass du denkst.

  • Meinst du nicht, dass das der reinste Overkill ist? Wozu brauchst du das denn effektiv? Wie oft kommt es denn vor, dass du warum auch immer etwas "beweisen" musst?
    In den seltenen Fällen, in denen etwas Speichernswertes auftaucht, kann man dies bequem mit Scrapbook sichern.

  • Zitat von boardraider

    Meinst du nicht, dass das der reinste Overkill ist?


    Warum "Overkill"?
    Ich habe inklusive Downloads eine Traffic von ca. 12-15GB im Monat.
    Wenn ich jetzt nur die Web Seiten archivieren würde, konnte ich mit 50-100GB sicher ein ganzen Jahr auskommen. Festplattenplatz kostet doch kein Geld mehr.

    Zitat

    In den seltenen Fällen, in denen etwas Speichernswertes auftaucht, kann man dies bequem mit Scrapbook sichern.


    Gut, wie selten das vorkommt oder nicht, ist sicher Ansichtssache.
    Und leider hat man dann genau das, was man braucht nicht "gescrapbookt".

    Zitat

    ... dass du warum auch immer etwas "beweisen" musst?


    Ich will niemanden gar nichts "beweisen", ich will das nur für mich.
    Gestern stand es noch da, gespeichert habe ich die Seite nicht und heute ist es warum auch immer weg. Und jetzt?

    Wenn du denkst, dass du denkst, dann denkst du nur, dass du denkst.

  • Zitat

    Festplattenplatz kostet doch kein Geld mehr.


    Natürlich nicht, nur was willst du mit GBs unnützer Daten, die du nie wieder brauchst?

    Zitat

    Gestern stand es noch da, gespeichert habe ich die Seite nicht und heute ist es warum auch immer weg. Und jetzt?


    Ist es für dich wichtig, dann speicher es. Ansonsten ist es doch völlig wurscht, ob es am nächsten Tag noch da steht oder nicht, den Rest der Welt kümmert es doch auch nicht.

    Zudem stellen sich dann weitere Probleme ein. Du müsstet quasi ein Dokumentenmanagement-System einrichten. Für Suchanfragen bräuchtest du entsprechende Indizes und eine Search-Engine.
    Und das alles für zwei, drei relvante Seiten, die du alle 14 Tage findest?

  • Du willst automatische Erkennung von HTML und abspeicherung mit Versionsverwaltung? Allein um das vernünftig durchsuchen zu können braucht man mindestens eine SQLite Datenbank. YAML, JSON oder XML wäre da schon nicht mehr geeignet, allein schon wegen der Geschwindigkeit des Parsers beim suchen.

    Mozilla/5.0 (X11; U; Linux x86_64; de-DE; rv:1.9.1.1) Gecko/20090702 Firefox/3.5