www.archive.org !!! Chronologische Webseiten-Speicherung !!!

  • Hallo,

    es gibt eine Internetseite in den USA, auf der man die chronologische Entwicklung von Webseiten recherchieren und ansehen kann, da der Inhalt nahezu aller weltweit verfügbarer Seiten dort regelmässig gespeichert wird.

    Ich habe schon vor ca. einem Jahr dort recherchiert, finde allerdings den link nicht mehr, kann Jemand helfen?

    Viele Grüsse,
    Henry


    PS: Den Seinen gibt es der Herr im Schlaf.

    3 Mal editiert, zuletzt von Henry28 (12. April 2006 um 20:23)

  • Webseitenbetreiber können verhindern, daß Daten durch den Robot der Wayback Machine aufgenommen werden,

    z.B. auf der Seite die der Suchmaschine übergeben wurde mit dem Seitentitel Quadrone's Cache:
    http://web.archive.org/web/20041020235857/www.quadrone.org/

    wird durch Einträge in die Datei robots.txt eine Archivierung bestimmter Verzeichnisse ausgeschlossen:
    http://web.archive.org/web/2004102023…ozilla/browser/

    Zitat von WaybackMachine

    Robots.txt Retrieval Exclusion.

    We're sorry, access to http://www.quadrone.org/projects/mozilla/browser/ has been blocked by the site owner via robots.txt.
    Read more about robots.txt
    See the site's robots.txt file.
    Try another request or click here to search for all pages on http://quadrone.org/projects/mozilla/browser/
    See the FAQs for more info and help, or contact us.

    Ein interessantes Feature der Wayback Machine ist sicher daß ganz normal über die Links in den Archiven gesurft werden kann, besonders bei Seiten, die große Archive ergeben wie Mozilla Update.
    Schon gut, daß Anwender Inhalte für Suchmaschinen ausschließen können, dies ist ein imho wichtiger Punkt.
    ________________________________
    [Blockierte Grafik: http://img215.imageshack.us/img215/3636/firefoxbutton8us.png]
    Gruß, gammaburst

  • Ein Artikel zu Internetarchiven, der neben der Archivierung des Usenet durch Google auch die "Internet Archive Wayback Machine" behandelt, befindet sich hier:
    Das Gedächtnis des Internets (Link)
    ________________________________
    [Blockierte Grafik: http://img215.imageshack.us/img215/3636/firefoxbutton8us.png]
    Gruß, gammaburst

  • Gute Infos, den thread kann man sicher noch erweitern, da es mE ein recht wichtiges Thema ist.

    Der Normaluser, der zu Beginn der Internetaktivitäten seine HP mit vielen persönlichen Daten vor Jahren online stellte, diese inzwischen änderte, dessen Daten man jedoch immer noch durch eben diese Suchmaschinen im Internet findet, ist darüber im Privaten sicher ganz und garnicht erfreut, ganz zu schweigen (Oder viel besser, erst Recht zu thematisieren!), von den möglichen beruflichen Auswirkungen solcher Datenspeicherungen.

    Ich bin davon zwar nicht betroffen, habe jedoch einige HPs mit einem Generator aus Vorlagen erstellt, geht schnell und sieht recht professionell aus, und möchte diese jetzt auch nicht unbedingt regelmässig speichern und archivieren lassen. Da klappt es wohl nicht, mit dem Ausschluss der robots?

    Viele Grüsse,
    Henry


    PS: Den Seinen gibt es der Herr im Schlaf.

    2 Mal editiert, zuletzt von Henry28 (12. April 2006 um 22:43)

  • Internet Archive Wayback Machine - Read more about robots.txt

    Zitat von web.archive.org


    12. Robots.txt -- If our robot crawler is forbidden from visiting a site, we can't archive it.
    ...

    13. Some sites are not available because of Robots.txt or other exclusions.
    What does that mean?
    The Standard for Robot Exclusion (SRE) is a means by which web site owners can instruct automated systems not to crawl their sites. Web site owners can specify files or directories that are allowed or disallowed from a crawl, and they can even create specific rules for different automated crawlers. All of this information is contained in a file called robots.txt. While robots.txt has been adopted as the universal standard for robot exclusion, compliance with robots.txt is strictly voluntary. In fact most web sites do not have a robots.txt file, and many web crawlers are not programmed to obey the instructions anyway. However, Alexa, the company that crawls the web for the Internet Archive, does respect robots.txt instructions, and even does so retroactively. If a web site owner ever decides he / she prefers not to have a web crawler visiting his / her files and sets up robots.txt on the site, the Alexa crawlers will stop visiting those files and mark all files previously gathered as unavailable. This means that sometimes, while using the Internet Archive Wayback Machine, you may find a site that is unavailable due to robots.txt or other exclusions. Other exclusions? Yes, sometimes a web site owner will contact us directly and ask us to stop crawling or archiving a site. We comply with these requests.

    Zwar stoppt die Internet Archive Wayback Machine eine Archivierung, wenn sie auf entsprechende Einträge in der robots.txt trifft,

    Beispiel von oben:
    http://web.archive.org/web/20041020235857/www.quadrone.org/
    Die robots.txt dieser Seite enthält folgende Einträge:
    http://web.archive.org/web/2005031609….org/robots.txt
    User-agent: *
    Disallow: /error/
    Disallow: /temp/
    Disallow: /projects/qmax/
    Disallow: /projects/mozilla/browser/

    und bei der Internet Archive Wayback Machine kann man auch Einträge nachträglich aus deren Archiv entfernen lassen,
    aber:
    Es richten sich also nicht alle Crawler (Robots) von Suchmaschinen/Webverzeichnissen/Archiven nach den Vorgaben in der Datei robots.txt sondern handeln durch die Archivierung trotz entsprechender Einträge in die Datei robots.txt mE. gegen den erklärten Willen von Seitenbetreibern.

    Dies sollte, falls es keine einheitliche internationale Richtlinie gibt, schleunigst geändert werden.
    Nicht jeder hat Zeit, Geld und Lust, Inhalte von Internetseiten, die er nicht in Archiven aufgenommen haben will, aufwändig zu verschlüsseln und/oder mit Passwort zu versehen, zumal dann diese auch nicht mehr frei zugänglich wären.

    Auf Heise (oder irgend wo anders im Internet, hab' ich leider nicht gebookmarked) wurde auch schon einmal angesprochen, daß durchaus nicht alle Usenet-Nutzer mit der Archivierung ihrer Beiträge bei Google einverstanden waren.
    ________________________________
    [Blockierte Grafik: http://img215.imageshack.us/img215/3636/firefoxbutton8us.png]
    Gruß, gammaburst

  • Zitat von gammaburst

    Auf Heise (oder irgend wo anders im Internet, hab' ich leider nicht gebookmarked) wurde auch schon einmal angesprochen, daß durchaus nicht alle Usenet-Nutzer mit der Archivierung ihrer Beiträge bei Google einverstanden waren.

    Ich bin damit auch immer noch nicht einverstanden ;)

  • Naja, aber es ist leider nicht nur Google, der da massig archiviert. Es gibt auch eine Menge anderer Gateways, die alle Beiträge ins Internet schwämmen. Mit echten Namen... :roll: Das Internet vergisst nichts.

  • Mit den Begriffen Lebensdauer Webseiten, Lebensdauer Internetseiten bei der Suchmaschine exalead folgendes gefunden:

    http://www.mbr-mediacompany.de/netdays/irechtsfricke6.htm

    Zitat

    Statistiker haben nachgewiesen, dass die durchschnittliche Lebensdauer von Webseiten bei nur 60 Tagen liegt.

    _________________________________________
    http://www.dietikon-online.ch/internet.htm - 32k - 12 Jan 2004

    Zitat

    Archiv alter Web-Seiten

    Da Internetseiten nur eine durchschn. Lebensdauer von 44 Tagen haben und damit eine Unmenge an Web-dokumenten bzw. Informationen unwideruflich verloren gehen, versuchen Historiker der "Non-Profit"-Organisation "archive.org" seit fünf Jahren dieses Problem zu lösen, indem sie Millionen von Internetseiten sichten und auf ihren Rechnern archivieren.

    _________________________________________
    http://www.heise.de/tr/artikel/54303/2

    -----------------------------------
    http://www.heise.de/tr/artikel/54303/0/0

    Zitat

    Internet-Archiv, in dem durchschnittlich 150000 Nutzer am Tag gratis stöbern,(...) sammelt seit sieben Jahren Webseiten als Momentaufnahmen und macht sie seit 2001 als "The Wayback Machine" öffentlich zugänglich.
    Wie sichert man solch einen gigantischen Ozean digitaler Daten für die Nachwelt? Die durchschnittliche Lebensdauer einer Webseite beträgt etwa 44 Tage, die von offiziellen Seiten ungefähr vier Monate.

    -----------------------------------
    http://www.heise.de/tr/artikel/54303/1/0

    Zitat

    Seine automatischen Index-Programme, die durch das Web kriechen, haben bislang mehr als 40 Milliarden individuelle Seiten gespeichert. Daneben bewahrt das Internet-Archiv die digitalen Versionen von Büchern, Filmen, Liedern und Bildern. Jeden Monat, schätzt Kahle, wächst sein Bestand um rund 25 Terabyte - was ungefähr dem gesamten Bestand der Staatsbibliothek der Vereinigten Staaten, der Library of Congress, entspricht, so dieser digitalisiert und als einfacher Text abgespeichert würde.

    Vor dem Hintergrund der "begrenzten Haltbarkeit" von Seiten im Netz kann eine umfassende Archivierung schon irgendwie logisch und konsequent erscheinen. Dann sollte imho aber die Möglichkeit bestehen, daß Seitenbetreiber und Autoren leicht eine Archivierung ihrer Werke bei allen Gateways ablehnen können, auch nachträglich. Zumindest sollten sich alle "automatischen Index-Programme, die durch das Web kriechen" an die Vorgaben der robots.txt halten.
    ________________________________
    [Blockierte Grafik: http://img215.imageshack.us/img215/3636/firefoxbutton8us.png]
    Gruß, gammaburst