Wayback Machine
Was ist die Wayback Machine?
Die Wayback Machine ist ein digitales Archiv des World Wide Web und weitere Informationen im Internet. Erstellt und gepflegt wird das Archiv von der gemeinnützigen Organisation Internet Archive mit Sitz in San Francisco, Kalifornien, USA.
Geschichte und Namensursprung der Wayback Machine
Seit 1996 archiviert die Wayback Machine Abbilder von Websites in ihren Datenbanken. Das Archiv wurde von Brewster Kahle und Bruce Gilliat eingerichtet und zunächst mit Inhalten von Alexa Internet gepflegt. Webseiten werden gelegentlich gecrawlt und gegebenenfalls eine neue Version im Archiv gespeichert. Darüber hinaus können Besucher die URL einer Website in ein Suchfeld eingeben, um die Seite ins Archiv einzutragen.
Ziel
Ziel der Sammlung ist es, die Inhalte des World Wide Web zu erfassen und zu archivieren, die ansonsten verloren gehen würden, wenn eine Website geändert oder geschlossen wird.
2001, am fünften Jahrestag der Einrichtung wurde die Wayback Machine in einer feierlichen Zeremonie an der Universität von Kalifornien in Berkeley der Öffentlichkeit vorgestellt und erstmals für die Öffentlichkeit zugänglich gemacht.
Bis dahin war es nur Forschern und Wissenschaftlern möglich, auf die Datenbestände zuzugreifen. Seit 2001 kann jeder auf die in einem sogenannten dreidimensionalen Index im Zeitverlauf archivierten Versionen von Webseiten zugreifen und nutzen.
Der Name Wayback Machine geht zurück auf den Namen einer Zeitmaschine in einem US-amerikanischen Zeichentrickfilm. Die Protagonisten des Trickfilms nutzten eine Maschine mit Namen “WABAC-Maschine” (ausgesprochen Wayback Machine) um historische Ereignisse zu verfolgen, daran teilzunehmen und oftmals auch zu verändern.
Funktionsweise der Wayback Machine
Das Archiv nutzt eine eigens entwickelte Software, mit der das Internet und alle öffentlich zugänglichen WWW-Seiten, die Gopher-Hierarchie, die Netnews des Usenet und herunterladbare Software gecrawlt und archiviert werden. Die von den Crawlern gesammelten Informationen umfassen allerdings nicht alle im Internet verfügbaren Informationen. Daten, die vom Herausgeber gesperrt oder in Datenbanken gespeichert werden, auf die nicht zugegriffen werden kann, werden nicht archiviert.
Um Inkonsistenzen auf nur teilweise zwischengespeicherten Websites zu beseitigen, wurde 2005 Archive-It.org vom Internet Archive entwickelt. Damit ist es Institutionen und Erstellern von Inhalten möglich, digitale Inhalte selbst zu sammeln und Archive für ihre Inhalte in der Wayback Machine zu erstellen.
Für eine möglichst umfassende Archivierung werden Crawling Ergebnisse werden von verschiedenen Quellen genutzt und einige Daten von Dritten importiert. Zum Beispiel werden Crawls von der Sloan Foundation und Alexa, Crawls von IA im Auftrag von NARA (National Archives and Records Administration) und der Internet Memory Foundation sowie von Common Crawl bereitgestellt. Die sogenannten World Wide Web Crawls sind seit 2010 aktiv und durchsuchen das gesamte Internet.
Wie häufig Seiten von der Wayback Machine gecrawlt werden, variiert je nach Website. Websites in den World Wide Web Crawls sind in einer Crawl-Liste enthalten, wobei jede Website einmal pro Crawling archiviert wird. Ein Crawling kann je nach Größe der Liste Monate oder sogar Jahre in Anspruch nehmen. Es können jedoch mehrere Crawls gleichzeitig ausgeführt werden. Möglicherweise ist eine Website in mehr als einer Crawl-Liste enthalten. Dadurch schwanken die Abstände zwischen den Crawls einer Webseite mitunter erheblich.
Umfang der von der Wayback Machine gespeicherte Daten
2009 enthielt die Wayback Maschine etwa drei Petabyte an Daten und wuchs mit einer Rate von 100 Terabyte pro Monat. Im Vergleich dazu betrug die Wachstumsrate 2003 etwa 12 Terabyte pro Monat. Die Speicherung der Daten erfolgte bis zum Jahr 2009 in einem PetaBox Racksystem von Capricorn Technologies.
Im selben Jahr migrierte das Internet Archive seine an die großen Datenmengen angepasste Speicherarchitektur zu Sun Open Storage. Seitdem hostet Internet Archive ein Rechenzentrum in einem Sun Modular Datacenter auf dem Campus von Sun Microsystems in Kalifornien.
Im Januar 2013 gab das Internet Archiv bekannt, dass mehr als 240 Milliarden URLs von der Wayback Machine bis dato gespeichert worden waren. Im Dezember 2014 enthielt das Archiv fast neun Petabyte Daten und wuchs mit einer Rate von etwa 20 Terabyte pro Woche.
Stand 2016 enthält die Wayback Machine mehr als 15 Petabyte an Daten und 273 Milliarden gespeicherte Webseiten. 1 Petabyte, abgekürzt PB, entspricht 1015 Byte oder 1.000 Terabyte (TB)
Weitere Archive in der Wayback Machine
Im Laufe der Jahre wurde die Wayback Machine mit neuen Archiven für Videos, Texte/Bücher und Fotos erweitert. Die Wayback Machine ist daher heute weit mehr als nur ein reines Webarchive.
Fazit:
Ursprünglich war die Wayback Machine gedacht, als eine Plattform wo Leute digitale Artefakten finden konnten. Heutzutage kann es für Vergnügen benutzt werden, da die Benutzer jetzt sehen können, wie verschiedene Websites früher aussahen.
Weiterführende Links:
https://thenextweb.com/tech/2019/06/26/the-wayback-machine-now-lets-you-track-changes-to-web-pages/
Sie haben noch Fragen?