Wayback Machine

Was ist die Wayback Machine?

Die Wayback Machine ist ein digitales Archiv des World Wide Web und weitere Informationen im Internet. Erstellt und gepflegt wird das Archiv von der gemeinnützigen Organisation Internet Archive mit Sitz in San Francisco, Kalifornien, USA.

Geschichte und Namensursprung der Wayback Machine

Seit 1996 archiviert die Wayback Machine Abbilder von Websites in ihren Datenbanken. Das Archiv wurde von Brewster Kahle und Bruce Gilliat eingerichtet und zunächst mit Inhalten von Alexa Internet gepflegt. Webseiten werden gelegentlich gecrawlt und gegebenenfalls eine neue Version im Archiv gespeichert. Darüber hinaus können Besucher die URL einer Website in ein Suchfeld eingeben, um die Seite ins Archiv einzutragen.

Ziel

Ziel der Sammlung ist es, die Inhalte des World Wide Web zu erfassen und zu archivieren, die ansonsten verloren gehen würden, wenn eine Website geändert oder geschlossen wird.

Die große Vision der Schöpfer ist, das gesamte Internet zu archivieren.

2001, am fünften Jahrestag der Einrichtung wurde die Wayback Machine in einer feierlichen Zeremonie an der Universität von Kalifornien in Berkeley der Öffentlichkeit vorgestellt und erstmals für die Öffentlichkeit zugänglich gemacht.

Bis dahin war es nur Forschern und Wissenschaftlern möglich, auf die Datenbestände zuzugreifen. Seit 2001 kann jeder auf die in einem sogenannten dreidimensionalen Index im Zeitverlauf archivierten Versionen von Webseiten zugreifen und nutzen.

Der Name Wayback Machine geht zurück auf den Namen einer Zeitmaschine in einem US-amerikanischen Zeichentrickfilm. Die Protagonisten des Trickfilms nutzten eine Maschine mit Namen “WABAC-Maschine” (ausgesprochen Wayback Machine) um historische Ereignisse zu verfolgen, daran teilzunehmen und oftmals auch zu verändern.

Funktionsweise der Wayback Machine

Wayback Machine

Archivierte Ansicht der Domain seoagentur.de aus Januar 2015 (Quelle: Wayback Machine)

Das Archiv nutzt eine eigens entwickelte Software, mit der das Internet und alle öffentlich zugänglichen WWW-Seiten, die Gopher-Hierarchie, die Netnews des Usenet und herunterladbare Software gecrawlt und archiviert werden. Die von den Crawlern gesammelten Informationen umfassen allerdings nicht alle im Internet verfügbaren Informationen. Daten, die vom Herausgeber gesperrt oder in Datenbanken gespeichert werden, auf die nicht zugegriffen werden kann, werden nicht archiviert.

Um Inkonsistenzen auf nur teilweise zwischengespeicherten Websites zu beseitigen, wurde 2005 Archive-It.org vom Internet Archive entwickelt. Damit ist es Institutionen und Erstellern von Inhalten möglich, digitale Inhalte selbst zu sammeln und Archive für ihre Inhalte in der Wayback Machine zu erstellen.

Für eine möglichst umfassende Archivierung werden Crawling Ergebnisse werden von verschiedenen Quellen genutzt und einige Daten von Dritten importiert. Zum Beispiel werden Crawls von der Sloan Foundation und Alexa, Crawls von IA im Auftrag von NARA (National Archives and Records Administration) und der Internet Memory Foundation sowie von Common Crawl bereitgestellt. Die sogenannten World Wide Web Crawls sind seit 2010 aktiv und durchsuchen das gesamte Internet.

Wie häufig Seiten von der Wayback Machine gecrawlt werden, variiert je nach Website. Websites in den World Wide Web Crawls sind in einer Crawl-Liste enthalten, wobei jede Website einmal pro Crawling archiviert wird. Ein Crawling kann je nach Größe der Liste Monate oder sogar Jahre in Anspruch nehmen. Es können jedoch mehrere Crawls gleichzeitig ausgeführt werden. Möglicherweise ist eine Website in mehr als einer Crawl-Liste enthalten. Dadurch schwanken die Abstände zwischen den Crawls einer Webseite mitunter erheblich.

Umfang der von der Wayback Machine gespeicherte Daten

2009 enthielt die Wayback Maschine etwa drei Petabyte an Daten und wuchs mit einer Rate von 100 Terabyte pro Monat. Im Vergleich dazu betrug die Wachstumsrate 2003 etwa 12 Terabyte pro Monat. Die Speicherung der Daten erfolgte bis zum Jahr 2009 in einem PetaBox Racksystem von Capricorn Technologies.

Im selben Jahr migrierte das Internet Archive seine an die großen Datenmengen angepasste Speicherarchitektur zu Sun Open Storage. Seitdem hostet Internet Archive ein Rechenzentrum in einem Sun Modular Datacenter auf dem Campus von Sun Microsystems in Kalifornien.

Im Januar 2013 gab das Internet Archiv bekannt, dass mehr als 240 Milliarden URLs von der Wayback Machine bis dato gespeichert worden waren. Im Dezember 2014 enthielt das Archiv fast neun Petabyte Daten und wuchs mit einer Rate von etwa 20 Terabyte pro Woche.

Stand 2016 enthält die Wayback Machine mehr als 15 Petabyte an Daten und 273 Milliarden gespeicherte Webseiten. 1 Petabyte, abgekürzt PB, entspricht 1015 Byte oder 1.000 Terabyte (TB)

Weitere Archive in der Wayback Machine

Im Laufe der Jahre wurde die Wayback Machine mit neuen Archiven für Videos, Texte/Bücher und Fotos erweitert. Die Wayback Machine ist daher heute weit mehr als nur ein reines Webarchive.

Bereits 1999 wurde mit der Aufnahme des Prelinger Archivs eine erste Erweiterung des Webarchivs vorgenommen. Das Perlinger Archiv enthält aktuell mehr als 3 Millionen lizenzfreie Filme und Videos, die in naher Zukunft durch ein Archiv für Fernsehsendungen ergänzt werden sollen.
Im Rahmen des sogenannten Million Book Project werden vom Internet Archive Bücher, die nach dem Ablauf des amerikanischen Urheberrechts frei genutzt werden können, digitalisiert und von der Wayback Machine zum kostenlosen Download bereitgestellt. Für die Digitalisierung werden insgesamt (Stand 2009) zwölf Scan-Center genutzt. Heute beinhaltet die Open Library mehr als 10.000.000 digitalisiert Bücher und Texte.
Seit der Genehmigung durch den Library of Congress im Dezember 2006 sammelt die Wayback Machine Computer Software und Computer Spiele in einem eigenen Archiv. Ziel ist es, Programme und Spiele, deren Formate oder die zugrundeliegende Technologe veraltet sind, für die Nachwelt zu erhalten. Unter den archivierten Spielen befinden sich zahlreiche Klassiker für die Atari-Spielekonsolen oder für das Microsoft DOS Betriebssystem. Seit 2013 besteht für Nutzer die Möglichkeit, die alten Spiel mithilfe einer Emulationssoftware in modernen Browsern am PC zu spielen.
Gut 3,1 Millionen Tonaufzeichnung von Radiosendungen, Konzertmitschnitten und Hörbücher enthält das Audioarchiv der Wayback Machine. Hinzu kommen Musiktitel, die von Benutzern selbst hochgeladen wurden und Aufzeichnungen von Dichterlesungen. Das Audioarchiv kann zudem für die Veröffentlichung von Podcasts genutzt werden.
Etwa 1,2 Millionen Bilddateien sind aktuell im Bildarchiv der Wayback Machine gespeichert. Neben frei zugänglichen Bildern, die von privaten Nutzern eingestellt wurden, Bildern von historischen Landkarten und Aufnahmen der NASA, enthält das Bildarchiv vor allem Abbildungen von Kunstwerden. Darunter eine Sammlung mit über 100.000 Bildern des Metropolitan Museum of Art. Die archivierten Bilder sind für jedermann frei zugänglich.

Fazit:

Ursprünglich war die Wayback Machine gedacht, als eine Plattform wo Leute digitale Artefakten finden konnten. Heutzutage kann es für Vergnügen benutzt werden, da die Benutzer jetzt sehen können, wie verschiedene Websites früher aussahen.

Weiterführende Links:

https://www.forbes.com/sites/kalevleetaru/2015/11/16/how-much-of-the-internet-does-the-wayback-machine-really-archive/

https://thenextweb.com/tech/2019/06/26/the-wayback-machine-now-lets-you-track-changes-to-web-pages/


Sie haben noch Fragen?

Kontaktieren Sie uns

Kostenlose SEO Analyse


Weitere Inhalte