Googlebot

Unter dem Namen Googlebot verbirgt sich der Web-Crawler von Google, der Inhalte und diverse Dokumente aus dem Internet durchforstet und indexiert und diese dann in der Google-Suche den Nutzern als Suchergebnisse präsentiert. Der Googlebot funktioniert dabei ähnlich wie ein gewöhnlicher Webbrowser.

Indexierung des World Wide Web

Die Informationen werden durch ein automatisiertes Verfahren gesammelt, indem automatisch Anfragen an Webserver geschickt werden. Die Antwort des jeweiligen Webservers inklusive der gesuchten Information wird danach indexiert und gespeichert. Auf diese Weise durchforstet der Web-Crawler von Google das Internet und ist ständig auf der Suche nach neuen Inhalten, die automatisch indexiert werden. Der Googlebot kann auf gewaltige Rechenressourcen zurückgreifen, die auf mehreren Google-Datenzentren verteilt sind, so dass der Web-Crawler gleichzeitig mehrere tausend Webseiten nach Informationen und Inhalten durchsuchen und indexieren kann.

Theoretische Grundlage und Funktionsweise des Web-Crawlers von Google

Bei der Crawler-Technologie, die bei dem Googlebot zum Einsatz kommt, handelt es sich um einen hoch komplexen Algorithmus, der völlig autonom arbeitet und auf dem Konzept des WWW (World Wide Web) aufgebaut ist. Das World Wide Web kann man sich als ein gewaltiges Netz von Webseiten (Knoten) und Verbindungen (Hyperlinks) vorstellen. Dieses Konzept des WWW lässt sich am besten mathematisch als Graph beschreiben. Dabei ist jeder Knoten durch eine URL erreichbar. Die Hyperlinks auf der jeweiligen Seite führen entweder zu weiteren Inhalten auf derselben URL oder zu Ressourcen auf einer anderen Domainadresse. Diese Aufteilung führt dazu, dass der Web-Crawler von Google zwischen Verbindungen (HREF-Links) und Ressourcen (SRC-Links) unterscheiden kann. Eine genaue Beschreibung wie der Googlebot arbeitet und wie er am schnellsten und effektivsten den Ganzen Graph durchforstet und indexiert lässt sich in der Graphentheorie nachschauen.

Der Googlebot in der Praxis

Webmastern und Seitenbetreibern stehen diverse Möglichkeiten zur Verfügung, die Inhalte der jeweiligen Webseite zur Indexierung freizustellen. Dabei können Webmaster nicht nur gezielte Inhalte einer Webseite zu Indexierung freischalten sondern auch die Indexierung der gesamten Webseite verweigern. Da sich jeder Web-Crawler durch den User-Agent leicht identifizieren lässt, können Webmaster bestimmte Web-Crawler schnell und einfach aussperren. Dies geschieht, indem in die “Robots.txt” Datei das Attribut “Disallow” hinzugefügt wird. Darüber hinaus stehen Webseitenbetreibern die Google Webmaster Tools zur Verfügung, mit denen sich diverse Funktionen und Features wie z. B. die Frequenz, mit der der Googlebot die jeweilige Webseite durchsucht schnell und einfach einstellen lassen. Die Funktionsweise des Web-Crawlers von Google ist besonders für die Suchmaschinen-Optimierung (SEO) von großer Bedeutung. Eine Webseite, die suchmaschinenoptimiert ist, wird in der Regel schneller durch den Crawler indexiert und nimmt auch bei Suchmaschinen-Rankings einen höheren Platz ein.