Deep Crawl

Was ist ein Deep Crawl?

Der Deep Crawl ist einen Verfahren, mit denen Google Webseiten für die Bewertung und Aufnahme in seinen Index durchsucht. Der Google Bot durchsucht beim Deep Crawl die Webseite mit allen zugänglichen Unterseiten. Durch den Deep Crawl werden die Unterseiten einer Website als eigenständige Seiten bewertet und in den Index von Google aufgenommen.

Aufgabe des Deep Crawls

Mithilfe des Deep Crawl werden die Unterseiten einer Webseite vom Google-Bot durchsucht und indexiert. Beim Deep Crawl werden unter bestimmten Voraussetzungen alle URLs einer Domain vom Bot durchsucht, bewertet und als eigenständige Seiten in den Index aufgenommen. Dadurch ist es möglich, dass von Webseiten nicht nur die Startseiten, sondern auch die Unterseiten in den Suchergebnissen von Google gelistet werden.

Unterscheidung Deep Crawl und Fresh Crawl

Google nutzt für die Durchsuchung und Indexierung von Webseiten zwei unterschiedliche Verfahren. Mit dem sogenannten Fresh Crawl durchsucht Google das Web permanent nach neuen Inhalten, um diese zeitnah in den Index aufnehmen zu können. Dabei beschränkt sich der Google-Bot jedoch auf die oberste Ebene einer Website. Die tiefer liegenden Unterseiten werden beim Fresh Crawl nicht erfasst. Wie oft ein Fresh Crawl durchgeführt wird, ist abhängig von verschiedenen Faktoren. Beispielsweise, wie oft eine Website aktualisiert wird oder welchen Wert sie aus Sicht Googles für die Suchmaschinennutzer hat. Wird eine Website nur selten aktualisierst, verlängert Google die Fresh Crawl Intervalle um Ressource zu sparen. Der Deep Crawl übernimmt die Aufgabe der in die Tiefe gehenden Durchsuchung und Indexierung einer Webseite.

Wie funktioniert der Deep Crawl?

Beim Deep Crawl nutzt der Google-Bot Deep Links, folgt diesen und durchsucht auf diese Weise die gesamte Struktur der verlinkten Webseite. Deep Links sind Links, die von Webseiten direkt auf Unterseiten einer anderen Webseite verweisen. Je nach Umfang einer Webseite kann der Vorgang mehrere Stunden in Anspruch nehmen. Während des Deep Crawls steht den normalen Nutzern einer Webseite weniger Bandbreite zur Verfügung, sodass es zu Verzögerungen bei der Datenübermittlung zwischen Server und Browser kommen kann. Aus diesem Grund wird ein Deep Crawl seltener als ein Fresh Crawl und oft nicht in einem Zug, sondern segmentiert und über mehrere Tage verteilt durchgeführt.

Welche Auswirkungen hat Depp Crawl auf die Arbeit von Webmastern und SEOs?

Crawlen und Indexieren – das sind die beiden Hauptaufgaben des Google-Bot. Webmaster können den Deep Crawl des Google-Bots mit mehreren Maßnahmen beeinflussen. Kann der Bot seine Aufgabe beim Deep Crawl gründlich erledigen, erhöhen sich die Chancen für ein besseres Ranking der Webseiten.

Die robots.txt Datei

Die robots.txt ist eine einfache Textdatei, die sicherstellt, dass der Google Bot beim Deep Crawl Zugriff auf die entsprechenden Ressourcen hat. Seiten und Dateien, die über die robots.txt für den Google Bot gesperrt sind, werden vom Google Bot nicht gecrawlt. Mit der Google Search Console können SEOs und Webmaster die robots.txt Datei testen, nachdem die Webseite in der Search Console registriert wurde. Stellen Sie sicher, dass Google Zugriff auf alle Inhalte hat, mit denen Ihre Webseite ranken soll.

Die Sitemap XML

Neben robots.txt gibt es eine weitere Datei, die für die Indexierung durch Deep Crawl eine Schlüsselrolle spielt: die Sitemap XML. Die maschinenlesbare Datei listet alle URLs einer Website auf. Die Sitemap Datei wird oft vernachlässigt, obwohl sie bei der Indexierung neuer und großer Websites sehr wichtig ist. Die Sitemap wird der Google Search Console hinzugefügt, um Google über die vorhandenen URLs zu informieren und kann auch in der robots.txt hinterlegt werden. Google empfiehlt, die Sitemap aufzuteilen, wenn mehr als 50.000 URLs vorhanden sind. In diesem Fall wird ein Index, eine “Sitemap der Sitemap” erstellt. Die Index-Sitemap enthält alle Links zu den verschiedenen Sitemaps. Wenn viele Videos und Bilder auf einer Website vorhanden sind, ist es empfehlenswert, separate Sitemaps für die Bilder und Videos zu erstellen.

Das Crawl-Budget optimal nutzen

Der Google-Bot hat ein begrenztes Budget, das heißt begrenzte Ressourcen, um Links zu folgen, URLs zu crawlen und den Inhalt zu interpretieren, zu klassifizieren und zu indizieren. Die Anzahl der Seiten, die vom Bot für die Indexierung gecrawlt werden, ist unter anderem davon abhängig, wie einfach der Bot den Links der Website folgen kann. Eine optimierte Architektur der Webseite mit flachen Hierarchien hilft sicherzustellen, dass der Bot beim Deep Crawl auf alle Webseiten zugreift. Der Google-Bot kann oft keine großen Verzeichnistiefen durchsuchen, wenn der Pfad durch die Webseiten kompliziert ist.

Das Crawlen kann darüber hinaus durch die Verwendung interner Links beeinflusst werden. Unabhängig vom für Nutzer sichtbaren Navigationsmenü können Webmaster dem Bot Hinweise auf andere URLs geben und Links im Text verwenden. Die Verwendung von Anker-Tags ist ebenfalls hilfreich und liefert dem Bot zusätzliche Informationen darüber, was er nach dem Link vorfinden wird und wie der Inhalt eingeordnet werden kann.

Verwaiste Seiten und 404-Fehler belasten das Crawl-Budget

Immer wenn der Google-Bot beim Deep Crawl auf eine Fehlerseite trifft, hält er an. Er muss dann zurückgehen und von einem anderen Punkt aus neu starten. URLs sind oft nicht mehr vorhanden, wenn Webseitenbetreiber Produkte aus ihrem Onlineshop gelöscht haben. In solchen Fällen gibt der Server einen 404-Statuscode zurück. Viele Fehler dieser Art auf einer Webseite verbrauchen jedoch einen großen Teil des Crawl-Budgets für den Deep Crawl. Es sollte daher darauf geachtet werden, solche Fehler regelmäßig zu beheben.

Ein weiteres Problem bei Deep Crawl sind verwaiste Seiten. Als verwaiste Seiten oder Orphan Seiten werden Unterseiten einer Webseite bezeichnet, auf die keine internen Links verweisen. Der Google-Bot kann beim Deep Crawl diese Seiten nicht crawlen oder wird gezwungen, den Crawl insgesamt zu stoppen. Ähnlich wie 404-Fehler sollten auch verwaiste Seiten vermieden werden. Orphan Seiten entstehen häufig durch Fehler im Webdesign oder wenn die Syntax der internen Links fehlerhaft ist.

Duplicate Content vermeiden

Doppelte Inhalte stellen laut Google keinen Grund dar, um gegen die jeweilige Website vorzugehen. Ohne geeignete Maßnahmen durch SEOs oder Webmaster, entscheidet die Suchmaschine allerdings nach dem Deep Crawl, welche Seiten mit Duplicate Content indexiert und welche URLs ignoriert werden. Webmaster können diese Entscheidung durch Google durch die Verwendung von unter Anderem 301 Redirects, Canonical-Tags und dem noindex-Tag vermeiden.

In der Regel soll eine Webseite so bald wie möglich erneut gecrawlt werden, wenn Änderungen vorgenommen wurden. In der Google Search Console können die entsprechenden Webseiten aufgerufen und an den Google-Index gesendet werden. Diese Funktion ist jedoch auf 500 URLs pro Monat und Webseite beschränkt.

Sie haben noch Fragen?

Kontaktieren Sie uns