Crawl-Budget

Erstmalig definierte Google das Crawl-Budget im Januar 2017. Das Crawl-Budget ist die Zahl der Seiten (Hauptseite und Unterseiten), die durch die Google-Crawler auf einer Homepage, einem Online-Shop oder einem Blog maximal durchsucht werden. Die Google-Crawler sind die eigentlichen “Suchmaschinen”, die auf jeder Seite Keywords, Links und weitere relevante Eigenschaften überprüfen. Wie tief sie dabei graben, kann der Seiteninhaber nicht willkürlich festlegen: Es richtet sich wahrscheinlich nach dem PageRank seiner Seite.

Wer bestimmt über das Crawl-Budget?

Google und andere Suchmaschinenbetreiber legen fest, wie viele Unterseiten pro URL die Crawler durchsuchen. Matt Cutts behauptet, dass hierfür der PageRank der Seite ausschlaggebend sei – ein höherer PageRank führt zu intensiverem Crawlen auf mehr Unterseiten. Jedoch nicht nur die Zahl der Unterseiten beziehungsweise die Tiefe der internen Links, sondern auch die Häufigkeit des Crawlens ist in diesem Budget festgelegt, das natürlich automatisiert durch die Suchmaschine bestimmt wird. Es gibt noch eine weitere Komponente, das Index-Budget: Es legt fest, wie viele Einzel-URLs auf einer Homepage oder in einem Shop gecrawlt werden.

Konsequenzen für die SEO

Für die Suchmaschinenoptimierung haben solche Budgets natürlich Konsequenzen, unter anderem diejenige, dass auf neuen Webseiten mit einem voraussichtlich schwachen PageRank die wichtigen Keywords möglichst auf der Hauptseite stehen sollten. Zu viele verschiedene URLs sollte es demnach nicht geben, 404-Fehlerseiten wären ganz und gar kontraproduktiv. Sie würden dazu führen, dass das Crawl-Budget vollkommen unnötig belastet wird. Webmaster von großen Webseiten, die viele Unterseiten aus rein sachlichen Gründen benötigen, müssen über diese Budgetierung nachdenken.

Einblick in die Crawling Statistik

Wie viele Seiten einer Homepage gecrawlt wurden und wann der Googlebot über die Website lief, lässt sich über die Google Search Console herausfinden. Hierzu ist im Menü Crawling der Unterpunkt Crawling Statistiken auszuwählen. Die Summe aus der Crawling Frequenz und dem Crawling Bedarf ergibt die Anzahl der URLs, welche vom Crawl-Budget erfasst werden.

Tipp

Da Google eine Limitierung der zu crawlenden Seiten erlässt, sollten dem Googlebot nur die Unterseiten zur Verfügung stehen, welche im Index erwünscht sind. Um das Crawl-Budget zu schonen, sollten unwichtige Seiten oder Duplikate nicht in den Index. Zur Durchführung dieser Optimierung ist es nicht wichtig, die genaue Seitenanzahl vom Crawl-Budget zu kennen. Im Blickpunkt sollte der gezielte Ausschluss vom Googlebot stehen, damit einige Seiten nicht gecrawlt werden.

Crawl-Budget und robots.txt

Eine weitere Maßnahme zur Suchmaschinenoptimierung besteht darin, robots.txt gezielt einzusetzen. Es handelt sich hierbei um Textdateien, die in das sogenannte Root-Verzeichnis hochzuladen sind. Sie verhindern, dass ausgewählte Verzeichnisse gecrawlt werden. Das Crawl-Budget kann in erwünschte Seiten investiert werden. Grundsätzlich belasten Datenschutz-, Impressums- und Loginseiten das Crawl-Budget unnötig.

Canonical Tags: positiver Einfluss auf Crawl-Budget

Auch Canonical Tags schonen das Crawl-Budget. Beispielsweise bieten Onlineshops für einige Produkte unterschiedliche Varianten an. Im Textilbereich sind es diverse Farben, Größen oder Längen. Je nachdem, welches Shopsystem zum Einsatz kommt, erfolgt eine URL Bildung für jede einzelne Option. Dennoch ist die Produktbeschreibung jeweils gleich. Suchmaschinen ordnen diese zur Kategorie Duplicate Content. Canonical Tags schaffen hier Abhilfe. Sie werden im Quellcode hinterlegt und eignen sich lediglich für Suchmaschinen. Im Canoncical Tag verlinkt ist die originale URL. Genau diese ist für den Index gedacht. Zu beachten ist, dass es sich hierbei um Empfehlungen, aber nicht um Anweisungen für Google handelt. Ein Verbrauch vom Crawling Budget hält so lange an, bis Google den Canonical Tag identifiziert hat.

Etwas zeitnaher wirkt sich die interne Verlinkung einzelner Seiten auf das Crawl-Budget aus. Je mehr Verlinkungen gesetzt werden, umso effektiver ist diese Methode. Eine möglichst flache Seitenarchitektur hat positive Auswirkungen in puncto Crawl-Budget. Nicht zuletzt gehört eine XML-Sitemap, welche sich regelmäßig aktualisiert, zu einer effektiven Crawl-Budgetstrategie.

Sie haben noch Fragen?

Kontaktieren Sie uns