49. Crawling und Indexing

Titelbild Crawling und Indexing

Copyright © Shutterstock/ProJoeProductions

Das Crawling und Indexing bezeichnet die Vorgehensweise von Suchmaschinen, Webseiten zu finden und in den Suchergebnislisten (SERPs) anzeigen zu lassen. Wenn Sie Ihre Webseiten in den organischen Suchergebnissen anzeigen lassen wollen, ist darauf zu achten, dass die relevanten Inhalte in den Index der Suchmaschine gelangen. Ein wichtiger Bestandteil der Webseiten-Optimierung besteht daher darin, sie für Webcrawler auffindbar zu machen. Nur solche Seiten, die gut crawlbar sind, haben eine Chance, im Index aufzutauchen. Crawler können wiederum nur solche Inhalte indexieren, die er findet. Wichtige Eckpfeiler, um dies zu gewährleisten sind durchdachte interne Verlinkungen sowie eine flache Seiten-Hierarchie. Eine intensive Auseinandersetzung mit den Themen Crawling und Indexing trägt entscheidend zur Suchmaschinenoptimierung (SEO) bei.

1. Was bedeutet Crawling und Indexing?

Grundsätzlich bezeichnet ein Index eine Art Register beziehungsweise ein Verzeichnis oder Nachschlagewerk. In der Suchmaschinenwelt stellt der Google-Index das Gesamtregister sämtlicher vom Suchmaschinenbetreiber erkannten Webseiten dar. Diese wurden gecrawlt und anschließend gespeichert oder indexiert. Damit hängen Crawling und Indexing direkt miteinander zusammen. Nur Seiten, die für das Crawling zugänglich sind, landen auf dem Index. Eine nicht indexierte Seite wird auch nicht in den SERPs auftauchen. Wichtig ist die Beobachtung, dass es sich um einen dynamischen Index handelt. Damit unterscheidet sich der Google Index von statischen Inhalten, beispielsweise Lexika. Ständig werden neue Webseiten zum Index hinzugefügt, während andere wieder verschwinden.

Der Google-Index weist eine spezifische Gliederung auf. Der aufwändige Aufbau erfolgt nicht rein alphabetisch, sondern beinhaltet mehrere Ranking-Faktoren. Dies dient dazu, die Webseiten im Zuge einer Suchanfrage in einer entsprechenden Reihenfolge auszuspielen. Diese Ranking-Faktoren und -Kriterien ändern sich ständig. Daher ist auch die damit einhergehende Reihenfolge dynamisch. Die exakten Kriterien beziehungsweise Algorithmus bleibt weitgehend Betriebsgeheimnis des Suchmaschinenbetreibers.

Das Crawling dient der Anreicherung dieses Index. Hierbei kommen Crawler zum Einsatz. Diese springen grundsätzlich von einem Link zum anderen und treffen dabei auf miteinander verlinkte Seiten. Eine andere Bezeichnung für diese Webcrawler lautet Bot.

Das Crawling erfolgt für jede Webseite. Hierbei kommt es zur Auslesung ihres Quellcodes, bevor sie an den Index weitergeleitet wird. Nach dem Crawling wird die Seite dort nach den sich wechselnden Ranking-Faktoren eingeordnet. Wollen Sie Ihre Webpräsenz auf diese Weise indexieren lassen, ist es wichtig, darauf zu achten, dass sie einen Link von anderen Webseiten erhalten. Anschließend muss der Webcrawler auf dieser anderen Webseite vorbeisehen und dort den Link auf Ihrer Seite identifizieren. Neue Seiten werden schnell erfasst, indem Crawler von Link zu Link springen. Wird hierbei deutlich, dass eine Internetseite deutlich gegen geltende Google-Richtlinien verstößt, wird sie aus dem Index entfernt. In der Folge verschwindet sie auch aus den SERPs.

Die Indexierung erfolgt auf Basis der durch das Crawling von den Suchmaschinenbetreibern erfassten Daten. Der Index stellt ein Register sämtlicher gecrawlter und gespeicherter Webseiten dar. Dies bezieht sich auf sämtliche Seiten, die nicht entweder von Webseitenbetreibern ausgeschlossen oder von Suchmaschinen als irrelevant eingestuft wurden.

Sobald Ihre Webseite über den Umfang einer privaten Page hinausgeht, stellt sich die Herausforderung, Ihre Inhalte möglichst aktuell in den Index aufnehmen zu lassen. Dies stellt auch für Google in Anbetracht der Vielzahl an Webinhalten eine größere Herausforderung dar. Die Ressourcen für die Erfassung der Internetseiten sind begrenzt. Daher verwendet Google bestimmte Beschränkungen pro Domain. Besonders große und umfassende Webseiten bekommen diese Grenzen zu spüren. Nur eine bestimmte Anzahl an URLs können pro Tag gecrawlt werden. Davon wiederum wird nur ein bestimmter Anteil in den Google-Index aufgenommen. Daher ist es für Sie als Webseiten-Betreiber von Bedeutung, die zur Verfügung stehenden Ressourcen für das Crawling und Indexing möglichst effizient zu nutzen.

2. Crawling-Budget und Index-Budget

Die Begriffe Crawling-Budget und Index-Budget scheinen zunächst inhaltlich eng verwandt zu sein. Doch finden sich zentrale Unterschiede, die mit dem Aufbau sowie der Arbeitsweise einer Suchmaschine zusammenhängen.

Google weist jeder Domain ein eigenes Crawling-Budget zu. Das Crawling-Budget ist eine Zuweisung, die darüber entscheidet, wie oft der Webcrawler beziehungsweise Google-Bot die ersten Ebenen einer Domain durchsucht. Ebenso ist es das Crawling-Budget, das darüber bestimmt, wie tief die Domain gecrawlt wird, beziehungsweise, wie häufig ein so genannter Deep-Crawl durchgeführt wird. Voraussetzung für die Aufnahme einer Domain in die Auswahl des Ranking-Algorithmus ist das Auffinden sowie Erfassen durch den Crawler. Der Google-Bot soll hierbei im Wesentlichen zwei Ziele verfolgen. Einerseits soll er neue Inhalte möglichst schnell auffinden. Andererseits soll er auch solche Inhalte auslesen, die etwas tiefer in der Seite versteckt liegen.

Es existieren immer Wieder Ansätze zur Gleichstellung sämtlicher Domains. Der Suchmaschinenbetreiber hat solche Vorstöße bislang jedoch stets zurückgewiesen und lässt jeder Domain ihr eigenes Crawling-Budget zukommen.

Aufgabe des Index-Budgets ist es, darüber zu bestimmten, welche Maximalanzahl von URLs in den Index aufgenommen werden. Pro Domain findet nur eine begrenzte Anzahl URLs Platz im Index. Hierbei sollten Sie stets berücksichtigen, dass nur solche URLs dauerhaft im Index bleiben können, die auch regelmäßig vom Webcrawler erfasst werden.

3. Negative Faktoren für Crawling und Indexing

Das Crawling und das Indexing sehen sich bestimmten Einflussfaktoren ausgesetzt. Problematisch sind verschiedene Weiterentwicklungen, Relaunches und andere Modifikationen der URL-Struktur. In der Praxis bleiben URLs meist nicht lange in ursprünglicher Form bestehen. Verschiedene Formen von Inhalten haben mehr als nur eine logische URL. Beispiele sind neue Druckversionen von Artikeln oder die Verwendung neuer JavaScript-Codes. Diese Phänomene haben gemeinsam, dass sie Google und andere Suchmaschinenbetreiber zu zusätzlichen Crawls veranlassen.

Dies hat zur Folge, dass das Crawling-Budget belastet wird. Pro Domain steht damit weniger Crawling-Budget zur Verfügung. Insbesondere falls Sie umfangreiche Webseiten betreiben, wird auffallen, dass ein entsprechend aufgebrauchtes Budget an anderer Stelle fehlen wird. In der Folge kann die Domain gegebenenfalls unter ihrem Potential in den Suchergebnissen bleiben, indem sie nicht die grundsätzlich mögliche maximale Seitenanzahl im Google-Index belegt.

4. Einfluss von Updates auf das Crawling und Indexing

Im Zuge kleinerer Updates handelt es sich meist um fließende Änderungen mit geringeren Auswirkungen. Google unternimmt öfter kleinere Änderungen, im Zuge derer Daten neu bewertet oder neue Inhalte indexiert werden. Eine besondere Rolle im Crawling und Indexing spielen hingegen die regelmäßigen größeren Updates. Speziell Core-Algorithmus-Updates gehen mit größeren Veränderungen einher. Solche Updates führt Google etwa einmal pro Jahr vor. Nach einem Update kommt es typischerweise zu einer Neuordnung vieler Suchergebnisse.

Die Suchmaschinenoptimierung ist flächendeckend betroffen, wenn Suchmaschinenbetreiber Modifikationen am Kern der Algorithmen vornehmen. Beispiele für solche Updates waren Panda und Penguin. Nach einem Update stellt sich Ihnen zunächst die Frage, ob Ihre eigene Domain betroffen ist. Eine Möglichkeit, dies zu überprüfen, ist der tägliche Sichtbarkeitsindex. Bei auffälligen Kurven oder Abweichungen lässt sich feststellen, ob Änderungen ein Ergebnis eines Updates sind oder andere Ursachen haben.

5. Möglichkeiten das Crawling zu beeinflussen

Die Steuerung des Crawlings ist auf mehrere Weisen möglich. Nicht nur Seiten-Ladegeschwindigkeit und andere passive Einflussfaktoren der Performance sind von Belang. Als Webmaster haben Sie die Möglichkeit, an bestimmten Stellschrauben entscheidenden Einfluss auf die Crawling-Tätigkeit zu nehmen.

Eine Möglichkeit stellen die Einstellungen in der Google Search Console Dar. Hier können Sie beispielsweise die Frequenz des Crawlings bestimmen oder bestimmte URL-Parameter vom Crawling und Indexing ausschließen. Dies kann von Vorteil sein, falls Sie beispielsweise Filter-URLs auszuschließen, die auf Ihrer Internetseite durch Sucheinstellungen erstellt wurden. Hierbei gilt es zu berücksichtigen, dass entsprechend vorgenommene Einstellungen ohne Weiteres nur für Google und nicht für andere Suchmaschinen gelten. Weiterhin ist dieses Problem durch andere Mittel möglicherweise effizienter zu beheben.

Dazu gehört die Robots.txt. Diese ermöglicht es Ihnen, dem Webcrawler bestimmte Anweisungen zu geben. Sie können vollständige Seiten oder einzelne Unterverzeichnisse vom Crawling und Indexingausschließen. Ebenso ist es Ihnen möglich, einen Verweis auf die Adresse einer XML-Sitemap zu erstellen. Hierbei ist zu beachten, dass robots.txt-Befehle lediglich als Empfehlungen behandelt werden. Suchmaschinen berücksichtigen diese Anweisungen nicht zwingend.

Eine weitere Möglichkeit der Einflussnahme findet sich in dem Meta-Tag noindex. Diesen können Sie im Bereich Ihrer Webseite integrieren. Kommt es zum Aufruf einer solchen Seite, so wird sie nicht indexiert. Jedoch wird beim Aufruf dennoch Crawling-Budget aufgebraucht. Es handelt sich bei der Anweisung noindex um einen verbindlichen Befehl. Nach dem erfolgten Crawling wird die Seite aus dem Suchmaschinen-Index entfernt. Der noindex-Tag ist bei bestimmten Seitentypen vorteilhaft. Dazu gehören etwa paginierte Seiten oder URLs, die mit bestimmten Parametern ausgestattet sind (beispielsweise Filteroptionen).

Fazit

Als Betreiber einer Webseite ist es lohnenswert, über die Funktionen des Crawlings und Indexings genau Bescheid zu wissen. Eine Einflussnahme auf das Crawling der Suchmaschine ist möglich, sodass Sie die Indexierung einzelner URLs kontrollieren können. Zu den vielseitigen Optionen gehören der Aufbau einer flachen Seitenhierarchie sowie die Sperrung einzelner Unterseiten für den Index. Da Crawling und Indexing anspruchsvolle und dynamische Themen sind, werden jeweils spezifische Lösungen für Ihren jeweiligen Fall erforderlich. Somit können Sie relevante URLs in den Index aufnehmen und irrelevante URLs oder Duplicate Content aus dem Index entfernen oder heraushalten.

(TitelbildCopyright © Shutterstock/ProJoeProductions)

Kostenlose SEO Analyse



Keine Kommentare vorhanden


Du hast eine Frage oder eine Meinung zum Artikel? Teile sie mit uns!

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind markiert *

*
*