robots.txt

Die robots.txt Datei ist eine Protokoll-Datei für eine Domain, die von einem Crawler einer Suchmaschine gelesen werden kann. Das Protokoll wurde im Jahr 1994 entwickelt und ist seit dem Jahr 2008 bei den Suchmaschinen von Google, Yahoo und Bing größtenteils standardisiert. Sie wird mit den zuvor erstellten Webseiten auf den Server geladen und ist in einem einfachen Text-Format erstellt. Die einzelnen Befehle sind zweizeilig und enthalten die Informationen, die der Webcrawler befolgen soll. Mit den Befehlen der robots.txt Datei kann unter Anderem erzwungen werden, dass Teile einer Webseite oder eine komplette Webpräsenz von einer oder mehreren Suchmaschinen nicht indexiert werden.

Auch mit den Befehlen der robots.txt-Datei ist die Indexierung nicht zwangsläufig ausgeschlossen

Die Befehle der Text-Datei werden durch einen Doppelpunkt abgegrenzt. In der ersten Zeile werden die Webcrawler angesprochen, die den Befehl ausführen oder unterlassen sollen. In der zweiten Zeile der Datei wird der eigentliche Befehl eingegeben. Für jede URL, die aus der Indexierung ausgeschlossen werden soll, muss eine eigene Zeile mit einem “Disallow”-Befehl aufgeführt werden. Die Arbeit der robots.txt-Datei ist mit der Arbeit von Meta Daten vergleichbar, die sich im Header von HTML-Formaten befinden.