Die robots.txt Datei Drucken

  • robots.txt
  • 2

Was ist die robots.txt und wie funktioniert sie?

Hosttest.de

Autor: HOSTTEST-Redaktion   |  06.10.2021

Was ist die robots.txtGroße Suchmaschinen wie Google und Microsoft Bing durchsuchen ebenso wie kleinere Anbieter - etwa DuckDuckGo - das World Wide Web (WWW) und Teile des angeschlossenen Internets mit speziellen Programmen (Crawler) permanent und automatisiert nach Inhalten, die sie indexieren und auswerten. Es existieren mehrere Möglichkeiten, um ihr Verhalten zu steuern - eine der wichtigsten und vielseitigsten neben .htaccess ist die Datei robots.txt, die es erlaubt, exakte Anweisungen zu definieren. Diese können sich wahlweise auf alle Clients beziehen oder verschiedene Suchmaschinen benennen, um diesen individuelle Einstellungen zu diktieren. Wegen ihrer Aufgabe und den verfügbaren Optionen spielt die robots.txt eine wichtige Rolle für die SEO, aber auch um zum Beispiel Teile einer Webseite von anderen zu trennen oder bestimmte Dateien vor Suchmaschinen zu verstecken.

Woraus besteht die Datei robots.txt?

Bei der robots.txt handelt es sich um eine einfache Textdatei, in der sich Anweisungen in einer lesbaren Form befinden. Die Erstellung ist daher ohne Probleme mit einem simplen Texteditor wie gedit oder mousepad unter Linux oder Notepad unter Microsoft Windows möglich. Der Inhalt besteht aus mehreren Zeilen, die sich entweder auf einen einzelnen Crawler wie den googlebot beziehen oder universell für alle Besucher gelten können. Dabei enthält jeder Eintrag mindestens zwei Angaben, die durch einen Zeilenumbruch voneinander getrennt werden: An der ersten Position definiert die robots.txt, auf welche Suchmaschinen sich die folgenden Anweisungen beziehen. In einer neuen Zeile folgen anschließend einzelne Details über die Art und Weise, auf die eine Suchmaschine die Webseite durchsuchen und indexieren soll.

Welche Aufgabe übernimmt die robots.txt Datei?

Generell bietet die robots.txt vier verschiedene Optionen, die sich miteinander kombinieren lassen:

  • Allow: Erlaubnis zum Durchsuchen festgelegter Teile einer Webseite
  • Disallow: Blockierung des Zugriffs auf bestimmte Pfade oder DateienAllow:
  • Sitemap: Hinweis auf eine externe Datei mit Anweisungen, wie eine Webseite durchsucht werden soll
  • Crawl-Delay: Verzögerung des Aufrufs zwischen einzelnen Unterseiten (nur einige Crawler)

Der Sinn einer robots.txt liegt darin, dass der Inhaber einer Webseite den Traffic steuern kann, der ihm durch die Suchmaschinen entsteht. Dies ist speziell bei großen Seiten oder solchen mit einer stark verzweigten Struktur sinnvoll und hilfreich, kann sich allerdings beispielsweise bei einem kleinen Webhosting oder einem virtuellen Server mit geringer Performance positiv auswirken. Darüber hinaus erweist sich die robots.txt als nützlich, um gezielt große Dateien wie etwa Videos oder andere multimediale Inhalte von dem Abruf durch Suchmaschinen auszuschließen, um die Bandbreite zu reduzieren und einen minimalen Traffic zu generieren. Da Suchmaschinen wie der googlebot bei ihrem Vorgehen wertfrei operieren - also keine Präferenzen bei der Indexierung festlegen oder selbst eine Blockierung von Inhalten vornehmen - bietet die robots.txt eine komfortable Möglichkeit, diese zu steuern. Über eine Sitemap lassen sich darüber hinaus ebenfalls Prioritäten für einzelne Unterseiten festlegen, damit zum Beispiel Inhalte, die sich häufig ändern, öfter und rascher als statische Informationen durchsucht und indexiert werden.

Wie funktioniert eine robots.txt Datei und wie wirkt sie sich aus?

Wenn eine Suchmaschine durch einen ihrer Crawler eine Webseite aufruft, folgt dieser automatisch jedem identifizierbaren Link und ruft die darunter gelagerten Inhalte ab, um sie zu analysieren und nach dem eigenen Algorithmus zu bewerten. Als erste Datei versucht sie dabei, eine robots.txt im Wurzelverzeichnis - also im untersten Pfad einer Domain - zu finden, um Informationen über das erwünschte Vorgehen zu erhalten. Aus diesem Grund muss sie zwingend direkt unter der Adresse der Webseite abgespeichert werden und sich zum Beispiel unter www.example.org/robots.txt oder example.com/robots.txt finden.

Erlaubt das Webhosting dem Nutzer keinen Zugriff auf diesen Bereich, weil es zum Beispiel eine Struktur wie https://anbieter.com/Kunde verwendet, kann leider keine robots.txt eingesetzt werden. Es ist allerdings möglich, eine externe Domain zu reservieren und auf diesen Webspace zu verlinken, so dass eine Umleitung entsteht. In diesem Fall würden sich die Einstellungen allerdings lediglich für diese Präsenz auswirken, indem zum Beispiel example.com mit http://anbieter.com/example verknüpft wird und die robots.txt für die erste Domain gilt, nicht jedoch für die zweite.

Darüber hinaus ist unbedingt zu bedenken, dass es sich bei der robots.txt um keine offizielle oder verbindliche Norm, sondern um den unabhängig entwickelten Robots Exclusion Standard handelt, der im Sommer 2008 von internationalen Konzernen wie Google, Microsoft und Yahoo übernommen wurde. Die Beachtung der vorgegebenen Regeln erfolgt ausschließlich auf einer freiwilligen Basis und ist nicht verpflichtend, obwohl mittlerweile alle großen Unternehmen sie respektieren. Es ist aus diesem Grund wichtig, ausdrücklich darauf hinzuweisen, dass eine robots.txt Datei keine effektive Blockierung für alle Suchmaschinen und erst recht nicht für einen Zugriff von außen etwa bei kriminellen Absichten darstellt. Darüber hinaus ist jeder Crawler wie der googlebot oder der von Microsoft verwendete bingbot unterschiedlich programmiert und unterstützt nicht unbedingt alle Befehle über Disallow hinaus. So ist zum Beispiel Crawl-Delay nicht mit dem googlebot kompatibel, einige Suchmaschinen wie die russische Yandex oder die aus China stammenden Baidu und Sogou ignorieren ebenfalls Allow-Regeln und interpretieren ausschließlich Disallow.

Was ist bei der Erstellung einer robots.txt Datei zu beachten?

Die Erstellung einer robots.txt ist zwar prinzipiell mit jedem Texteditor möglich - um eine maximale Kompatibilität zu gewährleisten, empfiehlt es sich jedoch, den von Microsoft Windows abweichenden Standard von Linux zu verwenden. Dieser unterscheidet sich speziell in dem verwendeten Sonderzeichen für einen Zeilenumbruch und wird von kostenfreien Freeware-Programmen wie Notepad++ unterstützt.

Die Datei selbst besteht aus einem oder mehr Absätzen, die von einer Leerzeile getrennt werden und verschiedene Anweisungen für bestimmte Crawler enthalten. Jede von ihnen beginnt mit der Angaben User-agent:, die genau definiert, an welchen Bot sich die Anweisungen richten. Die häufigsten im Internet und WWW aktiven, legalen Crawler sind:

  • *: Dieser Platzhalter (Wildcard) steht für alle Crawler
  • Googlebot: der häufigste und aktivstes Crawler
  • Bingbot: der von Microsoft seit 2010 anstellen von msnbot verwendete Crawler
  • Slurp: von Yahoo vor allem für die Erfassung der mobilen Suchen verwendeter Crawler
  • DuckDuckBot: der Crawler der auf Anonymität ausgerichteten Suchmaschine DuckDuckGo
  • Baiduspider: der Crawler der größten chinesischen Suchmaschine Baidu
  • YandexBot: wird von der russischen Sichmaschine Yandex genutzt
  • FaceBot: ist der Crawler von Facebook und wird nur bei Links aus der Plattform hinaus aktiv
  • ia_archiver: stammt von Amazon Alexa und erfasst vor allem statistische Informationen

Neben diesen "offiziellen" Crawlern, die sich den Richtlinien der robots.txt unterwerfen (falls sie diese unterstützen), existieren ebenfalls Anbieter, die sich nicht um solche Vorgaben kümmern beziehungsweise sie bewusst ignorieren. Zu diesen zählen zum Beispiel der PetalBot oder der DotBot - um eine effiziente Blockierung zu erreichen, muss hier der Umweg über die Erstellung einer .htaccess Datei erfolgen, durch die Crawlers gezielt über ihre Identifizierung als User-agent umgeleitet oder abgewiesen werden.

Wie sieht eine robots.txt aus?

Jede robots.txt besteht aus einem oder mehreren Blöcken, die ein Crawler chronologisch liest und die für ihn geltenden Regeln anwendet. Wie in vielen Programmiersprachen erlaubt es das Symbol Raute # dabei, Kommentare einzufügen, die nicht als Code interpretiert werden. Einige Beispiele für eine robots.txt sehen folgendermaßen aus:

Beispiel 1:

User-agent: *
# Blockiert alle Crawler
Disallow: /privat/
# Verbietet Zugriff auf das Verzeichnis /privat und alle Unterverzeichnisse
Allow: /website/
# Erlaubt explizit den Zugriff auf /website und alle Unterverzeichnisse

Beispiel 2:

User-agent: Googlebot
User-agent: Bingbot
# Block gilt nur für Google und Microsoft Bing
Allow: /website/
# Google und Bing dürfen Website indexieren
Disallow: /website/privat
# Blockierung aller Verzeichnisse oder Dateien, die mit privat beginnen

User-agent: *
# Sperrt alle anderen Bots aus
Disallow: /
# Verbietet Zugriff auf die gesamte Domain

Wichtig sind einige eindeutige Regeln, die in einer robots.txt beachtet werden müssen:

  • Die robots.txt muss im Wurzelverzeichnis / einer Domain liegen
  • Groß- und Kleinschreibung werden nicht unterschieden
  • Bots müssen exakt und namentlich benannt werden
  • Leerzeichen in einer Zeile sind ausschließlich hinter dem : erlaubt
  • Jede robots.txt darf maximal einen Block für alle Crawler (*) enthalten
  • Der erste auf einen Crawler zutreffende Eintrag wird ausgewertet
  • Ein Disallow: ohne weitere Angabe erlaubt alles
  • Platzhalter wie * werden von einigen, nicht aber allen Crawlern unterstützt
  • Der Eintrag /privat/ bezieht sich auf ein Verzeichnis, /privat auf alle Verzeichnisse und Dateien, die mit privat beginnen

Da es sich um eine relativ kleine und überschaubare Datei handelt, lässt sich eine robots.txt problemlos etwa über einen SSH-Zugriff direkt auf einem Webhosting erstellen oder bearbeiten. Eine Alternative besteht darin, diese lokal zu erstellen und über FTP oder ein Webinterface auf das / - Verzeichnis hochzuladen.

Foto: Free-Photos auf Pixabay


War diese Antwort hilfreich?

« Zurück

Datenschutz | Widerrufsbelehrung | AGB | Impressum | Rechenzentrum Info | Profi Server Info | Plesk und cPanel Info | Downloads