Robots.txt - Alles Wissenswerte über Suchmaschinen Anweisungen Mo, Aug 23. 2010

Ein Hauptbestandteil jeder Website ist die Datei robots.txt. In Ihr gibt man Suchmaschinen gewisse Anweisungen wohin sie dürfen und wohin nicht. Zum Beispiel kann man der Suchmaschine Google explizit verbieten, dass diese keine Seiten in einem Loginbereich crawlen und indizieren darf.

Dabei ist das "Verbieten" so zu verstehen, dass die Suchmaschine eher "Gebeten" wird dort nicht zu crawlen. Google z.B. hält sich an dieses Verbot. allerdings gibt es auch andere Suchmaschinen, die die robots.txt einfach ignorieren. D.h. es ist kein wirklicher Schutz, allerdings eine sehr gute Empfelung die in den meisten Fällen auch eingehalten wird.

Hier die Regeln fürdie robots.txt ansich:

Der Dateiname der robots.txt darf nur Kleinbuchstaben enthalten
Die Datei muss im Wurzelverzeichnis einer Webseite sein, z.B: http://www.gurkcity.de/robots.tx
Es gibt nur diese eine Datei. weitere robots.txt in Unterverzeichnissen werden nicht berücksichtigt.
Kommentare werden mit einem '#' als erstes Zeichen einer Zeile angegeben
Es sind nur folgende Befehle gültig: 'User-Agent', 'Allow' und 'Disallow'

Eine gültige robots.txt könnte z.B. so aussehen:

# meine robots.txt
User-agent: googlebot
Disallow: /temp/
Disallow: /login.php

User-Agent: *
Disallow: /cache/

Erläuterung:

Die erste Zeile ist ein Kommentar und beeinträchtigt nicht die Funktionalität
In der zweiten Zeile wird ein bestimmter Bot (hier der Google-Bot) angesprochen. Alle Anweisungen die nun folgen gelten nur für diesen Bot bis erneut eine User-Agent Anweisung kommt.
Die 3. und 4. Zeile verwiegern dem Google-Bot nun den Zugriff auf das Verzeichnis 'temp' und die Datei 'login.php'

In Zeile 6 Werden nun alle Bot (durch das '*' Zeichen) angesprochen. Diese dürfen nicht in das 'cache' Verzeichnis. Man beachte, dass der Google-Bot trotzdem in das Cache Verzeichnis darf, obwohl alle Bots angesprochen wurden. Das liegt daran, dass es für den Google-Bot explizit eine eigene Anweisung gibt.

Hier noch einige Beispiele:

User-Agent: *
Disallow: /

Diese Angaben verbieten alles. Es werden keine Seiten mehr indiziert und gecrawled.

User-Agent: googlebot
Disallow: /login*

Man beachte das '*'-Zeichen. Dieses ist die einzigste Wildcard die aber auch NUR von Google ausgewertet wird. Somit darf Google auf keine seiten, die mit login... anfangen.

Bookmarks:

Delicious Facebook Google Yahoo Mr. Wong Linkarena Digg

Geschrieben von Markus Kommentare: (0) Trackbacks: (0)

< Smartphone und Handy Displaygrößen für Mobile Internetseiten | Shadowbox und TinyMce - wie setze ich den rel Link mit dem advlink Plugin? >

Trackbacks

Trackback-URL für diesen Eintrag

Keine Trackbacks

Kommentare

Ansicht der Kommentare: (Linear | Verschachtelt)

Noch keine Kommentare

Kommentar schreiben

Name
E-Mail
Homepage
Antwort zu
Kommentar	Die angegebene E-Mail-Adresse wird nicht dargestellt, sondern nur für eventuelle Benachrichtigungen verwendet. Um maschinelle und automatische Übertragung von Spamkommentaren zu verhindern, bitte die Zeichenfolge im dargestellten Bild in der Eingabemaske eintragen. Nur wenn die Zeichenfolge richtig eingegeben wurde, kann der Kommentar angenommen werden. Bitte beachten Sie, dass Ihr Browser Cookies unterstützen muss, um dieses Verfahren anzuwenden. Hier die Zeichenfolge der Spamschutz-Grafik eintragen:
	Daten merken? Bei Aktualisierung dieser Kommentare benachrichtigen
Kommentare werden erst nach redaktioneller Prüfung freigeschaltet!