Ein Hauptbestandteil jeder Website ist die Datei robots.txt. In Ihr gibt man Suchmaschinen gewisse Anweisungen wohin sie dürfen und wohin nicht. Zum Beispiel kann man der Suchmaschine Google explizit verbieten, dass diese keine Seiten in einem Loginbereich crawlen und indizieren darf.
Dabei ist das "Verbieten" so zu verstehen, dass die Suchmaschine eher "Gebeten" wird dort nicht zu crawlen. Google z.B. hält sich an dieses Verbot. allerdings gibt es auch andere Suchmaschinen, die die robots.txt einfach ignorieren. D.h. es ist kein wirklicher Schutz, allerdings eine sehr gute Empfelung die in den meisten Fällen auch eingehalten wird.
Hier die Regeln fürdie robots.txt ansich:
- Der Dateiname der robots.txt darf nur Kleinbuchstaben enthalten
- Die Datei muss im Wurzelverzeichnis einer Webseite sein, z.B: http://www.gurkcity.de/robots.tx
- Es gibt nur diese eine Datei. weitere robots.txt in Unterverzeichnissen werden nicht berücksichtigt.
- Kommentare werden mit einem '#' als erstes Zeichen einer Zeile angegeben
- Es sind nur folgende Befehle gültig: 'User-Agent', 'Allow' und 'Disallow'
Eine gültige robots.txt könnte z.B. so aussehen:
# meine robots.txt
User-agent: googlebot
Disallow: /temp/
Disallow: /login.php
User-Agent: *
Disallow: /cache/
Erläuterung:
Die erste Zeile ist ein Kommentar und beeinträchtigt nicht die Funktionalität
In der zweiten Zeile wird ein bestimmter Bot (hier der Google-Bot)
angesprochen. Alle Anweisungen die nun folgen gelten nur für diesen Bot
bis erneut eine User-Agent Anweisung kommt.
Die 3. und 4. Zeile verwiegern dem Google-Bot nun den Zugriff auf das Verzeichnis 'temp' und die Datei 'login.php'
In
Zeile 6 Werden nun alle Bot (durch das '*' Zeichen) angesprochen. Diese
dürfen nicht in das 'cache' Verzeichnis. Man beachte, dass der
Google-Bot trotzdem in das Cache Verzeichnis darf, obwohl alle Bots
angesprochen wurden. Das liegt daran, dass es für den Google-Bot
explizit eine eigene Anweisung gibt.
Hier noch einige Beispiele:
User-Agent: *
Disallow: /
Diese Angaben verbieten alles. Es werden keine Seiten mehr indiziert und gecrawled.
User-Agent: googlebot
Disallow: /login*
Man beachte das '*'-Zeichen. Dieses ist die
einzigste Wildcard die aber auch NUR von Google ausgewertet wird. Somit
darf Google auf keine seiten, die mit login... anfangen.
Bookmarks:
Delicious Facebook Google Yahoo Mr. Wong Linkarena Digg