Im Blog werden neben den einzelnen Beiträgen ganze Scharen von weiteren Seiten erzeugt, die ein Problem für Besucher und Suchmaschinen sein können. Duplicate Content Seiten sind ein Problem im Blog Serendipity. So gibt es eine ganze Reihe von Archiv-Seiten, Seiten mit Zeitstempeln, getaggte Seiten und Kategorie-Seiten. Die Frage ist: welche Seiten sind für den Besucher relevant genug, um auch in dem Suchindex einer Suchmaschine zu stehen?
Bei genauerer Betrachtung sind es für mich 3 Seitentypen, die wichtig sind:
- einzelne Blogbeiträge
- die Blog Startseite
- die Kategorieseiten
Damit eine Suchmaschine auch in die Tiefen des Blogs gelangen kann, gibt es nur wenige Möglichkeiten für den Webmaster, dies zuzulassen. Duplicate Content kann vermieden werden in dem man Seiten vor dem Indexieren einer Suchmaschine sperrt. Das Sperren mittels robots.txt wäre der falsche Weg, da dadurch die Seiten gar nicht berücksichtigt werden und Links darin nicht gefolgt werden. Erst duch das Setzen einer Metaangabe [1] auf jeder einzelnen Seite lässt sich filigran steuern, welche Seiten vom Spider gefolgt werden und welche auch in den Index dürfen:
Folgende Kombinationen sind sinnvoll:
- Für Seiten, die in den Index sollen:
<meta name="robots" content="index,follow" /> - Für Seiten, die nicht in den Index sollen, aber deren Links weiterverfolgt werden sollen:
<meta name="robots" content="noindex,follow,noarchive" />
Diese Metaangaben gehören wie üblich in den <head>-Abschnitt einer Website.
Im Idealfall wird in Serendipity die index.tpl-Template Datei erweitert, um Duplicate Content zu vermeiden:
{if ($view == "entry" || $view == 'start' || $view == 'categories')}
<meta name="robots" content="index,follow" />
{else}
<meta name="robots" content="noindex,follow,noarchive" />
{/if}
Es wird dabei der $view abgefragt. Es handelt sich hierbei um eine Smarty-Variable [1], die auch weitere Werte annehmen kann. Das heißt, wenn man auch andere Seiten zulassen möchte, kann man dies in der if-Bedingung entsprechend erweitern.
$view [string - available for 1.0-beta3 and above]
Indicates
the current "view" on the frontend. One of: "archives, entry, feed,
admin, archive, plugin, categories, authors, search, css, start, 404"
Scope: *.tpl
Nach dem Hochladen des neuen Templates sollte sich das Duplicate Content Problem in Serendipity gelöst haben. Sicher ist noch etwas Zeit nötig, damit die Suchmaschine den Index neu aufgebaut hat. Da kann durchaus schon mal ein halbes bis ein ganzes Jahr ins Land gehen.
Durch Techniken in den Webmaster-Tools der Suchmaschinen lassen sich weitere Vorgänge steuern, z.B. welche Seiten aus dem Index zu entfernen sind. Dadurch können solche Vorgänge noch gezielter und schneller Erfolg haben.
[1] Meta-Angaben Noindex, Nofollow
[2] Smarty-Variablen in Serendipity
Bookmarks:
Delicious Facebook Google Yahoo Mr. Wong Linkarena Digg