Hilfe für Googlebot & Co.
Die Crawler der Suchmaschinen sind über jede Hilfe dankbar, die ihnen die Webmaster zukommen lassen. Um dafür zu sorgen, dass möglichst viele Seiten indiziert werden, sind bereits in der Website Planungsphase wichtige Entscheidungen zu treffen.
Anzeige:
Vermeiden Sie "Spider Traps". Die Technik der Suchmaschinen Crawler, basiert auf dem Verfolgen von verlinkten Texten oder Bildern aus dem HTML Code. Für normale Benutzer existieren darüber hinaus noch viele andere Möglichkeiten, um von einer Seite A auf eine Seite B zu gelangen. Eine Weiterleitung kann über Javascript realisiert oder durch das Abschicken eines Formulars hervorgerufen werden. Diese beiden Techniken können schnell zu sogenannten Spider Traps werden. Das sind Stellen, an denen der Suchmaschinen Crawler nicht mehr weiterkommt. Wer Javascript oder Formulare einsetzt, sollte alternative Zugangsmöglichkeiten über Links bereitstellen. Das Gleiche kann man analog zur Verwendung von sogenannten Popups sagen, da diese meistens auch via Javascript geöffnet werden. Zusammenfassend kann man sagen, dass die Gefahr eines Spider Trap gross ist, wenn Javascript im Spiel ist.
Zu einem Blocker können auch Bereiche werden, die eine Anmeldung des Nutzers erfordern oder eine installierte Software wie Flash voraussetzen. Kein Suchmaschinen Spider der Welt kann sich selbstständig bei einer Webseite registrieren und anmelden, um in geschützte Bereiche vorzudringen. Diese Bereiche bleiben dem Suchmaschinen Index für immer vorenthalten. Das Gleiche gilt für Flash-Webseiten oder Java Applets. Suchmaschinen lieben Text. Alles was nicht direkt im HTML Quellcode steht, wird gnadenlos ignoriert. Davon ausgenommen sind PDF oder Word Dokumente, die inzwischen ebenfalls indiziert werden.
Sehr viel Schaden kann auch durch eine falsche "robots.txt" Datei verursacht werden. In der robots.txt Datei können gezielt einzelne Dateien oder ganze Unterverzeichnisse einer Webseite für Suchmaschinen ausgeschlossen werden. Seiten, die über die robots.txt im Wurzelverzeichnis der Webanwendung ausgeschlossen wurden, werden durch einen Suchmaschinen Crawler wie googlebot, nicht mehr besucht. In der Datei gibt es zwei wichtige Anweisungen. Die Anweisung "User-agent:" gefolgt vom Namen eines Suchmaschinen-Crawlers oder einem Wildcard Symbol, definiert für welche Spider die robots.txt Datei Gültigkeit besitzt. Durch die Anweisung "Disallow:" gefolgt von einer Pfad- oder Dateiangabe legt fest, welche Bereiche der Webseite nicht besucht werden dürfen. Der Befehl "User-agent: *" bzw. "Disallow: /" würde beispielsweise eine komplette Webseite ausschliessen. Änderungen an der robots.txt sind deshalb mit einer gewissen Vorsicht durchzuführen.
Zu beachten ist ausserdem, dass das Ausschliessen in der robots.txt Datei keineswegs bedeutet, dass eine Seite nicht mehr im Suchmaschinen-Index erscheint. Der Ausschluss sorgt lediglich dafür, dass der Crawler die Seite(n) meidet. Diese tauchen bei externer Verlinkung, trotzdem als reiner Textlink ohne Titel und Textschnipsel auf. Werden auf diese Art und Weise überdurchschnittlich viele Seiten ausgeschlossen, die dann aber trotzdem in den Index gelangen, muss damit gerechnet werden, dass eine Bestrafung durch den Suchmaschinenbetreiber erfolgt. Sauber ist es, den Auschluss in der robots.txt vorzunehmen und gleichzeitig das Meta-Robots Tag im HTML Quellcode auf "noindex" zu setzen.
Eine sehr wichtige Technik, um dem Suchmaschinen Crawler den Zugang zu tieferen Ebenen der Webseite zu ermöglichen, ist das sogenannte "URL-Rewriting". Fast jeder bekannte Webserver unterstützt diese Technik bereits, zum Beispiel durch die Erweiterung "Mod-Rewrite" im Apache oder unter ASP2.0 URL-Rewrite für Microsofts IIS Webserver. Beim URL-Rewrite werden dynamische URL-Adressen in suchmaschinenfreundliche URL umgeschrieben. Der Webserver erkennt die geänderten URL Anfragen und leitet diese intern auf die richtige (dynamische) URL weiter.
Als dynamische URL bezeichnet man Anfragen auf Webseiten, die sich nicht in einer fest gespeicherten Datei auf der Festplatte des Servers befinden. Die dynamischen URL Adressen werden meistens mit mehreren Parametern aufgerufen. Das Aussehen und der Inhalt der Seite werden durch verschiedene Werte dieser Parameter bestimmt. Im Zusammenhang mit Suchmaschinen Crawlern, bringt das jedoch mehrere Probleme mit sich.
Zunächst einmal werden dynamische URL Adressen sehr gerne von Suchmaschinen ausgelassen, solange die Webseite nicht über eine sehr hohe Linkpopularität verfügt. Werden in der dynamischen URL mehr als zwei Parameter verwendet, kann man eigentlich schon davon ausgehen, dass die Zielseite nicht im Suchmaschinen Index aufgenommen wird. Durch das Umschreiben in eine suchmaschinenfreundliche URL mittels URL-Rewriting, kann dieser Nachteil beseitigt werden. In der Vergangenheit hat es sich auch als positiv erwiesen, wenn Suchbegriffe in der URL Adresse, also zum Beispiel im Dateinamen, vorhanden waren. Auch das kann durch URL-Rewrite erreicht werden. Google sieht das zwar nicht mehr so stark als Bonus, wie noch vor einigen Jahren, bei anderen Suchmaschinen kann man dadurch allerdings durchaus noch Vorteile erlangen.
Wie die richtige Verlinkung, spielen Gedanken zum "URL Design" in der Planungsphase einer Webseite also eine entscheidende Rolle. Wann ist einen URL suchmaschinentauglich? Offensichtlich ist die Adresse einer Seite gut wenn
- Webseite indizieren lassen
- Hilfe für Googlebot & Co.
- Allgemeine Regeln
- Inhalte optimieren