Googlebot

Für die Sammlung und Indexierung von Dokumenten aus dem Internet, die später in der Google-Suche in Ergebnislisten zusammengestellt werden, verwendet Google einen eigenen Crawler: den Googlebot. Ähnlich wie ein Webbrowser sendet der Bot durch ein automatisches Verfahren zahlreiche Anfragen an den Server, von dem er wiederum Antworten erhält. Dabei lädt Googles Computerprogramm die mit einer spezifischen URL versehene Webseite herunter und speichert die erhaltenen Informationen im Index.

Dabei ist der Webcrawler auf keinerlei Interaktion mit einem menschlichen User angewiesen. Riesige Rechenzentren und ein selbstständig arbeitender Algorithmus ermöglichen es dem Bot von Google stattdessen das gesamte Internet und dabei tausende Webseiten gleichzeitig zu crawlen.

 

Crawling durch Google

Das Internet ist bekanntermaßen ein großes Netzwerk aus Webseiten, die über Hyperlinks miteinander verbunden sind. Jede Webadresse ist dabei über eine individuelle URL erreichbar. Verlinkungen auf der Internetpräsenz führen entweder zu anderen, oftmals thematisch relevanten Onlineangeboten oder zu weiterführenden Informationen auf den Unterseiten derselben Webseite.

Damit Google die tägliche Informationsflut im Internet verarbeiten kann, werden einerseits zahlreiche Crawling-Prozesse gleichzeitig durchgeführt und anderseits konzentrieren sich die Computerprogramme des Suchmaschinenanbieters auf voneinander abgrenzbare Themenbereiche.

Es gibt verschiedene Möglichkeiten für Webseitenbetreiber dem Googlebot gezielt Informationen zukommen zu lassen oder einen Zugriff zu verwehren. Dies geschieht meistens über eine Robots.txt-Datei, einen noindex-Metatag oder einen Canonical Tag.

 

Sitemap bei Google Webmaster Tools einreichen

Am besten reicht man eine Sitemap mit wichtigen Informationen über die Struktur einer Webseite mithilfe der Google Webmaster Tools ein, um die Indexierung eines Onlineangebotes in die Suchmaschinenergebnislisten zu beschleunigen.

Sobald die Onlineinhalte mehrmals verändert oder aktualisiert werden, kann man in den Google Webmaster Tools auch die Frequenz festlegen mit der die Crawler eine Webseite durchsuchen sollen.

 

Gefahr durch  Missbrauch der Bots

Bots können jedoch auch für Gefahr sorgen, indem sie auch zum Sammeln von Emailadressen zu Werbezwecken und für das unerlaubte Kopieren von Onlineinhalten missbraucht werden.