Googlebot

Für die Sammlung und Indexierung von Dokumenten aus dem Internet, die später in der Google-Suche in Ergebnislisten zusammengestellt werden, verwendet Google einen eigenen Crawler: den Googlebot. Ähnlich wie ein Webbrowser sendet der Bot durch ein automatisches Verfahren zahlreiche Anfragen an den Server, von dem er wiederum Antworten erhält. Dabei lädt Googles Computerprogramm die mit einer spezifischen URL versehene Webseite herunter und speichert die erhaltenen Informationen im Index.

Dabei ist der Webcrawler auf keinerlei Interaktion mit einem menschlichen User angewiesen. Riesige Rechenzentren und ein selbstständig arbeitender Algorithmus ermöglichen es dem Bot von Google stattdessen das gesamte Internet und dabei tausende Webseiten gleichzeitig zu crawlen.

 

Crawling durch Google

Das Internet ist bekanntermaßen ein großes Netzwerk aus Webseiten, die über Hyperlinks miteinander verbunden sind. Jede Webadresse ist dabei über eine individuelle URL erreichbar. Verlinkungen auf der Internetpräsenz führen entweder zu anderen, oftmals thematisch relevanten Onlineangeboten oder zu weiterführenden Informationen auf den Unterseiten derselben Webseite.

Damit Google die tägliche Informationsflut im Internet verarbeiten kann, werden einerseits zahlreiche Crawling-Prozesse gleichzeitig durchgeführt und anderseits konzentrieren sich die Computerprogramme des Suchmaschinenanbieters auf voneinander abgrenzbare Themenbereiche.

Es gibt verschiedene Möglichkeiten für Webseitenbetreiber dem Googlebot gezielt Informationen zukommen zu lassen oder einen Zugriff zu verwehren. Dies geschieht meistens über eine Robots.txt-Datei, einen noindex-Metatag oder einen Canonical Tag.

 

Sitemap in der Google Search Console einreichen

Am besten reicht man eine Sitemap mit wichtigen Informationen über die Struktur einer Webseite mithilfe der Google Search Console (ehemals Google Webmaster Tools) ein, um die Indexierung eines Onlineangebotes in die Suchmaschinenergebnislisten zu beschleunigen.

Sobald die Onlineinhalte mehrmals verändert oder aktualisiert werden, kann man in der Google Search Console oder auch mithilfe von SEO-Tools auf der eigenen Webseite die Frequenz festlegen mit der die Crawler eine Internetseite durchsuchen sollen.

 

Gefahr durch  Missbrauch der Bots

Bots können jedoch auch für Gefahr sorgen, indem sie auch zum Sammeln von Emailadressen zu Werbezwecken und für das unerlaubte Kopieren von Onlineinhalten missbraucht werden.