Skip to main content

ap-Wiki – SEO und Webdesign

< Alle Themen

Crawler

Computerprogramme, die automatisiert das Web nach Dokumenten durchsuchen, werden Crawler genannt und helfen den Suchmaschinen bei der Indexierung aller Online-Inhalte.

Funktionsweise eines Crawlers

Das Internet ist eine riesige Bibliothek und ein digitaler Wissensspeicher, welcher sich ständig erweitert. Crawler helfen deshalb den Suchmaschinen bei der Suche nach Informationen im World-Wide-Web, die dann spezifischen Kategorien zuge­ordnet und danach indexiert werden, damit die gecrawlten Daten jederzeit auswert- und abrufbar sind.

Vor jedem Crawl müssen jedoch alle Arbeitsschritte der Computerprogramme, die auch synonym mit Bot oder Spider bezeichnet werden können, genau definiert werden. In Abhängigkeit von der jeweiligen Aufgabenstellung erhält der Crawler unterschiedliche Informationen aus dem Internet, die zur Datenaufbereitung und Indexerstellung herangezogen werden.

Ein Webcrawler gelangt dabei – wie beim Surfen im Internet – über Hyperlinks von einer Internetadresse zu weiteren Webseiten-URL’s. Alle Webseitenadressen und neu aufgefundenen Hyperlinks werden den bereits bestehenden Datenlisten der Suchmaschinen hinzugefügt und abgespeichert, um ein späteres Durchsuchen der gesammelten Informationen zu ermöglichen.

Einsatzgebiete von Crawlern

Doch Crawler katalogisieren nicht nur Webinformationen, sondern vergleichen Daten und Preise zu bestimmten Produkten im Internet, helfen Webanalysetools bei der Datenauswertung von Webseiten oder sammeln E-Mail- und Postadressen von Unternehmen im Bereich des Data Mining.

Sperrung der Crawler

Manchmal möchte man nicht, dass bestimmte Inhalte einer Webseite von den Crawlern durchsucht werden, dann kann man dies über die robots.txt ausschließen, ohne jedoch dadurch die Indexierung der Inhalte durch die Suchmaschinen zu ver­hindern. Möchte man also ausschließen, dass Webcrawler Webseiteninhalte in den Index aufnehmen, dann sollte der Webmaster einen noindex-Metatag oder Canonical Tag einsetzen.

Probleme beim crawlen des Internets

Problematisch für die Informationserfassung durch Crawler ist nicht nur die ständige Veränderung und Erweiterung der online zur Verfügung stehenden Informationen und Daten, sondern auch zahlreiche Manipulationsmaßnahmen der Webseitenbetreiber. Hinzu kommt, dass Teile des Internets von den Web­crawlern der Suchmaschinen nicht erfasst werden, weil mancher Content nur über zugangsbeschränkte Online-Portale oder Suchmasken im Deep Web aufrufbar ist.

Sogenannte Harvester – eine Sonderform der Webcrawler – durchforsten das Internet nach E-Mail­adressen, um Spam­werbemails zu verschicken. Manche Web­master verlinken deshalb ihre Kontaktadressen auf ihrer Homepage nicht mehr und betten die Kontaktinformationen stattdessen als Grafik ein, um ein Auslesen der Daten aus dem Quellcode der Webseite zu verhindern.

Zwar sind die Text­informationen dann für den Bot nicht mehr auffindbar, allerdings leidet die Usability des Internetangebotes erheblich unter dieser Sicherheits­maß­nahme zum Spamschutz. Einerseits können Webseitenbesucher die Emailadresse nicht mehr einfach durch anklicken in Ihr Emailprogramm über­nehmen und anderer­seits ist dadurch auch die Webseite nicht mehr barrierefrei, so dass beispiels­weise Menschen mit einer Sehbehinderung ausgegrenzt werden.

Kontaktieren Sie unsere Experten

Ein Crawler kann ein hilfreiches Tool zum finden von Dokumenten in den Weiten des Internets sein. Auch können sie zum Preisvergleich oder zum Data Mining, also zum Sammeln von E-Mail- und Postadressen, verwendet werden. Es treten bei der Informations­erfassung durch Crawler jedoch auch zahlreiche Probleme für diese auf. Zu diesen gehören Sperrungen durch Webseitenbetreiber oder zugangs­beschränkter Content. Leider können Crawler aber auch zum Suchen von E-Mail­adressen und versenden von Spam-Mails verwendet werden.

Bei weiteren Fragen zu diesem Thema hilft Ihnen unser Experte im Bereich Webseitenerstellung gerne weiter, ansonsten informieren Sie sich über unsere angebotene Suchmaschinenoptimierung gerne weiter.

Inhaltsverzeichnis