Crawler

Computerprogramme, die automatisiert das Web nach Dokumenten durchsuchen, werden Crawler genannt und helfen den Suchmaschinen bei der Indexierung aller Online-Inhalte.

Funktionsweise eines Crawlers

Das Internet ist eine riesige Bibliothek und ein digitaler Wissensspeicher, welcher sich ständig erweitert. Crawler helfen deshalb den Suchmaschinen bei der Suche nach Informationen im World-Wide-Web, die dann spezifischen Kategorien zugeordnet und danach indexiert werden, damit die gecrawlten Daten jederzeit auswert- und abrufbar sind.

Vor jedem Crawl müssen jedoch alle Arbeitsschritte der Computerprogramme, die auch synonym mit Bot oder Spider bezeichnet werden können, genau definiert werden. In Abhängigkeit von der jeweiligen Aufgabenstellung erhält der Crawler unterschiedliche Informationen aus dem Internet, die zur Datenaufbereitung und Indexerstellung herangezogen werden.

Ein Webcrawler gelangt dabei – wie beim Surfen im Internet – über Hyperlinks von einer Internetadresse zu weiteren Webseiten-URL’s. Alle Webseitenadressen und neu aufgefundenen Hyperlinks werden den bereits bestehenden Datenlisten der Suchmaschinen hinzugefügt und abgespeichert, um ein späteres Durchsuchen der gesammelten Informationen zu ermöglichen.

Einsatzgebiete von Crawlern

Doch Crawler katalogisieren nicht nur Webinformationen, sondern vergleichen Daten und Preise zu bestimmten Produkten im Internet, helfen Webanalysetools bei der Datenauswertung von Webseiten oder sammeln Email- und Postadressen von Unternehmen im Bereich des Data Mining.

Sperrung der Crawler

Manchmal möchte man nicht, dass bestimmte Inhalte einer Webseite von den Crawlern durchsucht werden, dann kann man dies über die robots.txt ausschließen, ohne jedoch dadurch die Indexierung der Inhalte durch die Suchmaschinen zu verhindern. Möchte man also ausschließen, dass Webcrawler Webseiteninhalte in den Index aufnehmen, dann sollte der Webmaster einen noindex-Metatag oder Canonical Tag einsetzen.

Probleme beim crawlen des Internets

Problematisch für die Informationserfassung durch Crawler ist nicht nur die ständige Veränderung und Erweiterung der online zur Verfügung stehenden Informationen und Daten, sondern auch zahlreiche Manipulationsmaßnahmen der Webseitenbetreiber. Hinzu kommt, dass Teile des Internets von den Webcrawlern der Suchmaschinen nicht erfasst werden, weil mancher Content nur über zugangsbeschränkte Online-Portale oder Suchmasken im Deep Web aufrufbar ist.

Sogenannte Harvester – eine Sonderform der Webcrawler – durchforsten das Internet nach Emailadressen, um Spamwerbemails zu verschicken. Manche Webmaster verlinken deshalb ihre Kontaktadressen auf ihrer Homepage nicht mehr und betten die Kontaktinformationen stattdessen als Grafik ein, um ein Auslesen der Daten aus dem Quellcode der Webseite zu verhindern. Zwar sind die Textinformationen dann für den Bot nicht mehr auffindbar, allerdings leidet die Usability des Internetangebotes erheblich unter dieser Sicherheitsmaßnahme zum Spamschutz. Einerseits können Webseitenbesucher die Emailadresse nicht mehr einfach durch anklicken in Ihr Emailprogramm übernehmen und andererseits ist dadurch auch die Webseite nicht mehr barrierefrei, so dass beispielsweise Menschen mit einer Sehbehinderung ausgegrenzt werden.

 

Kontaktieren Sie unsere Experten

Ein Crawler kann ein hilfreiches Tool zum finden von Dokumenten in den Weiten des Internets sein. Auch können sie zum Preisvergleich oder zum Data Mining, also zum Sammeln von Email- und Postadressen, verwendet werden. Es treten bei der Informationserfassung durch Crawler jedoch auch zahlreiche Probleme für diese auf. Zu diesen gehören Sperrungen durch Webseitenbetreiber oder zugansbeschränkter Content. Leider können Crawler aber auch zum Suchen von Email-Adressen und versenden von Spam-Mails verwendet werden.

Bei weiteren Fragen zu diesem Thema helfen Ihnen unsere Experten in den Bereichen Webdesign und Suchmaschinenoptimierung gerne weiter.

Hier erfahren Sie mehr über unsere Referenzen zum Thema Webdesign und SEO.