Crawler

Computerprogramme, die automatisiert das Web nach Dokumenten durchsuchen, werden Crawler genannt und helfen den Suchmaschinen bei der Indexierung aller Online-Inhalte.

 

Funktionsweise eines Crawlers

Das Internet ist eine riesige Bibliothek und ein digitaler Wissensspeicher, welcher sich ständig erweitert. Crawler helfen deshalb den Suchmaschinen bei der Suche nach Informationen im World-Wide-Web, die dann spezifischen Kategorien zugeordnet und danach indexiert werden, damit die gecrawlten Daten jederzeit auswert- und abrufbar sind.

Vor jedem Crawl müssen jedoch alle Arbeitsschritte der Computerprogramme, die auch synonym mit Bot oder Spider bezeichnet werden können, genau definiert werden. In Anhängigkeit von der jeweiligen Aufgabenstellung erhält der Crawler unterschiedliche Informationen aus dem Internet, die zur Datenaufbereitung und Indexerstellung herangezogen werden.

Ein Webcrawler gelangt dabei – wie beim Surfen im Internet – über Hyperlinks von einer Internetadresse zu weiteren Webseiten-URLs. Alle Webseitenadressen und neu aufgefundenen Hyperlinks werden den bereits bestehenden Datenlisten der Suchmaschinen hinzugefügt und abgespeichert, um ein späteres Durchsuchen der gesammelten Informationen zu ermöglichen.

 

Einsatzgebiete von Crawlern

Doch Crawler katalogisieren nicht nur Webinformationen, sondern vergleichen Daten und Preise zu bestimmten Produkten im Internet, helfen Webanalysetools bei der Datenauswertung von Webseiten oder sammeln Email- und Postadressen von Unternehmen im Bereich des Data Mining.

 

Sperrung der Crawler

Manchmal möchte man nicht, dass bestimmte Inhalte einer Webseite von den Crawlern durchsucht werden, dann kann man dies über die robots.txt ausschließen, ohne jedoch dadurch die Indexierung der Inhalte durch die Suchmaschinen zu verhindern. Möchte man also ausschließen, dass Webcrawler Webseiteninhalte in den Index aufnehmen, dann sollte der Webmaster einen einen noindex-Metatag oder Canonical Tag einsetzen.

 

Probleme beim crawlen des Internets

Problematisch für die Informationserfassung durch Crawler ist nicht nur die ständige Veränderung und Erweiterung der online zur Verfügung stehenden Informationen und Daten, sondern auch zahlreiche Manipulationsmaßnahmen der Webseitenbetreiber. Hinzu kommt, dass Teile des Internets von den Webcrawlern der Suchmaschinen nicht erfasst werden, weil mancher Content nur über zugangsbeschränkte Online-Portale oder Suchmasken im Deep Web aufrufbar ist.

Sogenannte Harvester – eine Sonderform der Webcrawler – durchforsten das Internet nach Emailadressen, um Spamwerbemails zu verschicken. Manche Webmaster verlinken deshalb ihre Kontaktadressen auf ihrer Homepage nicht mehr und betten die Kontaktinformationen stattdessen als Grafik ein, um ein Auslesen der Daten aus dem Quellcode der Webseite zu verhindern. Zwar sind die Textinformationen dann für den Bot nicht mehr auffindbar, allerdings leidet die Usability des Internetangebotes erheblich unter dieser Sicherheitsmaßnahme zum Spamschutz. Einerseits können Webseitenbesucher die Emailadresse nicht mehr einfach durch anklicken in Ihr Emailprogramm übernehmen und andererseits ist dadurch auch die Webseite nicht mehr barrierefrei, so dass beispielsweise Menschen mit einer Sehbehinderung ausgegrenzt werden.