Crawler


Crawler sind Programme bzw. Bots, die das Internet durchsuchen. Sie hangeln sich völlig automatisiert von Link zu Link und können so einen Großteil des World Wide Web durchforsten. Trotz größtmöglicher Geschwindigkeit benötigt so ein Programm geraume Zeit und Energie, um die vielen Milliarden Webseiten abzusuchen. Die ermittelten Ergebnisse werden in Datenbanken gespeichert. Der Begriff Crawler leitet sich von der ersten Suchmaschine ab, die 1994 unter dem Namen WebCrawler die erste Volltextsuche einführte.

Was sind die Aufgaben der Crawler?

Crawler führen je nach Programmierung und Auftraggeber unterschiedliche Aufgaben durch. Die Crawler der großen Suchmaschinen, allen voran Google, analysieren die textlichen und grafischen Inhalte einer Webseite. Dabei werden einerseits die Texte für die Volltextsuche indexiert. Daneben wird bzw. werden aber auch

  • doppelte bzw. kopierte Inhalte festgestellt
  • Texte auf ihren Informationsgehalt untersucht
  • die Wortverteilung mit thematisch ähnlich gelagerten Seiten verglichen
  • die Verwendung von Keywords analysiert und bewertet
  • die Ladegeschwindigkeit gemessen
  • die Darstellungsfähigkeit auf unterschiedlichen Empfangsgeräten geprüft
  • die Struktur der Webseite nachverfolgt
  • der Aufbau der gesamten Domain und die damit zusammenhängenden Adressen gespeichert

und vieles andere mehr. Google nutzt das Crawling, um den gesamten Wert einer Webseite aufgrund von mehr als 200 Faktoren nach eigenen Maßstäben einzuschätzen und die Webseite dementsprechend in den Suchergebnissen zu platzieren. Für diese verschiedenen Aufgaben werden unterschiedliche Bots eingesetzt und deren Ergebnisse in Korrelation gebracht. Da die Suche viel Energie verbraucht und dadurch Kosten entstehen, bedient man sich fokussierter Vorgehensweisen oder durchsucht kleine und unbekannte Seiten seltener. Dazu werden alle erreichbaren Webseiten z.B. thematisch und nach Größe bzw. Besucherzahlen klassifiziert. Große und bekannte Webseiten wie Wikipedia, Amazon und ähnliche werden dementsprechend öfter gecrawlt.

Nicht offizielle Crawler

Andere Crawler durchforsten das Internet, um Adressen, Mail-Adressen, Telefonnummern und andere Nutzerdaten zu sammeln. Diese werden dann mehr oder weniger legal für geschäftliche Zwecke eingesetzt und erzeugen den sogenannten Spam. Dazu gehören vor allem massenhaft verschickte Werbemails. Wiederum andere Bots sind auf der Suche nach Angeboten geschäftlicher Art, um diese den Nutzern gesammelt anzubieten und dabei selbst bezahlte Werbung zu präsentieren. Durch die Vielzahl der Crawler im Web schätzt man, dass sie mehr als ein Drittel des gesamten Datenverkehrs im Internet ausmachen.

Neben den offiziell veröffentlichten Webseiten im World Wide Web existieren viele Inhalte, die nicht über URLs erreichbar sind, sondern z.B. über zugangsgeschützte Portale erreicht werden. Dieser auch Deep Web genannte Teil des Internets beherbergt unter anderem viele illegale Inhalte, die nicht von Suchmaschinen mit einem Crawler gefunden werden sollen.

Steuerung der Crawler durch den Webmaster

Für geschäftlich genutzte Webseiten ist es also von Interesse, bei einem Crawler wie von Google “einen guten Eindruck” zu hinterlassen, um möglichst weit vorne in den Suchergebnissen präsentiert zu werden. Dazu kommt ein weiterer Faktor: Für jede Webseite steht ein gewisses Crawler-Budget zur Verfügung. Das sind zwar auf die einzelnen Seiten bezogen winzigste Zahlen, jedoch erreichen diese Beträge in Summe eine enorme Höhe. Daher werden diese Budgets peinlich genau berechnet.

Ein Webmaster wird es also neben dem guten Eindruck einem Crawler möglichst leicht machen, die Webseite zu durchsuchen, damit sie so tief und oft gecrawlt wird wie möglich. Der Webmaster kann den Crawler in gewisser Weise steuern, indem er ihm Anweisungen gibt. Diese werden in der Regel von seriösen Crawlern befolgt. Dazu gehören Anweisungen bestimmte Teile der Webseite nicht zu durchsuchen oder nicht zu indizieren. Damit lässt sich z.B. eine Entwicklungsumgebung ausklammern, wenn man auf dem Server an einem Update der Seite arbeitet, die im Verhältnis zu aktiven Webseite doppelte Inhalte enthält.

Ähnlich verhält es sich mit Backups oder Archiven und anderen Altlasten, die noch gespeichert sind. Dazu wird im Robots.txt auf der Webseite der Crawler benannt, also z.B. Googlebot und mit dem Begriff “disallow” ein Ausschluss der Suche oder der Indexierung angeordent. Eine weitere Möglichkeit besteht in den sogenannten Meta Tags einer Seite, die in den Kopfzeilen des HTML Codes als “nofollow” oder “noindex” die gleichen Befehle erteilen.

Über den Beitrag


Sie lesen gerade


Unsere Leistungen


Sie haben Fragen?

Stichwörter zum Thema
Crawler