Je nach Schätzung schwankt die Anzahl der im Internet veröffentlichten Webseiten zwischen 1,2 und fast 2 Milliarden. Jeden Tag kommen weltweit mehrere Tausend neue Webseiten hinzu. Die Besitzer dieser Webseiten hoffen, dass ihre Seite in den Suchergebnissen der großen Suchmaschinen möglichst vielen Internetnutzern finden. Damit eine Webseite von Suchmaschinennutzern gefunden werden kann, muss man sie zunächst von einem Webcrawler finden lassen, sie analysiert und in den Index der Suchmaschine aufnehmen.
Inhalt
Was ist ein Webcrawler?
Ein Webcrawler ist ein Softwareprogramm, das selbstständig das Internet durchsucht und analysiert, welche Informationen öffentlich zugängliche Webseiten enthalten. Das Ziel eines solchen Crawlers ist es, zu lernen, worum es bei einer Webseite geht, damit die Informationen bei Bedarf abgerufen werden können. Zum überwiegenden Teil werden Webcrawler von Suchmaschinen eingesetzt. Die von den Crawlern gesammelten Informationen werden von den Suchmaschinen indexiert und verwendet, um Anfragen von Suchmaschinennutzern zu beantworten, indem sie die zur Suchanfrage passenden Webseiten in den Suchergebnissen anzuzeigen. Andere häufig verwendete Bezeichnungen für Webcrawler sind Spider, Searchbot oder Robot.
1993 entwickelte man den ersten Webcrawler. Der Software-Ingenieur Matthew Gray am Massachusetts Institute of Technology (MIT) ist dafür verantwortlich. Der „World Wide Web Wanderer“ oder kurz „Wanderer“ genannte Crawler basierte auf der Programmiersprache Perl. Er wurde ab Juni 1993 zum Messen der Größe des World Wide Web eingesetzt und war bis Ende 1995 aktiv. Mithilfe des Wanderers ließ sich ein erster Index des WWW generieren, der man später als Wandex bezeichnete. 1994 folgte die „Webcrawler“ genannte erste öffentlich nutzbare und auf einem Vollindex basierende Suchmaschine. In den Folgejahren wuchs die Zahl der Suchmaschinen sehr schnell, sodass mittlerweile eine ganze Reihe von Crawlern mit unterschiedlichen Aufgaben im Web aktiv sind.
Wie funktioniert ein Webcrawler?
Einen Webcrawler kann man in etwa mit einem Bibliothekar vergleichen, der alle Bücher in einer ungeordneten Bibliothek durchsucht. Anschließend erstellt er ein Verzeichnis der Bücher. Um die Bücher der Bibliothek nach
Themen zu kategorisieren und zu sortieren, liest er Titel, Zusammenfassung und einen Textabschnitt. So ist klar, worum es geht. Das Verzeichnis erleichtert Benutzern der Bibliothek – analog zum Index einer Suchmaschine – das Auffinden bestimmter Bücher zu bestimmten Themen.
Im Gegensatz zu einer Bibliothek ändert sich das Internet jedoch ständig. Die Zahl der öffentlich zugänglichen Webseiten wächst schnell und kontinuierlich. Da nicht genau bekannt ist, wie viele Webseiten sich insgesamt im Internet befinden, gehen Searchbots von einem Startwert oder einer Liste bekannter URLs aus. Sie crawlen zuerst die Webseiten unter diesen URLs. Während sie diese Webseiten crawlen, finden sie Hyperlinks zu anderen URLs und fügen diese zur Liste der Seiten hinzu, die als nächstes gecrawlt werden sollen. Lesen Sie hier alles zu Hyperlinks.
Welche Entscheidungen treffen Webcrawler?
Die meisten Webcrawler durchsuchen nicht das gesamte öffentlich verfügbare Internet. Schätzungen gehen davon aus, dass man tatsächlich nur zwischen 30 und 70 % aller öffentlich zugänglichen Webseiten jemals indizieren kann. Crawler entscheiden basierend auf der Anzahl der anderen Pages, die auf eine Seite verlinken, der Anzahl der Besucher, die eine Seite erhält und anderen Faktoren, die darauf schließen lassen, dass eine Seite wichtige Informationen enthält, welche Seiten man zuerst crawlt.
Ein Webcrawler befolgt dabei bestimmte Vorgaben und selektiert, in welcher Reihenfolge man die Seiten crawlt und wie oft sie erneut gecrawlt werden, um nach Inhaltsaktualisierungen zu suchen. Jede Webseite erhält dazu ein sogenanntes Crawl-Budget zugewiesen. Das Crawl-Budget bestimmt, wie viel Zeit und Ressourcen der Spider für die Analyse einer Website verwenden darf. Je populärer eine Webseite ist und je häufiger man sie besucht, umso höher ist in der Regel das Crawl-Budget.
Verarbeitung der von einem Crawler gesammelten Daten
Durch Anwenden eines Suchalgorithmus auf die von Webcrawlern erfassten Daten können Suchmaschinen
relevante Webseiten als Antwort auf Suchanfragen von Benutzern bereitstellen, wenn ein Benutzer eine Suche in Google, Bing oder einer anderen Suchmaschine eingegeben hat. Der mithilfe der gesammelten Daten erstellte Index ist dabei der wichtigste Bezugspunkt für die Websuche. Anhand der gesammelten Daten kann man beispielsweise den Wert bestimmen, den verschiedene Keywords haben. Die von den Suchmaschinen programmierten Algorithmen messen unter anderem die Häufigkeit verschiedener Schlüsselwörter und anderer Faktoren. Sie analysieren, welche Faktoren miteinander in Beziehung stehen.
Der Index einer Suchmaschine wie Google enthält nicht nur die URLs der Webseiten, die vom Webcrawler analysiert wurden. Darüber hinaus sind weitere Inhalte, beispielsweise Texte, Bilder und Videos, im Index gespeichert. Anhand dieser Informationen versuchen Suchmaschinen zu verstehen, welche Inhalte welcher Webseite am besten mit der sogenannten Benutzerabsicht übereinstimmen, wenn ein Suchmaschinennutzer eine Suchanfrage eingibt. Die Inhaltsbewertung ist die Grundlage für die Berechnung des Rankings einer Webseite in den organischen Suchergebnissen (SERPs).
Arten und Aufgaben der Webcrawler
Die ursprüngliche Aufgabe eines Webcrawlers ist die Indexierung von Webseiten für die Anzeige in Suchmaschinen. Die bekanntesten Crawler dieser Art sind der Googlebot von Google, der Bingbot der Microsoft Suchmaschine Bing und der Slurpgenannte Crawler von Yahoo!. Neben diesen allgemeinen Webcrawlern setzt man sogenannte fokussierte Crawler zum Sammeln bestimmter Daten ein. Beispiele sind Searchbots, die für das Sammeln von Nachrichten, Preisen und Produktdaten oder von statistischen Daten Verwendung finden.
Eine Sonderform sind sogenannte E-Mail Spyder oder Harvester („Erntemaschinen“), die das Web nach E-Mail- oder Postadressen durchsuchen, die man für Marketingzwecke verwendet. Die Verwendung der von diesen Crawlern gesammelten Daten bewegt sich oft in einer rechtlichen Grauzone, da die Nutzung von E-Mail Adressen für Werbezwecke ohne die Zustimmung des Adressaten zum Erhalt von Werbemails nicht zulässig ist.
Wieso Crawler so wichtig für eine Homepage sind
Bevor man eine Webseite in den Suchergebnissen bei Google, Bing & Co finden lässt, muss sie von einem Webcrawler analysiert und in den Index der Suchmaschinen aufgenommen werden. Searchbots verknüpfen wichtige Schlüsselbegriffe mit der URL einer Webseite. Damit der Webcrawler die Keywords finden kann, für die eine Webseite in den Suchergebnissen angezeigt werden soll, muss die Webseite entsprechend gestaltet sein. Wichtig sind hierbei insbesondere die Metadaten, durch die der Crawler wichtige Informationen über die Webseite erhält. Nicht weniger wichtig ist eine optimale interne Verlinkung der Webseite. Durch die interne Verlinkung gelangt der Webcrawler auf Unterseiten und kann diese indexieren. Nicht zuletzt hilft eine klare Struktur nicht nur Crawlern, sondern auch menschlichen Besuchern, sich auf der Webseite zurechtzufinden.