Inhaltsverzeichnis

Was ist ein Crawler?

Im Jahre 1994 ging der Webcrawler im World Wide Web mit einem Datenbanksystem von 4000 unterschiedlichen Webseiten online. Noch im gleichen Jahr verzeichnete die Metasuchmaschine ihre 1.000.000ste Suchanfrage. Suchmaschinen, wie Google, Bing und Yahoo nutzen diese. Laut Google gehen weltweit täglich 3,5 Milliarden Suchanfragen ein. 15 Prozent davon sind erstmalige Suchanfragen, woraus sich ein Volumen von 525 Millionen täglich neuen Suchanfragen ergibt, die die Suchmaschine Google verarbeiten muss. In diesem Artikel erkläre ich dir was Webcrawler genau sind und warum Suchmaschinen sie einsetzen und welchen Nutzen sie für die Webmaster haben.

Täglich 3,5 Milliarden neue Google Suchanfragen – 15% davon sind erstmalige Suchanfragen

Was versteht man unter Crawler?

Unter Crawler (auch Webcrawler, Bots, Spider, Robot, Searchrobot genannt) versteht man ein Computerprogramm, welches von Suchmaschinen, wie Google, verwendet wird, um das Internet zu durchforsten. Dabei werden von dem Crawler automatisch Dokumente durchsucht und Webseiten analysiert und indexiert. Die gesammelten Informationen werden in der Datenbank abgelegt.

Welche Funktion hat der Crawler?

web crawler
BU: Diese Grafik zeigt schrittweise das genaue Vorgehen eines Crawlers. 

Ein Crawler ist wie ein Archiv, dass die gefundenen Informationen in Kategorien einteilt und indiziert. Dies gibt Google die Möglichkeit, schnell auf die genauen Suchanfragen der User zu antworten. Ein Crawler besteht aus einem Code von Skripten und Algorithmen, der nicht eigenständig handelt. Die Befehle und Aufgaben, die der Crawler von einem Computerprogramm erhält, führt er automatisch und kontinuierlich aus. Diese müssen aber im Vorfeld klar definiert werden.

web crawler
Die Crawler sind zu 40% für den gesamten Online-Traffic weltweit verantwortlich. Zu den größten Bots zählen der Crawler GoogleBot und Bingbot von Mircosoft.

Die Hauptaufgabe eines Crawlers ist es, sich durch das Internet über Links (auch Hyperlinks genannt) von bereits indexierten Webseiten zu bewegen und die URLs abzuspeichern. Der Weg, den der Crawler durch das World Wide Web bewältigt, ist vergleichbar mit einem Spinnennetz. Crawler sind für die Suchmaschinen elementar wichtig, damit die Inhalte im Netz gefunden und indexiert werden können.

Sind die Inhalte indexiert, werden diese auf den Suchergebnisseiten der Suchmaschine angezeigt. Der Index ist abhängig vom jeweiligen Algorithmus. Der Google-Algorithmus beispielsweise entscheidet, in welcher Anordnung die Suchergebnisse für bestimmte Suchanfragen dargestellt werden.

YouTube

Mit dem Laden des Videos akzeptieren Sie die Datenschutzerklärung von YouTube.
Mehr erfahren

Video laden

Video: In diesem Video erfährst du, wie das Crawling genau funktioniert.

Beispiel Google Crawler

web crawler
Der Screenshot zeigt u.a., wie viele Seiten der Google Crawler täglich crawlt, bzw. wann er zuletzt da war.

Um die Indexierung einer Seite zu beschleunigen kann die Google Search Console verwendet werden. Checke mithilfe des URL-Prüftool, ob deine Seite bereits indexiert wurde.

Welche Formen des Crawlers gibt es?

SuchmaschinenDie Webcrawler durchsuchen das Internet durchsuchen und indexieren Dokumente und Webseiten
Focused CrawlerDie Focused Crawler fokussieren sich z.B. bei der Indexierung auf themenrelevante Webseiten
PreisvergleichsportaleDie Webcrawler durchsuchen das Internet nach bestimmten Angeboten bzw. Produkten
Data MiningDie Webcrawler sammeln öffentlich zugängliche Adressen und Kontaktdaten, wie E-Mail-Adressen von Unternehmen
Webanalyse-ToolsDie Webcrawler analysieren Webseiten, um Daten über Seitenaufrufe und ein- und ausgehenden Links zu sammeln
website web crawler
Die Robots.txt-Datei ist elementar wichtig für die Crawler. Diese gibt an, welche Seiten von den Crawlern ausgelesen werden dürfen. Damit die robots.txt-Datei von den Crawlern erkannt wird,  sollte diese ausschließlich Kleinbuchstaben enthalten. Die Datei ist in der Regel im Hauptverzeichnis der Seite zu finden. Sollte dort allerdings keine vorhanden sein, wandern die Crawler einfach weiter. 

Was ist der Unterschied zwischen Crawler und Scraper?

Das Ziel des Scrapers ist es, Content von anderen Webseiten zu sammeln und diesen auf anderen Webseiten in abgeänderter Form zu platzieren. Das Scraping ist den Black Hat Methoden zuzuordnen. Diese ist allerdings eher unerwünscht bei Google. Im Gegensatz zum Crawler, für den die Metadaten wichtig sind, zielt der Scraper auf eindeutige Inhalte ab.

website web crawler
Die sogenannten Teergruben beeinflussen die Arbeit der Crawler immens. Sie zielen darauf ab die Bad Bots aufzuhalten. Dabei ist die Antwortzeit bei den Teergruben recht hoch und die Informationsübertragung an den Crawler erfolgt nur sehr langsam.  

Den Crawler blockieren bzw. sperren – Wie geht das?

Als Webseiten-Betreiber ist es möglich, bestimmte Crawler auf der eigenen Webseite zu blockieren. Mithilfe der robots.txt-Datei kann dies verhindert werden. Allerdings ist die Indexierung bestimmter Inhalte durch Suchmaschinen nicht komplett ausgeschlossen. Dies passiert erst dann, wenn der Noindex-Tag oder Canonical-Tag im <head>-Bereich eingefügt wird.


HTML-Code für noindex

Beispiel für den GoogleBot

<meta name=”robots” content=”nofollow”><meta name=”googlebot” content=”noindex”>


YouTube

Mit dem Laden des Videos akzeptieren Sie die Datenschutzerklärung von YouTube.
Mehr erfahren

Video laden

Video: In diesem Video zeige ich dir, woran du erkennst, dass ein Bot gesperrt ist und die Inhalte nicht indexiert sind.

Bots unterteilen sich in Good Bot und Bad Bot. Wenn du wissen willst, welche das genau sind, dann schaue hier vorbei.

Fazit zum Crawler

Für viele Webmaster ist die Steigerung der Besucheranzahl und die Steigerung des Bekanntheitsgrades das primäre Ziel. Daher empfiehlt es sich die Webseite zu indexieren, wenn diese in den Suchergebnissen auf den vorderen Plätzen erscheinen soll. Dafür muss das Crawling der Webseite erlaubt sein. Sind die Crawler gesperrt, wird die Webseite auch nicht in den SERPs angezeigt. Daher ist es sinnvoll, dass die Webseite regelmäßig gecrawlt wird.

Wichtig zu wissen ist, dass je flacher und logischer die URL-Struktur ist, diese womöglich auch einfacher gecrawlt wird. Zudem kann eine häufige Verlinkung einer Webseite dazu führen, dass diese öfter und länger gecrawlt wird. Entscheidend für eine hohe Crawling-Frequenz ist eine hohe Backlinkanzahl und eine strukturierte und überschaubare interne Verlinkung.

Gesina Kunkel
Die Leidenschaft fürs Online Marketing habe ich 2017 während meiner Zeit als Regisseurin entdeckt. Wenige Jahre später habe ich mich dem Online Marketing voll und ganz hingegeben. Die Suchmaschine Google befindet sich im stetigen Wandel mit dem Ziel die Nutzer bestmöglich zu verstehen. Das hat zur Folge, dass Suchmaschinenoptimierung deutlich anspruchsvoller und technisch komplexer wird. Um weiterhin unsere Kunden erstklassige zu betreuen und mit ihnen zu arbeiten, bilde ich mich stetig weiter, gebe regelmäßig Vorträge zu Themen wie Content Distribution auf internationalen Fachkonferenzen und trete als Autorin im MEGA-Magazin in Erscheinung. Privat halte ich mich mental wie körperlich fit, mache Ausdauer- und Krafttraining, höre klassische Musik und habe eine Vorliebe für gutes veganes Essen.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert