Wie funktioniert eine Suchmaschine?

In diesem Leitfaden werden wir Ihnen eine Einführung in die Funktionsweise von Suchmaschinen geben. Dabei werden die Prozesse des Crawling und der Indexierung sowie Konzepte wie Crawl-Budget und PageRank behandelt.

Suchmaschinen arbeiten, indem sie Hunderte von Milliarden von Seiten mit Hilfe ihrer eigenen Webcrawler crawlen. Diese Webcrawler werden gemeinhin als Suchmaschinen-Bots oder Spider bezeichnet. Eine Suchmaschine navigiert durch das Web, indem sie Webseiten herunterlädt und den Links auf diesen Seiten folgt, um neue Seiten zu entdecken, die verfügbar gemacht wurden.

Der Suchmaschinenindex

Seiten, die von der Suchmaschine entdeckt wurden, werden in eine Datenstruktur aufgenommen, die Index genannt wird.

Der Index enthält alle entdeckten URLs zusammen mit einer Reihe von relevanten Schlüsselsignalen über den Inhalt jeder URL, wie zum Beispiel:

  • Die Schlüsselwörter, die im Inhalt der Seite entdeckt wurden – welche Themen deckt die Seite ab?
  • Die Art des Inhalts, der gecrawlt wird (unter Verwendung von Mikrodaten, genannt Schema) – was ist auf der Seite enthalten?
  • Die Aktualität der Seite – wie kürzlich wurde sie aktualisiert?
  • Das bisherige Nutzerengagement der Seite und/oder der Domain – wie interagieren Menschen mit der Seite?

Was ist das Ziel eines Suchmaschinen-Algorithmus?

Das Ziel des Suchmaschinen-Algorithmus ist es, eine relevante Reihe von qualitativ hochwertigen Suchergebnissen zu präsentieren, die die Anfrage/Frage des Nutzers so schnell wie möglich beantworten.

Der Nutzer wählt dann eine Option aus der Liste der Suchergebnisse aus, und diese Aktion, zusammen mit den nachfolgenden Aktivitäten, fließt dann in zukünftige Erkenntnisse ein, die sich auf die Rangfolge der Suchmaschinen auswirken können.

Was passiert, wenn eine Suche durchgeführt wird?

Wenn ein Nutzer eine Suchanfrage in eine Suchmaschine eingibt, werden alle Seiten, die als relevant erachtet werden, aus dem Index identifiziert, und ein Algorithmus wird verwendet, um die relevanten Seiten hierarchisch in eine Reihe von Ergebnissen einzuordnen.

Die Algorithmen, die verwendet werden, um die relevantesten Ergebnisse einzuordnen, sind für jede Suchmaschine unterschiedlich. So kann eine Seite, die bei Google für eine Suchanfrage einen hohen Rang einnimmt, bei Bing für dieselbe Anfrage einen anderen Rang einnehmen.

Zusätzlich zur Suchanfrage verwenden Suchmaschinen weitere relevante Daten, um Ergebnisse zu liefern, darunter:

  • Standort – Einige Suchanfragen sind ortsabhängig, z. B.
  • Sprache erkannt – Suchmaschinen liefern Ergebnisse in der Sprache des Nutzers, wenn diese erkannt werden kann.
  • Frühere Suchanfragen – Suchmaschinen liefern unterschiedliche Ergebnisse für eine Anfrage, je nachdem, wonach der Nutzer zuvor gesucht hat.
  • Device – A different set of results may be returned based on the device from which the query was made.

Why Might a Page Not be Indexed?

There are a number of circumstances where a URL will not be indexed by a search engine. This may be due to:

  • Robots.txt file exclusions – a file which tells search engines what they shouldn’t visit on your site.
  • Directives on the webpage telling search engines not to index that page (noindex tag) or to index another similar page (canonical tag).
  • Search engine algorithms judging the page to be of low quality, have thin content or contain duplicate content.
  • The URL returning an error page (e.g. a 404 Not Found HTTP response code).

Next: Search Engine Crawling

Author

Sam Marsden

Sam Marsden

Sam Marsden is DeepCrawl’s SEO & Content Manager. Sam spricht regelmäßig auf Marketing-Konferenzen wie SMX und BrightonSEO und schreibt für Branchenpublikationen wie Search Engine Journal und State of Digital.