Jak fungují vyhledávače?

V tomto průvodci vás seznámíme s tím, jak fungují vyhledávače. Budeme se věnovat procesům procházení a indexování a také pojmům, jako je rozpočet procházení a PageRank.

Vyhledávače fungují tak, že procházejí stovky miliard stránek pomocí vlastních webových crawlerů. Tyto webové crawlery se běžně označují jako boti nebo pavouci vyhledávačů. Vyhledávač prochází web tak, že stahuje webové stránky a sleduje odkazy na těchto stránkách, aby objevil nové stránky, které byly zpřístupněny.

Index vyhledávače

Webové stránky, které vyhledávač objevil, jsou přidávány do datové struktury zvané index.

Index obsahuje všechny objevené adresy URL spolu s řadou relevantních klíčových signálů o obsahu každé adresy URL, jako jsou:

  • Klíčová slova objevená v obsahu stránky – jakých témat se stránka týká?
  • Typ procházeného obsahu (pomocí mikrodat zvaných Schema) – co stránka obsahuje?
  • Čerstvost stránky – jak nedávno byla aktualizována?
  • Předchozí zapojení uživatelů stránky a/nebo domény – jak lidé se stránkou pracují?

Co je cílem algoritmu vyhledávače?

Cílem algoritmu vyhledávače je předložit relevantní sadu vysoce kvalitních výsledků vyhledávání, které co nejrychleji splní dotaz/otázku uživatele.

Uživatel pak vybere možnost ze seznamu výsledků vyhledávání a tato akce spolu s následnou aktivitou se pak promítne do budoucích poznatků, které mohou ovlivnit hodnocení vyhledávače do budoucna.

Co se děje při vyhledávání?

Když uživatel zadá do vyhledávače dotaz, jsou z indexu identifikovány všechny stránky, které jsou považovány za relevantní, a pomocí algoritmu jsou relevantní stránky hierarchicky seřazeny do sady výsledků.

Algoritmy používané k seřazení nejrelevantnějších výsledků se u jednotlivých vyhledávačů liší. Například stránka, která se na vyhledávací dotaz v Googlu umístí vysoko, se na stejný dotaz v Bingu nemusí umístit vysoko.

Kromě vyhledávacího dotazu používají vyhledávače k vrácení výsledků další relevantní údaje, mezi které patří:

  • Poloha – některé vyhledávací dotazy jsou závislé na poloze, např. ‚kavárny v mé blízkosti‘ nebo ‚časy filmů‘.
  • Zjištěný jazyk – Vyhledávače vrátí výsledky v jazyce uživatele, pokud jej lze zjistit.
  • Historie předchozího vyhledávání – Vyhledávače vrátí různé výsledky dotazu v závislosti na tom, co uživatel dříve hledal.
  • Device – A different set of results may be returned based on the device from which the query was made.

Why Might a Page Not be Indexed?

There are a number of circumstances where a URL will not be indexed by a search engine. This may be due to:

  • Robots.txt file exclusions – a file which tells search engines what they shouldn’t visit on your site.
  • Directives on the webpage telling search engines not to index that page (noindex tag) or to index another similar page (canonical tag).
  • Search engine algorithms judging the page to be of low quality, have thin content or contain duplicate content.
  • The URL returning an error page (e.g. a 404 Not Found HTTP response code).

Next: Search Engine Crawling

Author

Sam Marsden

Sam Marsden

Sam Marsden is DeepCrawl’s SEO & Content Manager. Sam pravidelně vystupuje na marketingových konferencích, jako jsou SMX a BrightonSEO, a přispívá do oborových publikací, jako jsou Search Engine Journal a State of Digital.