Hoe werken zoekmachines?
In deze gids geven we u een inleiding in de werking van zoekmachines. De processen crawlen en indexeren komen aan de orde, evenals begrippen als crawlbudget en PageRank.
Zoekmachines werken door honderden miljarden pagina’s te crawlen met behulp van hun eigen webcrawlers. Deze webcrawlers worden meestal zoekmachine-bots of spiders genoemd. Een zoekmachine navigeert over het web door webpagina’s te downloaden en links op deze pagina’s te volgen om nieuwe pagina’s te ontdekken die beschikbaar zijn gemaakt.
De zoekmachine-index
Webpagina’s die door de zoekmachine zijn ontdekt, worden toegevoegd aan een datastructuur die index wordt genoemd.
De index bevat alle ontdekte URL’s samen met een aantal relevante sleutelsignalen over de inhoud van elke URL, zoals:
- De zoekwoorden die zijn ontdekt in de inhoud van de pagina – over welke onderwerpen gaat de pagina?
- Het type inhoud dat wordt gecrawld (met behulp van microdata genaamd Schema) – wat staat er op de pagina?
- De versheid van de pagina – hoe recent is deze bijgewerkt?
- De eerdere gebruikersbetrokkenheid van de pagina en/of het domein – hoe gaan mensen om met de pagina?
Wat is het doel van een zoekmachine-algoritme?
Het doel van het zoekmachine-algoritme is om een relevante set zoekresultaten van hoge kwaliteit te presenteren, die zo snel mogelijk aan de zoekvraag van de gebruiker voldoen.
De gebruiker selecteert vervolgens een optie uit de lijst met zoekresultaten en deze actie, samen met de daaropvolgende activiteit, wordt vervolgens gebruikt voor toekomstige leerprocessen die van invloed kunnen zijn op de toekomstige rangschikking van zoekmachines.
Wat gebeurt er als een zoekopdracht wordt uitgevoerd?
Als een zoekvraag door een gebruiker in een zoekmachine wordt ingevoerd, worden alle relevant geachte pagina’s uit de index geïdentificeerd en wordt een algoritme gebruikt om de relevante pagina’s hiërarchisch te rangschikken in een reeks resultaten.
De algoritmen die worden gebruikt om de meest relevante resultaten te rangschikken, verschillen voor elke zoekmachine. Een pagina die bijvoorbeeld bij Google hoog scoort voor een zoekopdracht, scoort bij Bing misschien niet hoog voor dezelfde zoekopdracht.
Naast de zoekopdracht gebruiken zoekmachines andere relevante gegevens om resultaten te geven, waaronder:
- Locatie – Sommige zoekopdrachten zijn locatie-afhankelijk, bijv. ‘cafés bij mij in de buurt’ of ‘filmtijden’.
- Gedetecteerde taal – Zoekmachines geven resultaten in de taal van de gebruiker, als die kan worden gedetecteerd.
- Eerdere zoekgeschiedenis – Zoekmachines geven verschillende resultaten voor een zoekopdracht, afhankelijk van waar de gebruiker eerder naar heeft gezocht.
- Device – A different set of results may be returned based on the device from which the query was made.
Why Might a Page Not be Indexed?
There are a number of circumstances where a URL will not be indexed by a search engine. This may be due to:
- Robots.txt file exclusions – a file which tells search engines what they shouldn’t visit on your site.
- Directives on the webpage telling search engines not to index that page (noindex tag) or to index another similar page (canonical tag).
- Search engine algorithms judging the page to be of low quality, have thin content or contain duplicate content.
- The URL returning an error page (e.g. a 404 Not Found HTTP response code).
Next: Search Engine Crawling
Author
Sam Marsden
Sam Marsden is DeepCrawl’s SEO & Content Manager. Sam spreekt regelmatig op marketingconferenties, zoals SMX en BrightonSEO, en levert bijdragen aan industriepublicaties zoals Search Engine Journal en State of Digital.