Comment fonctionnent les moteurs de recherche ?

Dans ce guide, nous allons vous fournir une introduction au fonctionnement des moteurs de recherche. Nous aborderons les processus d’exploration et d’indexation ainsi que des concepts tels que le budget d’exploration et le PageRank.

Les moteurs de recherche fonctionnent en explorant des centaines de milliards de pages à l’aide de leurs propres robots d’exploration web. Ces crawlers web sont communément appelés bots ou spiders de moteurs de recherche. Un moteur de recherche navigue sur le web en téléchargeant des pages web et en suivant les liens sur ces pages pour découvrir de nouvelles pages qui ont été mises à disposition.

L’index du moteur de recherche

Les pages web qui ont été découvertes par le moteur de recherche sont ajoutées dans une structure de données appelée index.

L’index comprend toutes les URL découvertes ainsi qu’un certain nombre de signaux clés pertinents sur le contenu de chaque URL, tels que :

  • Les mots-clés découverts dans le contenu de la page – quels sujets la page couvre-t-elle ?
  • Le type de contenu qui est crawlé (à l’aide de microdonnées appelées Schema) – qu’est-ce qui est inclus dans la page ?
  • La fraîcheur de la page – quelle est la date récente de sa mise à jour ?
  • L’engagement antérieur des utilisateurs de la page et/ou du domaine – comment les gens interagissent-ils avec la page ?

Quel est l’objectif d’un algorithme de moteur de recherche?

L’objectif de l’algorithme du moteur de recherche est de présenter un ensemble pertinent de résultats de recherche de haute qualité qui répondra à la requête/question de l’utilisateur aussi rapidement que possible.

L’utilisateur sélectionne ensuite une option dans la liste des résultats de recherche et cette action, ainsi que l’activité ultérieure, alimente ensuite les apprentissages futurs qui peuvent affecter les classements des moteurs de recherche à l’avenir.

Que se passe-t-il lorsqu’une recherche est effectuée ?

Lorsqu’une requête de recherche est saisie dans un moteur de recherche par un utilisateur, toutes les pages jugées pertinentes sont identifiées à partir de l’index et un algorithme est utilisé pour classer hiérarchiquement les pages pertinentes dans un ensemble de résultats.

Les algorithmes utilisés pour classer les résultats les plus pertinents diffèrent pour chaque moteur de recherche. Par exemple, une page qui est bien classée pour une requête de recherche dans Google peut ne pas être bien classée pour la même requête dans Bing.

En plus de la requête de recherche, les moteurs de recherche utilisent d’autres données pertinentes pour renvoyer les résultats, notamment :

  • L’emplacement – Certaines requêtes de recherche dépendent de l’emplacement, par ex. ‘cafés près de chez moi’ ou ‘horaires de cinéma’.
  • Langue détectée – Les moteurs de recherche renvoient les résultats dans la langue de l’utilisateur, si elle peut être détectée.
  • Historique de recherche précédent – Les moteurs de recherche renvoient des résultats différents pour une requête en fonction de ce que l’utilisateur a précédemment recherché.
  • Device – A different set of results may be returned based on the device from which the query was made.

Why Might a Page Not be Indexed?

There are a number of circumstances where a URL will not be indexed by a search engine. This may be due to:

  • Robots.txt file exclusions – a file which tells search engines what they shouldn’t visit on your site.
  • Directives on the webpage telling search engines not to index that page (noindex tag) or to index another similar page (canonical tag).
  • Search engine algorithms judging the page to be of low quality, have thin content or contain duplicate content.
  • The URL returning an error page (e.g. a 404 Not Found HTTP response code).

Next: Search Engine Crawling

Author

Sam Marsden

Sam Marsden

Sam Marsden is DeepCrawl’s SEO & Content Manager. Sam intervient régulièrement lors de conférences de marketing, comme SMX et BrightonSEO, et contribue à des publications du secteur telles que Search Engine Journal et State of Digital.

.