Come funzionano i motori di ricerca?

In questa guida vi forniremo un’introduzione al funzionamento dei motori di ricerca. Questo coprirà i processi di crawling e di indicizzazione, nonché concetti come il budget di crawl e il PageRank.

I motori di ricerca lavorano scansionando centinaia di miliardi di pagine utilizzando i loro web crawler. Questi web crawler sono comunemente chiamati bot o spider dei motori di ricerca. Un motore di ricerca naviga nel web scaricando le pagine web e seguendo i link su queste pagine per scoprire nuove pagine che sono state rese disponibili.

L’indice del motore di ricerca

Le pagine web che sono state scoperte dal motore di ricerca sono aggiunte in una struttura di dati chiamata indice.

L’indice include tutti gli URL scoperti insieme a una serie di segnali chiave rilevanti sul contenuto di ogni URL come:

  • Le parole chiave scoperte nel contenuto della pagina – quali argomenti tratta la pagina?
  • Il tipo di contenuto che viene scansionato (usando microdati chiamati Schema) – cosa è incluso nella pagina?
  • La freschezza della pagina – quanto recentemente è stata aggiornata?
  • Il precedente coinvolgimento degli utenti della pagina e/o del dominio – come interagiscono le persone con la pagina?

Qual è lo scopo dell’algoritmo di un motore di ricerca?

Lo scopo dell’algoritmo del motore di ricerca è quello di presentare un insieme pertinente di risultati di ricerca di alta qualità che soddisfino la query/domanda dell’utente il più rapidamente possibile.

L’utente seleziona quindi un’opzione dalla lista dei risultati di ricerca e questa azione, insieme all’attività successiva, alimenta i risultati futuri che possono influenzare le classifiche dei motori di ricerca in futuro.

Cosa succede quando viene effettuata una ricerca?

Quando un utente inserisce una query di ricerca in un motore di ricerca, tutte le pagine ritenute rilevanti vengono identificate dall’indice e un algoritmo viene utilizzato per classificare gerarchicamente le pagine rilevanti in una serie di risultati.

Gli algoritmi utilizzati per classificare i risultati più rilevanti sono diversi per ogni motore di ricerca. Per esempio, una pagina che si classifica bene per una query di ricerca in Google può non classificarsi bene per la stessa query in Bing.

In aggiunta alla query di ricerca, i motori di ricerca usano altri dati rilevanti per restituire i risultati, tra cui:

  • Località – Alcune query di ricerca sono dipendenti dalla località, per esempio ‘caffè vicino a me’ o ‘orari dei film’.
  • Lingua rilevata – I motori di ricerca restituiranno risultati nella lingua dell’utente, se può essere rilevata.
  • Cronologia delle ricerche precedenti – I motori di ricerca restituiranno risultati diversi per una query a seconda di ciò che l’utente ha cercato in precedenza.
  • Device – A different set of results may be returned based on the device from which the query was made.

Why Might a Page Not be Indexed?

There are a number of circumstances where a URL will not be indexed by a search engine. This may be due to:

  • Robots.txt file exclusions – a file which tells search engines what they shouldn’t visit on your site.
  • Directives on the webpage telling search engines not to index that page (noindex tag) or to index another similar page (canonical tag).
  • Search engine algorithms judging the page to be of low quality, have thin content or contain duplicate content.
  • The URL returning an error page (e.g. a 404 Not Found HTTP response code).

Next: Search Engine Crawling

Author

Sam Marsden

Sam Marsden

Sam Marsden is DeepCrawl’s SEO & Content Manager. Sam parla regolarmente alle conferenze di marketing, come SMX e BrightonSEO, e contribuisce a pubblicazioni di settore come Search Engine Journal e State of Digital.