Cum funcționează motoarele de căutare?

iulie 3, 2021admin

În acest ghid vă vom oferi o introducere în modul în care funcționează motoarele de căutare. Acesta va acoperi procesele de crawling și indexare, precum și concepte precum bugetul de crawling și PageRank.

Motoarele de căutare funcționează prin crawlingul a sute de miliarde de pagini cu ajutorul propriilor crawlere web. Aceste crawlere web sunt denumite în mod obișnuit roboți sau păianjeni ai motoarelor de căutare. Un motor de căutare navighează pe web descărcând pagini web și urmărind legăturile de pe aceste pagini pentru a descoperi noi pagini care au fost puse la dispoziție.

Indexul motorului de căutare

Paginile web care au fost descoperite de motorul de căutare sunt adăugate într-o structură de date numită index.

Indexul include toate URL-urile descoperite împreună cu o serie de semnale cheie relevante despre conținutul fiecărui URL, cum ar fi:

Cele mai importante cuvinte cheie descoperite în conținutul paginii – ce subiecte acoperă pagina?
Tipul de conținut care este răscolit (cu ajutorul microdatelor numite Schema) – ce este inclus în pagină?
Frachețea paginii – cât de recent a fost actualizată?
Angajarea anterioară a utilizatorilor față de pagină și/sau domeniu – cum interacționează oamenii cu pagina?

Care este scopul algoritmului unui motor de căutare?

Scopul algoritmului motorului de căutare este de a prezenta un set relevant de rezultate de căutare de înaltă calitate care să răspundă cât mai repede posibil la interogarea/întrebarea utilizatorului.

Utilizatorul selectează apoi o opțiune din lista de rezultate de căutare, iar această acțiune, împreună cu activitatea ulterioară, alimentează apoi învățămintele viitoare care pot afecta clasamentele motoarelor de căutare în viitor.

Ce se întâmplă atunci când se efectuează o căutare?

Când un utilizator introduce o interogare de căutare într-un motor de căutare, toate paginile considerate relevante sunt identificate din index și se utilizează un algoritm pentru a clasifica ierarhic paginile relevante într-un set de rezultate.

Algoritmii utilizați pentru a clasifica cele mai relevante rezultate diferă pentru fiecare motor de căutare. De exemplu, o pagină care se clasează foarte bine pentru o interogare de căutare în Google poate să nu se claseze foarte bine pentru aceeași interogare în Bing.

În plus față de interogarea de căutare, motoarele de căutare folosesc alte date relevante pentru a returna rezultate, inclusiv:

Locație – Unele interogări de căutare sunt dependente de locație, de ex. „cafenelele din apropierea mea” sau „orele de vizionare a filmelor”.
Limba detectată – Motoarele de căutare vor returna rezultate în limba utilizatorului, dacă aceasta poate fi detectată.
Istoricul căutărilor anterioare – Motoarele de căutare vor returna rezultate diferite pentru o interogare în funcție de ceea ce a căutat anterior utilizatorul.
Device – A different set of results may be returned based on the device from which the query was made.

Why Might a Page Not be Indexed?

There are a number of circumstances where a URL will not be indexed by a search engine. This may be due to:

Robots.txt file exclusions – a file which tells search engines what they shouldn’t visit on your site.
Directives on the webpage telling search engines not to index that page (noindex tag) or to index another similar page (canonical tag).
Search engine algorithms judging the page to be of low quality, have thin content or contain duplicate content.
The URL returning an error page (e.g. a 404 Not Found HTTP response code).

Next: Search Engine Crawling

Author

Sam Marsden

Sam Marsden is DeepCrawl’s SEO & Content Manager. Sam vorbește în mod regulat la conferințe de marketing, cum ar fi SMX și BrightonSEO, și este un colaborator al publicațiilor din industrie, cum ar fi Search Engine Journal și State of Digital.