Como funcionam os motores de busca?

Neste guia vamos fornecer-lhe uma introdução sobre como funcionam os motores de busca. Isto irá cobrir os processos de rastreamento e indexação, bem como conceitos como orçamento de rastreamento e PageRank.

Os motores de busca funcionam ao rastrear centenas de bilhões de páginas usando seus próprios rastreadores da web. Estes crawlers da web são normalmente referidos como motores de busca bots ou spiders. Um motor de busca navega na web descarregando páginas web e seguindo links nestas páginas para descobrir novas páginas que foram disponibilizadas.

O Índice do Motor de Busca

Páginas web que foram descobertas pelo motor de busca são adicionadas a uma estrutura de dados chamada índice.

O índice inclui todas as URLs descobertas juntamente com um número de sinais chave relevantes sobre o conteúdo de cada URL, tais como:

  • As palavras-chave descobertas dentro do conteúdo da página – que tópicos a página cobre?
  • O tipo de conteúdo que está sendo rastreado (usando microdados chamados Schema) – o que está incluído na página?
  • O frescor da página – como foi atualizada recentemente?
  • O envolvimento anterior do usuário da página e/ou domínio – como as pessoas interagem com a página?

Qual é o objectivo de um algoritmo de motor de busca?

O objectivo do algoritmo de motor de busca é apresentar um conjunto relevante de resultados de pesquisa de alta qualidade que satisfaça a consulta/questão do utilizador o mais rapidamente possível.

O utilizador selecciona então uma opção da lista de resultados de pesquisa e esta acção, juntamente com a actividade subsequente, alimenta depois aprendizagens futuras que podem afectar a classificação do motor de busca no futuro.

O que acontece quando uma pesquisa é efectuada?

Quando uma consulta de pesquisa é introduzida num motor de busca por um utilizador, todas as páginas que são consideradas relevantes são identificadas a partir do índice e um algoritmo é utilizado para classificar hierarquicamente as páginas relevantes num conjunto de resultados.

Os algoritmos utilizados para classificar os resultados mais relevantes diferem para cada motor de busca. Por exemplo, uma página que tenha uma classificação elevada para uma consulta de pesquisa no Google pode não ter uma classificação elevada para a mesma consulta no Bing.

Além da consulta de pesquisa, os motores de busca utilizam outros dados relevantes para devolver resultados, incluindo:

  • Localização – Algumas consultas de pesquisa são dependentes da localização, por exemplo ‘cafes near me’ ou ‘movie times’.
  • Language detected – Os motores de busca irão retornar resultados no idioma do utilizador, se este puder ser detectado.
  • Previous search history – Os motores de busca irão retornar resultados diferentes para uma consulta, dependendo do que o utilizador pesquisou anteriormente.
  • Device – A different set of results may be returned based on the device from which the query was made.

Why Might a Page Not be Indexed?

There are a number of circumstances where a URL will not be indexed by a search engine. This may be due to:

  • Robots.txt file exclusions – a file which tells search engines what they shouldn’t visit on your site.
  • Directives on the webpage telling search engines not to index that page (noindex tag) or to index another similar page (canonical tag).
  • Search engine algorithms judging the page to be of low quality, have thin content or contain duplicate content.
  • The URL returning an error page (e.g. a 404 Not Found HTTP response code).

Next: Search Engine Crawling

Author

Sam Marsden

Sam Marsden

Sam Marsden is DeepCrawl’s SEO & Content Manager. Sam fala regularmente em conferências de marketing, como SMX e BrightonSEO, e é colaborador de publicações da indústria como Search Engine Journal e State of Digital.