Cómo funcionan los motores de búsqueda?

julio 3, 2021admin

En esta guía vamos a proporcionarle una introducción a cómo funcionan los motores de búsqueda. Esto cubrirá los procesos de rastreo e indexación, así como conceptos como el presupuesto de rastreo y el PageRank.

Los motores de búsqueda trabajan rastreando cientos de miles de millones de páginas utilizando sus propios rastreadores web. Estos rastreadores web se denominan comúnmente bots o arañas de los motores de búsqueda. Un motor de búsqueda navega por la web descargando páginas web y siguiendo los enlaces de estas páginas para descubrir nuevas páginas que han sido puestas a disposición.

El índice del motor de búsqueda

Las páginas web que han sido descubiertas por el motor de búsqueda se añaden a una estructura de datos llamada índice.

El índice incluye todas las URLs descubiertas junto con una serie de señales clave relevantes sobre el contenido de cada URL como:

Las palabras clave descubiertas dentro del contenido de la página – ¿qué temas cubre la página?
El tipo de contenido que se está rastreando (utilizando microdatos llamados Schema) – ¿qué se incluye en la página?
La frescura de la página -¿cuánto tiempo hace que se ha actualizado?
El compromiso previo del usuario con la página y/o el dominio -¿cómo interactúa la gente con la página?

¿Cuál es el objetivo del algoritmo de un motor de búsqueda?

El objetivo del algoritmo del motor de búsqueda es presentar un conjunto relevante de resultados de búsqueda de alta calidad que satisfagan la consulta/pregunta del usuario lo más rápido posible.

El usuario selecciona una opción de la lista de resultados de búsqueda y esta acción, junto con la actividad subsiguiente, alimenta futuros aprendizajes que pueden afectar a las clasificaciones del motor de búsqueda en el futuro.

¿Qué ocurre cuando se realiza una búsqueda?

Cuando un usuario introduce una consulta en un motor de búsqueda, todas las páginas que se consideran relevantes se identifican en el índice y se utiliza un algoritmo para clasificar jerárquicamente las páginas relevantes en un conjunto de resultados.

Los algoritmos utilizados para clasificar los resultados más relevantes difieren en cada motor de búsqueda. Por ejemplo, una página que tiene una posición alta para una consulta de búsqueda en Google puede no tener una posición alta para la misma consulta en Bing.

Además de la consulta de búsqueda, los motores de búsqueda utilizan otros datos relevantes para devolver los resultados, incluyendo:

Ubicación – Algunas consultas de búsqueda dependen de la ubicación, por ejemplo. ‘cafés cerca de mí’ u ‘horarios de cine’.
Idioma detectado – Los motores de búsqueda devolverán resultados en el idioma del usuario, si se puede detectar.
Historial de búsquedas anteriores – Los motores de búsqueda devolverán resultados diferentes para una consulta en función de lo que el usuario haya buscado anteriormente.
Device – A different set of results may be returned based on the device from which the query was made.

Why Might a Page Not be Indexed?

There are a number of circumstances where a URL will not be indexed by a search engine. This may be due to:

Robots.txt file exclusions – a file which tells search engines what they shouldn’t visit on your site.
Directives on the webpage telling search engines not to index that page (noindex tag) or to index another similar page (canonical tag).
Search engine algorithms judging the page to be of low quality, have thin content or contain duplicate content.
The URL returning an error page (e.g. a 404 Not Found HTTP response code).

Next: Search Engine Crawling

Author

Sam Marsden

Sam Marsden is DeepCrawl’s SEO & Content Manager. Sam habla regularmente en conferencias de marketing, como SMX y BrightonSEO, y es colaborador de publicaciones del sector como Search Engine Journal y State of Digital.