¿Qué es el crawling o rastreo de un sitio web?

El crawling o rastreo es proceso en el que Google u cualquier motor de búsqueda de Internet envía un rastreador o crawlers a un sitio web y revisa el contenido del mismo.

Por explicarlo de otra manera el rastreo de sitios web es la primera vez que el motor de búsqueda reconoce una parte de tu página web y la muestra dentro de sus resultados. Y es que las arañas de Gooogle son las que determinan quiénes entran dentro de su página y quiénes no.

Pero a la misma vez, una vez que ha sido rastreada no tiene porqué estar indexada. Es decir, el proceso es el siguiente: primero la página web tiene que estar accesible y fácilmente rastreable, el bot la rastrea, y posteriormente será indexada o no.

¿Cómo reconoce Google bot mi página web?

Existen varios factores para identificar la rastreabilidad del sitio web, entre ellos está:

Identificar un mapa del sitio web en formato XML y enviarlo a través de Google Search Console.
Tener enlaces internos que indiquen una coherencia entre nuestras páginas.
Conseguir autoridad desde otros sitios web que apunten hacia el nuestro.
Conseguir una buena cantidad de tráfico hacia esa página en cuestión.

Significado de crawling

Lo que significa ser rastreado es que Google está examinando la página, independientemente de si el buscador cree que ese contenido es bueno para incluirse en internet. Lo único que indica ésta métrica SEO es que al menos Google bot ha tenido en cuenta esa página con el objetivo de clasificarlo dentro del buscador y ser indexado.

La importancia de tener un buen enlazado externo es que Google nos rastreará mayormente si ya ha rastreado otros sitios que nos apunten, salvo que contenga una etiqueta no-follow.

Significado de estar indexado

Una página se entenderá como indexado siempre y cuando aparezca en los resultados de búsqueda del buscador del que estemos hablando. El proceso de indexación es posterior al de rastreo, siempre y cuando Google lo considere un contenido válido.

De esta forma, si Google entiende que la página es buen valor pasará a clasificarla dentro de su buscador, siendo indexada. Pero no siempre es así, y puede que no la indexe porque considere que no es válida.

Una vez la página sea indexada en la búsqueda, considerará por qué tipos de palabras, en qué posición, incluso con qué título aparecerá (actualización 2022).

Todo lo que pueda realizarse como mejora de indexación será muy positivo, por ejemplo Google bot sigue cada enlace desde tu sitio web hasta 5 veces fuera de tu página, de esta forma cuantos mayores enlaces de calidad tengamos mayores serán nuestras probabilidades de ser rastreables.

Es por eso que una buena estrategia de linkbuilding también tendrá sus efectos en cuanto a la indexación de su contenido web en Google.

¿Cuál es la diferencia entre el rastreo y la indexación?

Aunque existe mucha confusión entre crawling e indexación o entre indexabilidad e indexación. La diferencia está clara, en el proceso de indexación primero debe de cumplirse el crawling de tu página web y luego Google lo indexará o no, dependiendo de varios factores.

¿Cómo puedo saber qué ha indexado Google?

Aunque NECESITA que se rastree su sitio web, desea que se indexe. Existen numerosos medios para determinar lo que Google ha indexado realmente en su sitio.

Existen varias formas de comprobar si una página en específico se ha indexado.

La primera de todas es ir a google.com > Configuración > Búsqueda avanzada. E introduce tu dominio en este campo. Podrás buscarlo de la misma forma utilizando site:tudominio.com. Un ejemplo: site:piñatamarketing.es

Aquí aparecerá todo el contenido que haya indexado Google, como páginas, artículos, fotos, vídeos, etc.

Otra manera es desde Google Search Console. Lo primero que debemos realizar es informar de nuestro sitio web mediante el sitemap o mapa del sitio para aumentar las probabilidades de rastreabilidad. Una vez hayamos realizado esto, con el buscador de arriba en el centro insertaremos la url que pretendemos analizar si se ha indexado y si aparece en verde es que esta url se ha indexado correctamente en Google.

Optimiza el crawling y la indexabilidad de tu web

Aumenta tus posibilidades al optimizar el rastreo de tu sitio web. ¿Cómo hacerlo? Principalmente mediante 3 técnicas: configuración correctamente del archivo robots.txt, mediante la corrección de errores técnicos ya sean 3xx, 4xx o 5xx y mediante enlazado tanto interno como externo.

Bloqueo mediante Robots.txt

Este tipo de fichero de texto permite e impiden a las arañas el rastreo de ciertas urls. Podrás permitir o bloquear todo el dominio, una url específica, incluso un directorio completo.

Un ejemplo de la configuración del robots.txt para wordpress es la siguiente.

User-agent: *

Disallow: /wp-admin/

Allow: wp-admin/admin-ajax.php

Sitemap: https://piñatamarketing.es/sitemap_index.xml

Normalmente los plugins, apps y módulos de SEO para Shopify, Prestashop o WordPress ya vienen con una configuración básica de este robots.txt.

Códigos del servidor

Siempre intenta que tus códigos de respuesta de tu página web sean positivos. Es decir si el código del servidor es 200 querrá decir que tu web está disponible para todos los usuarios y por lo tanto el crawling será bueno. Esto podrás revisarlo en los informes de cobertura dentro de Google Search Console.

Otros códigos respuesta que son érroneos y que pueden impedir la rastreabilidad de nuestra web son entre otros:

301 y 302. Propios de redirecciones. Si estas redirecciones son permanentes, podrán ocasionar problemas de crawling a largo plazo.
Errores 403, 404 o 410. Errores de página no encontrado o contenido borrado. Si no se corrige, Google entenderá que no estás poniéndole fácil rastrear tu contenido y que por lo tanto está perdiendo un tiempo muy importante en rastrear tu web con multitud de fallos.
Errores 500. Estos son los propios del servidor, ya sea por un problema entre los módulos instalados, el php, la configuración del servidor, o simplemente que se ha caído el servidor.

Ya que has llegado hasta aquí, quizás te ayude esta guía de SEO técnico para principiantes.

¿Cómo decide Google el contenido a indexar?

Al final, Google tiene en cuenta principalmente dos motivos, uno que el contenido de cierta web ayuden a resolver dudas o aportar soluciones de compra, y que la experiencia del usuario en su sitio web sea óptimo para una fácil navegación. Existen multitud de factores más, pero si estos dos motivos se cumplen a la perfección con la mayor seguridad tu página tarde o temprano indexará tu contenido en su buscador.

De esta forma nuestro contenido web tendría que ser único con un claro objetivo de entregar a los usuarios de Google el mejor contenido de calidad y actualizado. Si no se cumple esta premisa y se opta por plagiar contenido, Google podrá realizar un sandbox eliminando partes de tu página web de los resultados de búsqueda, incluso eliminando tu site del mismo.

¿Qué es crawling en SEO?