La misión de un motor de búsqueda como puede ser Google o Bing es descubrir y organizar contenidos para luego mostrarlos al usuario. Para ello, el buscador primero rastrea las páginas de un dominio con sus robots y luego decide si debe indexarlas. Más tarde las clasifica, pero de momento vamos a analizar qué es rastreo e indexación para que lo veas más claro.

Si estás trabajando con Search Console, te interesa usar la Inspección de URL para confirmar qué ve Google en una página concreta. Y si tu objetivo es quitar una página del índice, aquí tienes la guía para desindexar una URL.

¿Qué es rastreo?

El rastreo se refiere a seguir los enlaces nuevos que haya dentro de un dominio, páginas nuevas, y continuar buscando y siguiendo enlaces en sitios nuevos que vayan a otras webs.

El proceso de rastreo para Google comienza a partir de un listado web como bien podría ser Wikipedia: un sitio web confiable que tiende a conectar a muchas páginas. Esto podríamos decir que es la primera línea. En una segunda acción, podemos decir que también «araña» los sites que enviamos a través de un ping, por ejemplo.

Los sitios web que publican contenido nuevo y de calidad obtienen mayor prioridad en el rastreo. Así que debemos centrarnos en:

  • Ser popular
  • Ofrecer alta calidad de contenidos
  • Actualizar los contenidos

¿Qué es el presupuesto de rastreo?

El presupuesto de rastreo es la cantidad de páginas o solicitudes que el buscador rastreará para un sitio web durante un período de tiempo. La cantidad de páginas presupuestadas depende de: tamaño, popularidad, calidad, actualizaciones y velocidad del sitio.

Si tu sitio web desperdicia recursos de rastreo, su presupuesto de rastreo disminuirá y las páginas se rastrearán con menos frecuencia, lo que puede retrasar la detección de cambios y la indexación de páginas importantes. Un sitio web puede desperdiciar involuntariamente recursos del rastreador web al ofrecer demasiadas URL de bajo valor agregado a un rastreador. Esto incluye «navegación por facetas, contenido duplicado en el sitio, páginas de error leve, páginas pirateadas, espacios infinitos y servidores proxy, baja calidad y contenido spam».

Un sitio web puede optar por no rastrear o restringir el rastreo de partes del sitio con directivas en un archivo robots.txt. Por ejemplo, la directiva Disallow: indica a los rastreadores qué partes del sitio pueden rastrear y cuáles no.

¿Qué es indexación?

Indexar es almacenar y organizar la información que se encuentra en los sitios web. El bot representa el código en la página de la misma manera que lo hace un navegador. Cataloga todo el contenido, enlaces y metadatos de la página.

La indexación requiere una enorme cantidad de recursos no solo por tema de almacenamiento, sino por luego mostrarlo al usuario.

Diferencia entre rastreo e indexación

El rastreo es el paso previo a la indexación. El descubrimiento de páginas se produce a través del rastreo con ayuda de los enlaces que van encontrando. La indexación consiste en almacenar, analizar y organizar el contenido de dichas páginas, previamente rastreadas. Hay partes de la indexación que ayudan a informar cómo rastrea un motor de búsqueda.

Aquí tienes una guía práctica sobre cuánto tarda Google en indexar y de qué depende.

Importancia del rastreo y la indexación de tu sitio web

Si un buscador no puede rastrear tu sitio web, no se incluirá en ningún resultado de búsqueda. Una auditoría SEO de tu sitio web debería revelar cualquier otro problema con la accesibilidad del rastreador web de los motores de búsqueda.

Cómo comprobar si hay problemas de rastreo e indexación

Búsqueda de Google

Puedes ver cómo Google indexa un sitio web tecleando:

  • site:tudominio.com (todas las páginas indexadas)
  • site:tudominio.com/blog/ (solo el directorio /blog/)

En muchas ocasiones descubrirás páginas demo o extrañas que no tenías controladas de ningún modo.

Consola de búsqueda de Google

Si al revisar el informe de Páginas te aparecen estados como “Descubierta: actualmente sin indexar” o “Rastreada: actualmente sin indexar”, aquí tienes la guía para entender por qué hay páginas no indexadas.

Vas a poder ver diferentes motivos por los que no se ha producido el rastreo o la indexación:

  • Página con redirección
  • No se ha encontrado (Error 404)
  • Excluida por una etiqueta «noindex»
  • Página alternativa con etiqueta canónica adecuada
  • Rastreada: actualmente sin indexar
  • Duplicada: Google ha elegido una versión canónica diferente a la del usuario
  • Descubierta: actualmente sin indexar

Cuando hayas solucionado los problemas que te muestra Search Console puedes hacer clic sobre un motivo, es decir sobre una fila, y te abrirá una nueva ventana dónde podrás dar clic en «validar corrección«.

Preguntas frecuentes

¿Qué diferencia hay entre rastreo e indexación?

El rastreo descubre URLs siguiendo enlaces y sitemaps. La indexación es el paso posterior: Google procesa el contenido y decide si lo almacena para mostrarlo en resultados.

¿Por qué Google rastrea una página pero no la indexa?

Suele ocurrir por contenido duplicado o poco diferencial, canónicas, noindex, problemas de calidad o señales internas débiles. En Search Console aparece como “Rastreada: actualmente sin indexar”.

¿robots.txt evita que una URL se indexe?

No necesariamente. Robots.txt bloquea el rastreo. Si Google no puede ver el contenido ni un noindex/404/410, la URL puede quedarse indexada en ciertos casos.

¿Cómo compruebo el estado real de una URL?

La forma más fiable es usar la Inspección de URL en Search Console para ver si está indexada, cuál es la canónica elegida y si hay bloqueos o errores.

Conclusión

Dominar el rastreo e indexación es clave para destacar en los resultados de búsqueda. El rastreo es esencial para descubrir contenido fresco y valioso. La indexación, por otro lado, organiza esta información para que sea accesible a los usuarios. La calidad del contenido y la popularidad del sitio influyen en el rastreo. Así, webs con buenos contenidos y actualizaciones frecuentes son prioritarias para los motores de búsqueda. El presupuesto de rastreo también es crucial: si se desperdician recursos en páginas de poco valor, la frecuencia de rastreo puede disminuir, afectando las clasificaciones.

En resumen, optimizar el rastreo e indexación es fundamental para el éxito en tu estrategia SEO. Comprender y mejorar estos procesos permite alcanzar y cautivar a tu audiencia. Con un enfoque estratégico en la calidad del contenido, la accesibilidad del sitio y la vigilancia constante de herramientas como Google Search Console, tu sitio web puede mejorar su visibilidad y competitividad en el panorama digital actual.

Privacy Preference Center