Previamente a ver cómo crear un archivo robots.txt vamos a enseñarte su funcionamiento de un modo muy sencillo.
El archivo robots.txt se compone de dos elementos fundamentales, los cuales le explican a los rastreadores cómo podría ser Google lo que tiene que hacer en nuestra web al aterrizar en ella.
Diferencia entre robots y la indexación
La mayoría de personas que comienzan a entender el SEO suelen confundir el robots.txt con la «indexación», a continuación desgranamos las funciones distintas que realizan.
Robots: Los «robots» o «bots» son programas automatizados que rastrean el contenido de las páginas web. Los motores de búsqueda, como Google, utilizan bots llamados «Googlebot» para explorar el contenido de un sitio web. El archivo robots.txt es el que indica a estos bots cuáles secciones de un sitio deben rastrear o ignorar. Es importante aclarar que el archivo robots.txt solo controla el rastreo, no la indexación.
Indexación: La indexación, por otro lado, se refiere al proceso por el cual los motores de búsqueda almacenan y organizan el contenido de tu sitio web en su base de datos. Este contenido indexado es lo que los usuarios pueden encontrar en los resultados de búsqueda. Aunque el archivo robots.txt puede restringir el rastreo de ciertas páginas, no garantiza que estas no se indexen. Para evitar la indexación de una página específica, se debe usar la metaetiqueta «noindex» en el código HTML de la página.
Muddle consejo: Bloquear una página en el archivo robots.txt no provoca que no aparezca en los resultados de búsqueda de Google. La etiqueta que buscas si deseas no aparecer en los resultados del SERP se llama «noindex».
User agent
El User agent indica al rastreador lo que debe hacer con nuestras páginas. Este rastreador puede ser Googlebot, Googlebot-Video, Yandex, Baidu, Bing, etc.
Como no vas a marcar todos los tipos de rastreadores web del mundo, entonces lo mejor es que le des esta directiva: «*» (el asterisco de toda la vida). Esto provoca una orden en todos los rastreadores que aterricen en tu web.
Directivas
Las directivas de Robots.txt son las reglas que seguirá el user agent. De este modo quedaría así:
Primero el rastreador (googlebot por ejemplo) recibe la instrucción de leer un sitio web, a continuación entabla la relación con el archivo robots.txt y este le especifica qué páginas o secciones de tu sitio web deben o no rastrearse.
Entre las directivas más famosas que puedes ver dentro del archivo robots seguramente es el famoso «disallow»
Disallow: indica a los rastreadores que no accedan a esa ruta
Allow: indica que se den un paseo tranquilamente
Muddle – consejo: Es muy habitual indicar la ruta de tu mapa del sitio (sitemap). Nosotros te aconsejamos que lo subas para ayudar a los rastreadores a ahorrar dinero.
¿Cómo crear un archivo robots.txt?
En caso de utilizar WordPress seguramente ya has creado este archivo. Sin embargo en caso de que no estés seguro o quieras hacer cambios en el archivo robots.txt puedes ayudarte de: Yoast SEO o Rank Math. Estos plugins facilitan el control sin tener que escribir ninguna sintaxis complicada.
Otro modo, un pelín más técnico es editar el archivo robots.txt a través de FTP. Para poder hacer esto, simplemente abres un bloc de notas en tu pc y añades tus directivas, luego lo subes a tu hosting y ya quedaría listo.
Comprobar su funcionamiento
Hay muchas formas de comprobar que su archivo robots.txt esta correctamente implementando para los rastreadores.
El archivo por defecto se alojará en «https://tudominio.com/robots.txt”
Para comprobar si los motores de búsqueda como Google pueden ya hacer uso de tu archivo y de las «normas» tienes la opción de utilizar este test
Métodos para editar tu robots.txt en WordPress
En caso de tener un WordPress y querer hacer modificaciones en el robots.txt puedes utilizar plugins o hacerlo manualmente. Los plugins SEO de Yoast o RankMath te pueden facilitar esta tarea sin tener que tocar código.
Si usas WordPress, seguramente ya tengas un archivo robots.txt generado automáticamente. Pero si deseas personalizarlo, puedes hacerlo con plugins como Yoast SEO o Rank Math:
- Accede al panel de control de tu sitio web.
- Instala y activa el plugin Yoast SEO o Rank Math.
- Navega a la sección de «Herramientas» del plugin y selecciona la opción «Editor de archivos» (en Yoast) o «Editar robots.txt» (en Rank Math).
- Personaliza las directivas según tus necesidades y guarda los cambios.
¿Por qué es importante el archivo robots.txt para el SEO?
El archivo robots.txt juega un papel importante en la estrategia SEO al permitirte controlar qué partes de tu sitio son rastreadas por los motores de búsqueda. Esto es especialmente útil si quieres evitar que se indexen páginas de bajo valor o si deseas ahorrar recursos en el rastreo.
Desde Muddlemetrics, creemos que muchos marketers piensan que esta es una tarea que debería hacer un informático, cuando en realidad podrían hacerlo ellos. Tener un buen control de este archivo es esencial para mejorar la eficiencia de las páginas.
Preguntas
¿Qué hago si tengo un subdominio?
Un subdominio no es tu dominio. Así que exige crear otro archivo de robots y así sucesivamente.
¿Puedo poner varias directivas?
Menos es más. Especificar a los user agent solo una vez e intenta establecer todas las directivas a ese mismo agente. Mantenlo simple y ordenado.