Previamente a ver cómo crear un archivo robots.txt vamos a enseñarte su funcionamiento de un modo muy sencillo.

El archivo robots.txt se compone de dos elementos fundamentales, los cuales le explican a los rastreadores cómo podría ser Google lo que tiene que hacer en nuestra web al aterrizar en ella.

User agent

El User agent indica al rastreador lo que debe hacer con nuestras páginas. Este rastreador puede ser Googlebot, Googlebot-Video, Yandex, Baidu, Bing, etc.

Como no vas a marcar todos los tipos de rastreadores web del mundo, entonces lo mejor es que le des esta directiva: « (el asterisco de toda la vida). Esto provoca una orden en todos los rastreadores que aterricen en tu web.

Directivas

Las directivas de Robots.txt son las reglas que seguirá el user agent. De este modo quedaría así:

Primero el rastreador (googlebot por ejemplo) recibe la instrucción de leer un sitio web, a continuación entabla la relación con el archivo robots.txt y este le especifica qué páginas o secciones de tu sitio web deben o no rastrearse.

allow y disallow en archivo de robotsEntre las directivas más famosas que puedes ver dentro del archivo robots seguramente es el famoso «disallow»

Disallow: indica a los rastreadores que no accedan a esa ruta

Allow: indica que se den un paseo tranquilamente

Muddle consejo: Es muy habitual indicar la ruta de tu mapa del sitio (sitemap). Nosotros te aconsejamos que lo subas para ayudar a los rastreadores a ahorrar dinero.

¿Cómo crear un archivo robots.txt?

En caso de utilizar WordPress seguramente ya has creado este archivo. Sin embargo en caso de que no estés seguro o quieras hacer cambios en el archivo robots.txt puedes ayudarte de: Yoast SEO o Rank Math.  Estos plugins facilitan el control sin tener que escribir ninguna sintaxis complicada.

Otro modo, un pelín más técnico es editar el archivo robots.txt a través de FTP. Para poder hacer esto, simplemente abres un bloc de notas en tu pc y añades tus directivas, luego lo subes a tu hosting y ya quedaría listo.

imagen que muestra una edición del archivo robots.txtComprobar su funcionamiento

Hay muchas formas de comprobar que su archivo robots.txt esta correctamente implementando para los rastreadores.

El archivo por defecto se alojará en «https://tudominio.com/robots.txt

Para comprobar si los motores de búsqueda como Google pueden ya hacer uso de tu archivo y de las «normas» tienes la opción de utilizar este test

Preguntas

¿Qué hago si tengo un subdominio?

Un subdominio no es tu dominio. Así que exige crear otro archivo de robots y así sucesivamente.

¿Puedo poner varias directivas?

Menos es más. Especificar a los user agent solo una vez e intenta establecer todas las directivas a ese mismo agente. Mantenlo simple y ordenado.