Skip to content Skip to sidebar Skip to footer

Robots.txt – De 0 a experto

El rastreo de un sitio web es parte fundamental para poder llevar a cabo un correcto trabajo en tu estrategia SEO, para esto tienes que tener un robots.txt optimizado, hemos desarrollado en kwseo.net, tu agencia seo especializada en resultados, una guia de robots.txt, para que cualquier persona sin conocimiento técnicos pueda entender, si eres marketero, empresario o estudiante, esta guía es perfecta para ti.

El rastreo de un sitio web es parte fundamental para poder llevar a cabo un correcto trabajo en tu estrategia SEO, para esto tienes que tener un robots.txt optimizado, hemos desarrollado en kwseo.net, tu agencia seo especializada en resultados, una guia de robots.txt, para que cualquier persona sin conocimiento técnicos pueda entender, si eres marketero, empresario o estudiante, esta guía es perfecta para ti.

¿Qué es un Robots.txt?

El Robots.txt es un archivo el cual sirve para dar directrices a los robots de los buscadores (Google, Bing, Yahoo, etc) qué páginas pueden o no rastrear. Este archivo debe ser desarrollado bajo el estándar de exclusión de robots.

Este archivo debe de estar alojado en la carpeta raíz de tu sitio web (un ejemplo: tudominio.abc/robots.txt)

¿Qué necesito saber antes de crear mi archivo Robots.txt?

  • El archivo robots.txt puede tener 1 o más grupos.
  • Cada grupo tiene puede tener reglas personalizadas. Debe añadirse una directiva por línea.
  • Cada grupo comienza con una línea User-agent en la que se indica el objetivo de los grupos.
  • En cada grupo se debe proporcionar la siguiente información:
    • user‑agent: A quién o quiénes se aplica el grupo (bots de los buscaddores, ejm Googlebot).
    • A qué directorios o archivos puede o no acceder ese user-agent.
  • Los rastreadores procesan grupos de arriba a abajo y los user-agents solo pueden coincidir con un conjunto de reglas, es decir, si en un grupo de user agent, por ejemplo, Googlebot, debes de indicar todas las directrices en este primer grupo, si vuelves a usar este user-agent en otro grupo, ya no se tomará en cuenta las demás directrices en esto grupos.
  • Los user‑agent pueden rastrear todas las páginas de tu sitio web, la única forma de solicitar un bloqueo es mediante una regla disallow.
  • Es importante tener muy en cuenta el uso de las mayúsculas, ya que el robots.txt si distingue entre mayúsculas y minúsculas. Por ejemplo, disallow: /pepe.xml se aplica a https://www.tudominio.abc/pepe.xml, pero no se aplicara a https://www.tudominio.abc/PEPE.xml.
  • Si quieres dejar notas de porque agregaste una línea a tu robos.txt para tu webmaster o SEO, puedes dejar comentarios empezando con #. Un ejemplo #Esto permite rastrear todos los bots.

Directivas admitidas por el robots.txt

  • User-agent: Esta directiva indica el nombre del cliente o “rastreador de buscador”, al que se aplica la regla en este grupo. Es la primera línea de cualquier grupo de reglas. A continuación los user-agents en la lista de Google. El asterisco (*) significa que esta directiva aplica a todos los rastreadores.

Ejemplo de robots.txt

#Este permite el acceso de todos los rastreadores

      User-agent: *

  • Disallow: Con esta directiva puedes indicar que un directorio o una página del dominio raíz que no quieres que rastree el user-agent determinado. Si la regla hace referencia a una página, debe ser el nombre completo de la página, tal como se muestra en el navegador. Debe comenzar con un carácter / y, si hace referencia a un directorio, debe terminar con el carácter /.
  • Allow:  Indica los directorios o las páginas del dominio raíz que el user‑agent que se haya especificado en el grupo debe rastrear. Sirve para anular la directiva disallow y permitir que se rastree un determinado subdirectorio o una determinada página de un directorio bloqueado. Si se trata de una sola página, especifica su nombre completo tal como se muestra en el navegador. En caso de que se trate de un directorio, incluye un carácter / al final de la regla.

Importante: En cada regla debe haber por lo menos una entrada disallow o allow.

Deja un comentario