como implementar el robots txt para mejorar el seo by irene quiñones
SEO

Cómo implementar el Robots.txt para mejorar el SEO de tu web

20/02/2018

Hay contenidos que no queremos que Google indexe, pero si que aparezca en nuestro sitio web, que se muestren a los visitantes. Para lograr esto, agregamos unas instrucciones en el Robots.txt, un archivo ubicado en la raíz del sitio.

Aclaremos algunos términos:

Índice de Google

Se refiere a las páginas rastreadas y organizadas en forma de directorio. A este tipo de organización se le llama Índice de Google en el caso de este buscador. Tenga presente que no almacenan las páginas sino la URL y una descripción del sitio.

También necesitan conocer más sobre el sitio, para ello se apoyan en el sitemap.xml que proporciona el listado de las páginas que conforman el sitio. Este archivo junto al Robots.txt permiten conocer cómo está compuesto el sitio y a cuál información se puede acceder.

Robot de Google

Se trata del software de Google que rastrea la web y las indexa. Le dan varios nombres genéricos: rastreador, bots de Google, Googlebot o robot de Google.

Robots.txt

Es un archivo que contiene ciertas instrucciones de código para indicar a los motores de búsqueda a qué partes de un sitio web no puede acceder para rastrear e indexar. Se ubica en la raíz del sitio.

Importancia del archivo Robots.txt

Este archivo no realiza un bloqueo exclusivo. Aún creando el archivo es posible que algunas páginas bloqueadas sean rastreadas por los buscadores y se muestre la URL. Google en su blog oficial hace esta observación, tenlo presente más si las páginas que deseas bloquear contienen información sensible o confidencial.

Cuando los motores de búsqueda no cumplan con las instrucciones configuradas en el archivo Robots.txt, queda expuesto. Cualquier usuario puede acceder a este y obtener la URL que no que no se desea mostrar, incluyendo URLs privadas. Muchos se confían en que el archivo evitará que los bots accedan a las páginas bloqueadas pero el problema está es que es un archivo público. Cualquier persona con algo de conocimiento y un navegador web puede acceder a ellas, representando un bocado apetitoso para los hackers.

Para solucionar esto, tienes estas tres opciones:  Robots.txt

  • Usa la etiqueta “noindex”
  • Elimina la página o entrada del sitio web
  • Protege con una contraseña de acceso.

Nota 1:

Tenga presente que si su sitio está compuesto por varios subdominios, debe crear un archivo Robots.txt para cada uno y almacenarlo en la carpeta correspondiente.

Cómo generar el Robots.txt

Wikipedia define el archivo .txt como un archivo de texto plano, sencillo o texto sin formato. Está compuesto por bytes que representan caracteres ordinarios: letras, números, signos de puntuación, espacios en blanco, tabulaciones, saltos de línea y retornos de carro.

Usa distintos sistemas de codificación según la lengua usada, los más comunes son ASCII, ISO-8859-1, Latín-1 y UTF-8.

Existen tres formas de generar el archivo Robots.txt, puedes hacerlo con un editor de textos simple o a través de una herramienta de generación.

Con un editor simple

Cualquier editor de textos es útil para crear este archivo. En Windows puedes usar NotePad++ o Blog de notas. Desde Linux tienes Vim o gedit.

Creas el archivo y lo subes al servidor vía FTP con Filezilla.

A través de una herramienta

Conozco al menos tres herramientas para generar el archivo Robots.txt que serán de gran utilidad al finalizar de leer este artículo, estas son:

Nota 2:

Este archivo no es indispensable siempre que no estén en tus planes el bloquear alguna página a la que no desees que rastreen los buscadores. Ahora… esto es relativo ya que algunas páginas como wp-admin, entradas con contenido escaso o categorías que no le aportan fuerza a tu sitio es posible que quieras evitar sean indexadas.

Toma esto como una aclaratoria y piensa qué es lo más recomendable para tu sitio.

Formato básico del archivo Robots.txt

User-agent: *
Disallow: /privado/

Sintaxis de las instrucciones del archivo

Cada instrucción es de la forma <Campo> “:” <valor> e inicia con una o más líneas de agente de usuario donde se indica a que robot aplica, seguido de valor (permitido o no permitido).

En la sección anterior, leemos:

User-agent: *

El asterisco indica que se permite todos. Para indicar que permitimos el acceso a los Google y Bing pero no a Baidu, escribimos:

User-agent: Google

Disallow: *

User-agent: Bing

Disallow: *

User-agent: Baidu

Disallow: /

Significado de las instrucciones y sus valores

  • “/”, ninguno
  • “*”, todos
  • “#”, lo que sigue a continuación es un comentario
  • User-agent: Indica el robot que cumplirá con las instrucciones especificadas en el archivo
  • Disallow: Niega el acceso a una página o directorio
  • Allow: Permite el acceso a directorio y página
  • Sitemap: Mapa del sitio en formato XML

Ejemplos de Robots.txt

User-agent: Googlebot  #Se permite solo acceso a este bot

Disallow: 

User-agent: * 

Disallow: /  # Se bloquea el acceso al resto de los bots

Disallow: /private/  #Se limita el acceso a este directorio

Nestlé

Robots.txt nestle venezuela

MovistarRobots.txt movistar venezuela

Empresas Polar

robots txt empresas polar venezuela

¿Cómo accede el robot al sitio web?

Existe un estándar que especifica al robot la forma en que accederá al sitio y leerá la información, por ello es importante que exista el archivo /Robots.txt ya que ahí buscará las instrucciones a seguir:

  • Si no encuentra limitaciones se asume que puede leer el contenido con éxito, analizarlo y continuar a la siguiente URL
  • Cuando encuentra un código de estado 404, asume que no existe la página y el acceso al sitio no está restringido
  • Si encuentra una restricción de código 401 o 403, considera que el acceso está totalmente restringido
  • Las fallas de lectura temporal le indican al robot que debe diferir la visita hasta que el recurso esté disponible
  • De encontrar una redirección de código 301, el robot sigue la ruta hasta encontrar el recurso destino.

Herramienta para validar el archivo Robots.txt

Para validar tu archivo Robots.txt lo primero que debes hacer es cargar la herramienta Google Search Consolecrear una propiedad o seleccionar una existente. Si la propiedad existe, selecciona Detalles de la propiedad.

Si aún no has validado el archivo verás la siguiente información:

prueba-1-robots-txt

 

Tienes varios métodos para validar tu archivo:

  • A través de metatags
  • Usando una cuenta de Google Tag Manager
  • Con una cuenta de Google Analytics
  • Subiendo un archivo HTML a tu sitio
  • Registrando un nombre de dominio

Cuando ya ha sido validado se mostrará así:

prueba-2- Robots.txt

El probador te mostrará los distintos errores de sintaxis o lógicos encontrados. También permite validar el acceso al agente usuario autorizado. Si encuentra algún error, procede a modificar el archivo y actualizarlo en el sitio web. Luego regresa al probador.

En la imagen, estoy comprobando que en efecto está bloqueado el acceso a la URL de acceso a la web a través de la página de logueo del usuario de WordPress.

¿Quieres aprender más sobre este tema? Te recomiendo visitar la página oficial The Web Robots Pages, encontrarás información muy útil.

Conclusión

El archivo Robots.txt es necesario si necesitas evitar que los buscadores rastreen e indexen algunas páginas de tu sitio web, de lo contrario puede ser omitido del sitio.

Como siempre digo en temas de seguridad informática, pregúntese si la información que usted quiere compartir será de dominio público, si la respuesta es positiva, publique.

Si decide implementar el archivo en su sitio, trabaje en mejorar el contenido en función de la calidad y estructura del sitio. Evite redirecciones innecesarias y proteja las páginas con datos sensibles con métodos más seguros.

No olvide incluir la URL del sitemap.xml para facilitar el rastreo dentro de su sitio y los enlaces correspondientes.

Algo que debes tener presente siempre es que cuando los buscadores rastrean un sitio web, escanean todas las páginas internas de tu sitio. En el supuesto de tener un sitio con muchas páginas, no haber creado el archivo sitemap.xml y no configurar correctamente el archivo Robots.txt para indicar a donde  no debe acceder el robot, éste tardará mucho más en rastrear.

Cuando un sitio web tiene contenido duplicado, páginas con error 404, entradas con contenido de baja calidad afecta de forma negativa el proceso que realiza el robot del buscador. Al tardar demasiado, afecta negativamente el posicionamiento de tu sitio. ¿Cómo? Las páginas que rastrea no serán de calidad por lo tanto no las indexará. En consecuencia, no aparecerá en los resultados de búsqueda del Google.

Imagen: Freepik.es

Madre, informática, blogger, Consultora SEO y Marketing Analytics enfocada en descubrir el lado humano del Social Media desde los datos y las buenas prácticas en el mundo digital.

Creadora del programa de mentoring Código Social Media y los 100 tips para escribir mejor en la web #LápicesYTeclas

Deja aquí tu comentario