Cómo crear el archivo robots.txt para tu web en WordPress

 

archivo robots.txt

Todos los buscadores por mencionar los más conocidos cómo Google, Bing, Yahoo, utilizan un programa que a diario va indexando millones de sitios web buscando todo tipo de contenido de acuerdo al tipo de bot la mayoría se encarga de indexar por ejemplo; contenido nuevo escrito en tu web, imágenes y enlaces.

A este software se le denomina de diferentes formas como bot, robots, araña, crawler, etc. En el caso de Google, su robot principal se le conoce como Googlebot.

¿Por qué es tan necesario crear un archivo robots.txt en WordPress?

Un archivo de esta naturaleza en tan necesario porque uno de tus objetivos es mejorar tu posición SEO en los motores de búsqueda, dependiendo de la temática de tu sitio web, este facilita la indexación indicándole a los bots que es lo que no deben rastrear.

Hay que mencionar, además que si enviaste la url del Sitemap.xml de tu sitio a Google y Bing o a cualquier otro motor de búsqueda para que empiecen a indexar tu contenido, no es necesario que indiques la url en el fichero robots.

Si la indicas cualquier bot puede tener acceso a el y ver lo que quieres indexar, puede que te interese que otros buscadores no tan famosos como (Google o Yahoo) accedan a el, si quieres que eso pase puedes indicarle la URL del sitemap en este archivo para facilitarles la tarea, ya depende de tus objetivos.

Además el fichero robots.txt te permite denegar o permitir el acceso a determinados bots o impedir que algún contenido de ciertas carpetas sea indexado.

Cuando un bot llegue a tu web este comprobara si existe el archivo robots.txt, y si ese es el caso, seguirá las instrucciones que ahí se le indiquen para analizar la información, si bien ese el funcionamiento general de la mayoría de los bot, hay que tener en cuenta que no todos respetaran esas reglas.

Como todos sabemos hay personas que se dedican a fines pocos éticos como el SPAM, etc., muchos de ellos utilizan sus propios bots para captar cualquier tipo de información de una web y darle un mal uso, saltándose cualquier regla escrita en el fichero robots.txt.

Por eso es importante no colocar información comprometedora en el archivo robots y proteger la información privada con contraseñas que sean lo suficientemente seguras.

Tengo que mencionarte además para que tengas una idea que no solo hay 5 bots, existen más de un Millón de bot (arañas) que cada día están indexando todo tipo de información y el número quizás seguirá aumentando, es casi imposible bloquearlos a todos y no todos pasaran por tu web.

Pero creando un archivo robots.txt podrás establecer reglas que permitan límites para esos bots para que no afecten el SEO de la web y a su vez evitar que los recursos del servidor no se vean comprometidos por “exceso de visitas” ya que algunos bots consumen muchos recursos.

Este artículo supone que ya está familiarizado con la funcionalidad básica de WordPress y con la edición de ficheros en su hosting.

Cómo crear el archivo robots.txt en WordPress

Crear el archivo robots.txt es sumamente fácil y son 3 las maneras en la que lo puedes crear:

#1 - Utilizando el editor de texto del hosting:

Accediendo al cPanel ubicando la categoría ARCHIVOS, luego hacemos clic en la opción Administrador de archivos.

Categoria archivos cPanel hosting

Nos ubicamos en la carpeta raíz o directorio raíz de nuestro sitio web y hacemos clic en la opción +Archivo para crear un archivo nuevo, se abre la ventana y escribimos el nombre robots y la extensión de formato final que es .txt  luego clic en el botón "Create New File".

creando robots txt editor con el editor del hosting
Ya creado el robots.txt este aparecerá en la carpeta raíz hacemos clic derecho en el y luego clic en la opción "Edit" para agregar los comandos y parámetros.

robots txt edit

Escribimos:

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php

Que es el fichero más simple de robots para WordPress y guardamos los cambios.

robots.txt simple de wordpress

Donde;

User-agent: * (Indicamos que estas reglas son aplicables a todos los buscadores).
Disallow: (Indicamos que no indexe o denegamos el acceso a la carpeta o directorio que indiquemos).
Allow: (Se utiliza para permitir el acceso a un directorio especifico que se haya bloqueado con Disallow).

#2 - Con tu editor de texto preferido bien sea el bloc de notas de Windows, Notepad++, etc.

Abriendo un nuevo archivo en el editor de texto y guárdandolo con el nombre robots.txt. Solo tendrás que subirlo al directorio raíz de tu web a través del cPanel o cualquier medio que uses.

#3 - Utilizando el Plugins para SEO Yoast

Si tienes instalado y activo el plugin Yoast SEO, también puedes crear el archivo robots solo debes ir a la sección de “Herramientas” > “Editor de archivos” y crear tu archivo robots.txt.

En la imagen anterior es referencia de ejemplo ya que no existe un robots.txt perfecto porque todo depende de las necesidades de tu web.

Y no quiero indicarte que coloques las típicas lineas que encuentras en otros sitios web como por ejemplo:

User-agent: *
Allow: /wp-admin/admin-ajax.php
Disallow: /wp-admin/
Disallow: /wp-login
Allow: /wp-content/uploads/*
Allow: /wp-content/*.js
Allow: /wp-content/*.css
Allow: /wp-includes/*.js
Allow: /wp-includes/*.css
Disallow: /tag/*/page/
Disallow: /tag/*/feed/
Disallow: /page/
Disallow: /comments/
Disallow: /xmlrpc.php
Disallow: /cgi-bin
Disallow: /author
Disallow: /*replytocom=
Disallow: /wp-content/plugins/
Disallow: /wp-content/themes/
Disallow: /wp-includes/

Que puedan dañar tu estrategia de SEO.

Mencione anteriormente que las lineas más comunes del fichero robots que te encontrabas en un sitio web WordPress eran:

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php

Sin embargo ya esas lineas no son necesarias, porque WordPress ya les esta aplicando Noindex mediante encabezado HTTP de X-Robots-Tag al directorio /wp-admin/admin-ajax.php.

Puedes mirarlo por ti mismo haciendo uso de la consola de herramientas de Google Chrome en el panel de administración de WordPress. Haciendo clic derecho con el mouse en Inspeccionar y luego clic en la pestaña Network.

 

x robots tag wordpress
Encabezado X-Robots-Tag: noindex

Como puedes observar esta indicándole a los motores de búsqueda que no rastreen o indexen la página, archivo o directorio particular.

Aún así si deseas seguir usando la directivas puedes hacerlo, pero no tiene sentido que sigas usándola.

Conclusión

Para saber si tienes el archivo robots creado solo tendrás que escribir /robots.txt al final de tu dominio. Por ejemplo: www.tudominio.net/robots.txt

Se recomienda no incluir en un fichero robots.txt más de 100 líneas de Disallow.

La regla Disallow se utiliza cuando se quiera bloquear carpetas completas.

Si es sólo una página suelta, las etiquetas meta "noindex" son más eficaces.

Con el plugin Yoast SEO puedes añadir “noindex” a las páginas que necesites simplemente yendo a la zona de edición de la página en cuestión y en la caja de Yoast SEO haces clic en el icono engrane y seleccionas “noindex” en el apartado "Meta robots index" del plugin Yoast SEO.

Para tener una idea de lo que ha indexado Google de nuestra web haga una búsqueda para su sitio así. Escribiendo en la búsqueda “site:www.tudominio.net“.

Comparte esto en:

Ayúdame a mejorar, califica este artículo con un voto

(3 votos, promedio: 4,00 de 5)
Cargando…

También te puede interesar

2 Comentarios

  1. Gracias por el buen contenido y directo a la información. 👍👍
    Me interesa saber más de los bots que hay en Internet y sobre todo los maliciosos y el SPAM hacia nuestras webs, y cómo preparar nuestra web no sólo a nivel interno sino a nivel de servidor, para que se pueda defender eficientemente sin perjudicar el SEO.

    1. Hola Aarom,

      Muchas gracias y me alegro que te haya sido de ayuda.

      Como ya debes saber el SPAM existe en diferentes niveles, comentarios, referencia, etc.

      Para prevenir el spam en los comentarios el plugin Akismet funciona de mil maravillas.

      Pero si usas un plugin como disqus para la gestión de comentarios instalar Akismet no es necesario, disqus se encarga de “todo”.

      El bloqueo de bots a nivel de solicitud de servidor lo puedes hacer editando el .htaccess funciona mejor y más simple, que agregando una directiva por ejemplo:

      User-agent: Baiduspider
      Disallow: /

      en el fichero robots.txt, porque algunos bots ignoran por completo las reglas.

      En el post “Bloquear IP y User-Agent” escribí como bloquear bots implementando la directiva SetEnvIfNoCase en un servidor Apache y en otro como bloquearlos usando RewriteEngine cualquier método funciona, ambos con enlace a un directorio Github donde se encuentra el listado de bots malos que se va actualizando periódicamente.

      En mi caso no obtengo ningún beneficio de “AHRefs” o “MJ12” o cualquiera de su clase, son sanguijuelas raspantes que actúan para compañías de SEO, por lo que los bloqueo desde el .htaccess usando SetEnvIfNoCase User-Agent.

      El tráfico de referencia en algunos casos es mejor bloquearlo desde Google Analytics aplicando filtros para que no afecten nuestra estadística que es lo que más nos interesa.

      Hay un post titulado “Cómo filtrar el Referrer Spam y el Ghost Spam de Google Analytics” un mini-tutorial donde escribí como filtrar este tipo de tráfico dañino.

      ¡Una manera de detectar este tipo de bots/referencia es revisando su registro de acceso para saber si hay un exceso de rastreo!

      Para culminar combinando el filtro por Google Analytics y el bloqueo por .htaccess según sea el caso conseguimos reducir en gran medida las visitas del spam de referencia en las estadísticas.

Deja un comentario

Tenga en cuenta que todos los comentarios de este blog se moderan de acuerdo con la política de comentarios, y su dirección de correo electrónico NO se publicará, así que transcurrirá un tiempo entre su escritura y publicación. NO use palabras clave en el campo de Nombre. Y por favor no envíe su comentario dos veces.

Información básica sobre Protección de Datos
Responsable: Samuel Marcano +info
Finalidad: Moderar los comentarios a los artículos publicados en el blog. +info
Legitimación: Consentimiento del interesado +info
Destinatarios: No se comunicarán datos a persona u organización alguna. +info
Derechos: Tiene derecho a Acceder, rectificar, así como otros derechos, como se explica en la información adicional. +info
Plazo de conservación de los datos: Indefinidamente.
Información adicional: Puede consultar la información adicional y detallada sobre Protección de Datos Personales en la Política de Privacidad +info

Centro de preferencias de privacidad

Cookies Imprescindibles

Su usan para el correcto funcionamiento de la web como mostrarte el contenido más rápido y tus preferencias de privacidad.

gdpr, gawdp, __cfduid

Cookies de Terceros

Usamos cookies de terceros que se almacenan externamente para conocer su hábitos de navegación, si ya estás suscrito al boletín, y los elementos compartidos en redes sociales

1P_JAR, APISID, CONSENT, HPSID, NID, SAPISID, SID, SIDCC, SSID
1P_JAR, APISID, CONSENT, HPSID, NID, SAPISID, SID, SIDCC, SSID