Aquí tengo una recomendación interesante que todo SEO debería tener en cuenta: si no verificas tu sitio con la herramienta Webmaster Tools de Majestic, hay una posibilidad real de que no sepas si tu empresa de hosting esté restringiendo el tráfico a tu sitio.

Algunas compañías de hosting tratan de controlar el consumo de ancho banda sin decirte que están bloqueando el tráfico hacia tu sitio – particularmente el tráfico de robots. El problema es que ellos sólo pueden bloquear (fácilmente) los robots “buenos” – aquellos que se identifican a sí mismos y por tanto, obedecen al archivo robots.txt.

Así pues, estas empresas de hosting bloquean a los robots bueno, pero dejan pasar a los malos, y puede que tú no tengas ni idea de que lo están haciendo.

La mayoría de los SEOs verificará su sitio web a través de la herramienta Google Search Console (antes conocida como Google Webmaster Tools) para hacerse una idea de sus datos de posicionamiento. Algunos incluso utilizarán la herramienta WebmasterTools de Bing ya que también les puede ofrecer algunas características interesantes. En principio, sólo la compañía de hosting más barata bloquearía esos robots… pero te sorprendería saber cuántas lo hacen. Así que te sugiero que, ocasionalmente, entres en tu herramienta Search Console de Google, y hagas clic en “explorar como Googlebot”, para asegurarte de que tu sitio no está bloqueado directamente por el servicio de hosting.

Además de estos dos bots, algunas empresas de alojamiento pueden decidir bloquear otros. El problema es que lo hacen en bloque y no mediante el archivo robots.txt, sino más bien a través de su servidor de seguridad…así que tú, como propietario del sitio, no tienes ni idea de qué arañas están siendo bloqueadas. Esto significa:

  • Es posible que no aparezcas en buscadores como Yandex o Baidu.
  • Es posible que tampoco puedas ser encontrado por el motor de búsqueda de Majestic: “Search Explorer
  • Google tiene otros bots como http://www.google.com/feedfetcher.html que también pueden ser bloqueados.
  • Microsoft tiene otros bots, como MSN Bot
  • Los sitios de WordPress no podrán entrar en los feeds de noticias (feeds RSS).

Muchos – repito MUCHOS – datos ofrecen señales de que un sitio ha sido rastreado por bots buenos (y bots malos). En definitiva, el bloqueo de bots ha de ser una tarea que se realice con sumo cuidado, porque existen innumerables formas de que estemos bloqueando tráfico real. Cualquier usuario de WordPress, por ejemplo, tiene un feed RSS construido en la instalación por defecto y cuando crea un nuevo post, WordPress usa un sistema llamado Pingomatic para notificarlo de manera predeterminada. Ahora, si tienes un problema específico con uno de esos servicios, siempre puedes apagar o bloquear el servicio en el robots.txt, pero ¿y si tu empresa bloquea esos servicios por su origen? ¿Un poco injusto, no lo crees?

¿Puedo comprobar en los registro (logs) si mi hosting está haciendo esto?

Es poco probable. La respuesta de estas empresas de alojamiento es dar a esos bots un error 403, no un 404 o un 500. El bloqueo es generado antes de que accedan al sitio. Necesitas comprobarlo desde fuera de la empresa de hosting.

Verifica tu sitio con Majestic

Hazlo ahora. Si conoces tus credenciales de acceso a Google Search Console te llevará unos segundos. Si no, todavía puedes hacerlo pero te llevará unos minutos. Esto demuestra que somos realmente capaces de rastrear tu sitio. Si nosotros no podemos, entonces debes hablar con tu empresa de alojamiento para que te deje hacerlo y te diga qué más están bloqueando, para poder tomar tus propias decisiones o cambiar de empresa de hosting. No hay muchas empresas de alojamiento que lo hagan, pero  una o dos ya son suficientes y, generalmente, no saben o no les importa que esto afecte a las empresas que allí se alojan.

Mediante el uso de nuestro servicio de verificación, puedes asegurarte de que tu empresa de alojamiento no está jugando contigo.

¿Por qué debo dejar que el bot de Majestic acceda a mi sitio?

Es una pregunta lógica. Ten en cuenta que realmente no estas “ocultando” tu sitio por bloquear nuestro robot, ya que seguimos mostrando tus enlaces en otras páginas web. No necesitamos rastrear tu sitio para saber sobre él. Si nos fijamos en un mapa de carreteras, éste no dice nada sobre el tamaño de las ciudades, pero podemos deducirlo más o menos mirando el número de carreteras que van hacia ellas. Es lo mismo que el gráfico de enlaces. Así que bloqueando nuestro bot sólo bloqueas que sepamos los enlaces que van desde tu sitio hacia otros sitios web.

Así que el beneficio de bloquear nuesto bot es prácticamente nulo. Los beneficios de asegurarse de que sí puede rastrear su sitio… son muchos:

  • La verificación es gratuita y tan pronto como lo hagas podrás usar el Explorador del Sitio para generar informes avanzado de tus propios sitios. Estos datos son de gran valor para cualquier SEO y algunos son imposibles de encontrar en cualquier otro sitio de Internet.
  • Cuando otros están evaluando el “valor” de tu sitio para ellos, mirarán los enlaces de su sitio que reciben desde el tuyo y que no aportan nada. A continuación pasarán de largo y nunca llegarán a conectar contigo o con tus usuarios
  • No olvides que ahora nosotros también somos un motor de búsquedas. Si bien no esperamos que los consumidores vayan a buscar a través de Majestic (no somos ingenuos) ahora somos uno de los rastreadores más grandes del planeta y tenemos una API de búsqueda en desarrollo. Sin entrar en detalles, ¿puedes imaginarte cuantas empresas grandes están pensando que esta es una API potente para utilizar en las propuestas a empresas/negocios/websites de su compañía?
  • Habiendo dicho que Majestic.com es poco probable que sea usado como motor de búsqueda por los usuarios, sí podemos afirmar que actualmente estamos entre el TOP 1.000 de sitios web en el mundo según Alexa. Así que no pierdas tráfico directo (y gratuito) sólo porque tu proveedor de alojamiento no esté jugando limpio contigo.
  • Te mostramos los errores 404 (y otro tipo de errores) de tu sitio y los enlaces de terceros hacia tu domino que no están “completos”, mostrándote cómo estar perdiendo aún más tráfico.

Verifica tu sitio ahora gratis en https://majestic.com/webmaster-tools y hazlo también con los sitios de tus clientes.

No puedo verificar el sitio de mi cliente, ¿todavía puedo comprobarlo?

Sí, siempre y cuando tengas una suscripción de Majestic, la comprobación es muy fácil. Entra con tu usuario en la página principal de Majestic.com. Haz clic en la pestaña “Páginas”. Si cada página está registrada como “403 Forbidden” entonces es casi seguro que tu servidor de alojamiento está bloqueando bots legítimos, como el nuestro, hacia tu sitio.

¿Qué pasa si tengo que pagar por el consume de ancho de banda?

La mayoría de empresas de alojamiento no cobran por el ancho de banda – a pesar de que el mayor negocio lo harían de esa manera. Es probable que les cueste más a largo plazo si bloquea los robots legítimos. En resumen, bloqueando nuestro bot en última instancia, también bloquean usuarios reales a tu sitio, así como bloquean nuestros datos, que son utilizados por muchas aplicaciones web alrededor de todo el mundo. Pero si te preocupa esto, la solución adecuada sería usar el protoclo “Crawl Delay” en el robots.txt para controlar el consumo realizado.

¿Cómo verifico mi sitio en la herramienta Webmaster Tools?

Inicia sesión y haz clic aquí.