J’ai eu un problème de support intéréssant que tout SEO devrait connaître.
Si vous ne vérifiez pas votre site web dans les Webmaster Tools de Majestic, il y a une réelle chance pour que votre hébergeur freine le trafic de votre site web.
Certains hébergeurs tentent de garder leur coût de bande passante bas sans vous dire qu’ils bloquent une partie de votre trafic, en particulier le trafic des robots. Le problème, c’est qu’ils peuvent seulement (et facilement) bloquer les “bons” robots, ceux qui choisissent de s’identifier et par conséquent d’obéir aux Robots.txt.
Ainsi, ces hébergeurs bloquent de bons robots, mais laissent les mauvais sans que vous ayez idée qu’il le fasse.
La plupart des SEOs vérifieront un site web sur la Search Console (plus connu sous le nom de Google Webmaster Tools) pour avoir un aperçu de leur données SEO. Les SEO malins vérifieront aussi les Bing Webmaster Tools car ils ont aussi des caractéristiques définies. Seul le pire hébergeur web essaiera de bloquer ces robots…mais vous seriez surpris de savoir combien le font. Je vous recommande donc de presser le bouton “fetch as Googlebot” de façon régulière dans les Webmaster Tools de Google pour être sûr que votre site web n’est pas directement bloqué par l’hébergeur.
Au delà de ces deux robots, certains hébergeurs peuvent choisir d’en bloquer d’autres. Le problème est que la façon dont ils les bloquent n’est pas via le Robots.txt mais plutôt via leur pare-feu. Ainsi, vous, en tant que propriétaire de site, n’avez aucune idée que les araignées sont en train d’être bloquées. Cela veut dire que:
- Vous pouvez ne pas positionné dans les moteurs de recherche comme Yandex ou Baidu.
- Vous pouvez aussi ne pas vous positionner très haut dans le moteur de recherche de Majestic “Search Explorer”.
- Google a d’autres robots comme http://www.google.com/feedfetcher.html qui peut aussi être bloqué
- Microsoft a d’autres robots comme son kit média MSN Bot.
- Les sites WordPress n’apparaîtront pas dans les fils de nouvelles.
Beaucoup, BEAUCOUP de sets de données prennent leur signal à partir de données crawlées par un bon robot (et les mauvais). Fatalement, bloquer des robots doit être un signal d’avertissement car cela peut vous coûter en trafic réel de multiples façons. N’importe quel utilisateur WordPress, par exemple, a un flux RSS intégré aux paramètres par défaut d’installation et lorsqu’un nouveau post est crée, WordPress utilise un système appelé Pingomatic pour appeler ces services par défaut. Maintenant, si vous avez un problème spécifique avec l’un de ces services, vous pouvez toujours désactiver cette option ou bloquer le service dans le Robots.txt mais que faire si votre hébergeur les bloque à la source ? Un peu injuste vous ne pensez pas ?
Puis-je enregistrer mes logs si mon hébergeur fait cela ?
C’est peu probable. La réponse de l’hébergeur attribuera à ces robots une erreur 403, et non une 404 ou une 500. Le blocage est généré avant d’accéder à votre site. Vous devez vérifier depuis l’extérieur de l’hébergeur.
Confirmer votre site dans Majestic
Faîtes le maintenant. Si vous connaissez l’identifiant de votre Search Console, cela prendra 1 seconde. Si vous ne l’avez pas, vous pouvez toujours le faire en quelques minutes. Il vérifie que nous sommes réellement capable de crawler votre site. Si nous ne pouvons pas, alors votre hébergeur ne le pourra pas non plus et demandez vous ce qu’ils bloquent également afin de vous faire votre propre opinion ou de changer d’hébergeur. Il n’existe pas beaucoup de sociétés d’hébergement qui recourent à ces pratiques mais une ou deux sont relativement importantes et ne savent ou se soucient généralement pas de nuire à des entreprises.
En utilisant notre service de vérification, vous pouvez être sûr que votre société d’hébergement ne se moque pas de vous.
Pourquoi devrais-je laisser les robots de Majestic parcourir mon site ?
C’est une question juste. Garder à l’esprit que vous ne cachez vraiment pas votre site web en bloquant notre robot, car nous vous montrons des liens au sein d’un site. Nous n’avons en réalité pas besoin de crawler un site pour le savoir. Si vous regardez une carte routière, elle n’indique pas la taille de la ville mais vous pouvez le déduire en regardant juste la taille et le nombre de route de cette ville. C’est la même chose avec les graphiques de liens. Alors bloquer nos robots nous empêche seulement de voir les liens en dehors de votre site web vers d’autres sites.
Bloquer notre robot n’apporte donc aucun bénéfice. Mais il y a des avantages à s’assurer qu’il le parcourt… en voici quelques uns:
- La vérification est gratuite et dès que vous l’avez fait vous pouvez utiliser le Site Explorer et générer des rapports avancés pour vos propres sites. Cette donnée est inestimable pour n’importe quel SEO et une partie est même impossible à trouver ailleurs sur Internet.
- Lorsque certains acteurs évaluent la valeur de votre site par rapport au leur, ils regarderont les liens au sein de leur site venant de vous en arrivant les mains vides. Il viendront donc sans jamais interagir avec vous ou vos utilisateurs.
- N’oubliez pas que dorénavant nous sommes également un moteur de recherche. Bien que nous ne nous attendons pas à ce que les clients se ruent sur Majestic en tant que moteur de recherche (nous ne sommes pas naïfs), nous avons maintenant l’un des crawlers les plus importants de la planète et une API de recherche en développement. Sans rentrer trop dans les détails, pouvez vous imaginer combien d’acteurs globaux pourraient considérer cette API comme utile dans leurs propositions commerciales/de site web ou d’entreprise ?
- Après avoir dit que Majestic.com avait peu de chance de devenir un gros acteur face à un moteur de recherche, nous sommes actuellement au sein du top 1 000 des sites mondiaux d’après Alexa. Ne renoncez donc pas à du trafic direct (et gratuit) simplement parce que votre hébergeur n’a pas été juste avec vous.
- Nous vous montrons des erreurs 404 (et pleins d’autres types) sur votre site et des liens issus de sites tiers qui ne sont pas “complet”, vous montrant comment vous perdez davantage de trafic.
Confirmez maintenant votre site gratuitement sur https://majestic.com/webmaster-tools et n’oubliez pas de le faire pour vos clients également.
Je ne peux pas confirmer le site de mes clients, puis-je quand même vérifier ?
Oui – du moment que vous avez un abonnement Majestic, la vérification est très simple. Connectez-vous, puis renseignez le nom du site sur la page d’accueil de Majestic.com. Cliquez sur l’onglet “Pages”. Si chaque page est enregistrée en tant que “403 Forbidden” alors votre hébergeur web est certainement en train de bloquer des robots légitimes comme les nôtres de votre site.
Et que faire si je dois payer pour ma bande passante ?
La plupart des sociétés d’hébergement ne facturent pas en fonction de la bande passante – bien que les plus grandes entreprises seront facturées de cette façon. Cela sera susceptible de coûter plus cher sur le long terme si vous bloquez les robots légitimes. En clair, bloquer nos robots empêchera fatalement les vrais visiteurs de votre site web puisque notre donnée est utilisée dans de nombreuses applications web autour du monde mais si vous vous en inquiétez, la bonne solution serait d’utiliser le protocol “Crawl Delay” dans le Robots.txt afin de contrôler la bande passante.
Comment puis-je confirmer mon site dans vos Webmaster Tools ?
Connectez vous avec un compte gratuit et rendez-vous ici.
- Nouvelle version de l’outil Solo Links - August 3, 2018
- Mise à jour de l’index historique - July 30, 2018
- Mise à jour de l’index historique : juin 2018 - June 11, 2018