Cet article a été écrit par Dixon Jones, Directeur Marketing de Majestic SEO, ce qui suit est une libre traduction, l’article original est ici. Il revient sur différentes discussions qu’il a eues avec Vanessa Fox et David Burgess il y a quelques semaines à SMX Advanced New York, à propos du fait que beaucoup de webmasters reprochent à Google de ne pas prendre rapidement en compte les suppressions de liens suite à des pénalités du type Pinguin.

Du côté de Majestic l’identification de ces suppressions de liens n’est pas non plus une mince affaire, mais je crois que nous nous en sortons certainement mieux que beaucoup de fournisseurs de données sur backlinks, et ce en partie grâce à la fréquente mise à jour de notre index. Tout n’est pas encore parfait, mais nous y travaillons !

Nous pensons qu’il est important de comprendre quels sont les contraintes des crawler web afin d’identifier les impacts qu’ils peuvent avoir sur vos sites.

 Tout d’abord, Majestic SEO ne peut pas parler au nom de Google. Nous ne « scrappons » pas Google ni n’essayons de répliquer leur index de quelque manière que ce soit. Nos données sont exclusives et il y a des différences notables entre les index de Google, leur méthodes de crawl, et les nôtres.

Sachez qu’il existe de sérieux défis pour les moteurs de recherche quand il s’agît de crawler régulièrement des pages à l’échelle du web. En effet, quelle que soit votre nombre de machines à disposition ou le nombre de crawlers que vous pouvez paralléliser, vous devez faire des choix, et notamment en matière de gestion de vos ressources. Si vous avez besoin de construire votre index ou votre base de données rapidement, vous allez naturellement vous concentrer sur le crawl de nouvelles pages ou choisir de crawler en priorité les pages de sites dont vous avez identifié qu’ils ont de nombreux liens externes (et sont donc populaires…). Quelle que soit votre force de frappe, vos ressources ont une limite, alors vous devez trancher. Le problème est que plus vous consacrez d’efforts à la « découverte » (de nouvelles pages, ndlt), moins vous mettez de ressources sur la « vérification ».

Le but premier d’un crawler pour un moteur de recherche n’est pas de traiter les « mauvais liens , ni de faire la chasse aux liens « spammy ». Il s’agît plutôt de trouver du contenu et de l’indexer. Un autre algorithme se charge de faire le ménage et de séparer le grain de l’ivraie. L’objectif étant de ne ramener que le meilleur contenu à l’utilisateur. En termes de crawl, les moteurs de recherche peuvent faire bien des économies à ne pas du tout re-crawler les « mauvaises pages » car leur qualité ne mérite probablement pas d’être revisitées très souvent. Cette méthode permet d’augmenter considérablement l’efficacité du crawl en se concentrant sur le meilleur contenu.

Majestic a tranché cette problématique en distinguant les données les plus fraiches (Fresh index qui inclut des URLs que nous avons découvert sur une période de deux mois) de toutes les données que nous avons pu récupérer depuis 5 ans. Après 60 jours, si un lien ne mérite pas d’être pris en compte, nous le sortons du Fresh Index, mais ce lien sera toujours dans l’index historique. Le Fresh Index vous permet de rester focus sur les « bonnes pages » et non les mauvaises. L’une des solutions de Google pour gérer le crawl des mauvaises pages est de vous donner accès à la fonctionnalité du Webmaster Tools « Explorer comme Google ». Grâce à elle vous pouvez dire à Google que votre site a changé. Une autre solution est de vous demander d’utiliser des commandes de mise en cache. (Voir la présentation ci dessous pour plus d’info sur le sujet)

Si vous avez supprimé des liens présents sur des « mauvaises pages », et que vous avez besoin qu’elles soient mises à jour dans l’index de Google, peut-être avez vous besoin de passer par une étape intermédiaire : demander au webmaster de non seulement supprimer les liens mais également de faire « Explorer comme Google » sa/ses page(s). Il aidera ainsi Google à les mettre à jour plus rapidement. Mon seul conseil est ici d’inciter le webmaster en lui expliquant que c’est très facile et rapide à faire, et qu’en plus cela devrait suffire pour déjà montrer à Google que son site s’améliore. Je ne peux malheureusement pas parier sur le fait que les webmasters seront d’accord avec ça.

Mais retournons à la question de l’allocation de ressources pour de gros spiders. Majestic opère cela via son Crawler Controller. C’est un fait, notre crawler ne manquera jamais de contenu à découvrir, c’est pourquoi nous devons maintenir certaines règles pour garantir l’équilibre de nos ressources. Nous devons trouver le nouveau contenu, tout en prêtant à la fois attention au contenu plus ancien qui peut avoir changé et en gardant un œil sur les pages les plus importantes et donc probablement les recrawler plus souvent que d’autres. (Comme les pages de sites de presse par exemple, ndlt).

Tous les webmasters peuvent aider grandement les crawlers à être plus efficaces. Efforcez vous au moins d’éviter du contenu dupliqué à l’interieur même de votre site, car cela force le crawler à parcourir plusieurs fois le même contenu. Il faut comprendre que nos spiders sont des programmes informatiques et interprètent les URLs un peu comme les numéro de téléphone. Rajoutez « +33 » à votre numéro de téléphone et de nombreux humains comprendront que ce n’est pas nécessaire de taper ce chiffre si vous appelez en France. Pour une machine, ce sont deux numéros différents à moins que le programmeur aient permit de fusionner et d’unifier les différentes variation d’un même numéro.

Voici les slides que Dixon a présentés à SMX Advanced, malheureusement nous n’avons pas de videos de la présentation. Nous espérons qu’elle vous éclairera :

 

 

NDLT : Les problèmes des crawler impactent énormément le comportement des moteurs de recherche comme Google. En comprenant comment ils fonctionnent vous éviterez nombre d’écueils.

Francois
Les derniers articles par Francois (tout voir)

Comments

Comments are closed.