Il y a quelque jours, nous avons annoncé le franchissement d’un véritable gap concernant la qualité de notre index en parallèle du nettoyage des “mauvaises” urls. Depuis plusieurs mois, vous avez dû constater que la taille de notre index a crû de manière exponentielle et nous avons dû faire face à un vrai challenge : crawler plus vite ou plus intelligemment.
Avec un index de plus de 498 milliards d’urls dans notre Fresh Index (qui ne contient que les liens valides depuis 60 jours), nous avons identifié un certains nombre de pages qui semblent n’être créées que pour manipuler les crawlers.

Notre objectif n’est pas tant ici de montrer une liste exhaustive d’urls que nous excluons de nos index, mais bien de mettre en évidence que certaines urls méritent d’être crawlées.

Qu’avons nous selectionné ?

Voici un petit exemple :

Screen Shot 2013-04-29 at 18.36.57

http://tbod.asia avait, dans notre précédent index 9.157.905 URLs. Pourtant Google avait, compte tenu de la valeur du site, complètement blacklisté le domaine (chose rare de nos jours).
Il semble que le .asia soit particulièrement affecté par ce type de spam. Et bien que certains domaines n’en valent vraiment pas la peine nous avons identifié quelques pages sur ces domaines qui obtiennent une certaine forme de mérite.

Notre curation est-elle proche des traitements liés à Pinguin ?

Nous pensons que non. Les URLs que nous avons supprimées de notre liste de crawl sont des pages dont la valeur est excessivement faible, et dont les schémas de liens sont bien la preuve d’une manipulation. Nos tests nous poussent à croire que ces URLs ne sont pas “en soi” pénalisée. Ces pages sont simplement ignorées, point barre. Crawler le web est très honéreux et crawler de manière intelligente est le but de chaque bon crawler.

Combien d’URLs en moins pour mes domaines ?

Normalement, aucun changement. Pour identifier un lien vers votre site, nous avons besoin d’avoir crawlé la page sur laquelles le lien est placé. Si vous ne voyez pas un lien qui existe vraiment sur une page, c’est que nos algorithmes n’ont pas jugé suffisamment méritante la page en question.

Pourquoi ce changement va rendre Majestic SEO meilleur ?

Tout simplement parce que cela nous permet de consacrer moins de ressources au crawl de pages sans intérêt. Imaginez tout ce que nous pouvons faire pour vous du moment que nous libérons de la puissance de calcul ! En bannissant environs 150 milliards d’URLs inutiles (ce qui correspond déjà à deux fois la taille de l’index de SEOMoz), nous vous garantissons une bien meilleure qualité de service.
Ainsi nous allons rendre Majestic SEO :

  • Encore plus rapide
  • Capable de stocker encore plus d’information sur les liens.
  • Mettre à jour nos Flow Metrics et nos index encore plus fréquemment

Et si mon site s’est fait blacklisté ?

Nous avons mis en place un service de support depuis ce changement. En fonction des retours que nous recevrons, nous pourrons peut-être ajuster nos modifications. Mais honnêtement, nous ne pensons pas que cette mise à jour viendra changer quoique ce soit pour des sites “normaux” (oui, même pour les sites pénalisés par Pinguin). N’hésitez pas à nous contacter pour toute question et nous analyserons vos sites. Rien n’est figé, mais crawler plus intelligemment nous amènera toujours à créer de meilleurs outils.

Francois
Les derniers articles par Francois (tout voir)

Comments

  • Logiciel d'immobilier

    Bonjour,

    alors ce qui confirme que vous avez bien votre propre index d’urls.

    Incroyable le travail que vous avez fait.

    June 5, 2013 at 2:19 pm
  • PG1

    Bonne nouvelle que cette amélioration de l’index de majesticseo. Mais ou stockez-vous toutes ces URLS ?

    July 4, 2013 at 5:53 pm
  • François

    Très bon travail ! Donc si j’ai bien compris, pour choisir si vous allez ou non prendre en compte une URL, vous tentez d’évaluer sa qualité en fonction de son netlinking ? Ces URL de spam sont si nombreuses que ça ?

    July 23, 2013 at 9:06 am

Comments are closed.