La plupart des utilisateurs se fient quotidiennement à notre Fresh Index parce qu’il est mis à jour en permanence et couvre tous les liens que nous voyons sur une période de 90 jours.
Cependant, certains de nos utilisateurs utilisent l’Historic Index. Il est beaucoup plus grand et la tâche de mettre à jour l’index est énorme. Nous avons récemment apporté certaines améliorations à l’infrastructure, ce qui signifie que nous n’avons pas été en mesure de recalculer l’historic index comme nous l’avions espéré ce mois-ci.
Premièrement, veuillez nous excuser auprès de quiconque en attente de la mise à jour de l’Historic Index. Nous ne pouvions pas prévoir l’emballement, mais nous nous efforçons de corriger les choses dès que possible – et nous estimons que la mise à jour sera terminée avant la fin de février.
C’est l’occasion d’en apprendre un peu plus sur ce qui se passe sous le capot de Majestic.
“Si nous devions parcourir l’entièreté de notre base de données de 6 659 283 985 220 URLs, des calculs simples diraient que cela prendrait environ 3 ans.”
L’Historic Index est un SACRÉ ensemble de données. Majestic crawle depuis plus d’une décennie et ça fait beaucoup de données.
Mais Majestic est bien plus qu’une simple liste. Les calculs mathématiques que Majestic effectue sur l’ensemble des données transforment la liste en statistiques significatives sur lesquelles le secteur se fonde.
Le Trust Flow et le Citation Flow ne sont pas des nombres tombés du ciel, et sans les maths appliquées à l’ensemble des données, ils ne convergeraient pas en normes qui nous aident à comprendre “la force d’une page”.
Le Fresh Index est une chose – avec 847.072.493.467 URLs à réaliser des calculs. L’Historic Index en est une autre avec 6.659.283.985.220 URLs. Majestic n’est pas aussi bien financé que notre homologue des moteurs de recherche : nous n’avons pas les mêmes ressources pour parcourir Internet. Notre réseau de robots parcourt environ 7 milliards d’URLs chaque jour. Si nous devions parcourir notre base de données complète de 6 659 283 985 220 URLs, de simples mathématiques montrent que cela prendrait environ 3 ans.
Bien sûr, plusieurs de ces URLs sont associées à des sites web qui sont maintenant fermés, où les pages ont été supprimées, ou avec une page qui n’a pas changé depuis sa création. Ainsi, pour nous assurer que nous parcourons les sites qui sont importants et sont mis à jour régulièrement, nous avons un groupe d’ordinateurs qui examinent toutes nos URLs et choisissent qui devrait être parcouru pour s’assurer que notre index est le plus à jour, et contient le plus d’informations pertinentes possible.
La taille de l’Internet augmente constamment, tout comme la quantité de spam et d’informations subversives créées pour essayer de tromper les moteurs de recherche. Les moteurs de recherche sont de mieux en mieux pour reconnaître ces choses et nous devons le faire.
C’est pourquoi nous avons récemment mis à jour notre cluster. Malheureusement, cette mise à jour a eu des répercussions sur d’autres aspects de nos processus de construction. Comme vous pouvez l’imaginer, tout le processus est interrelié et cela a créé des problèmes dans notre construction de l’historique qui a été retardée.
Pourquoi nous pensons que nos Flow Metrics créent une meilleure vision d’Internet et de certaines façons dont nous les utilisons.
Les Flow Metrics sont établies à partir de la base de chaque mise à jour de l’indice, qu’elles soient récentes ou historiques. Nous ne précipitons pas les calculs et il faut du temps pour construire un système qui analyse les pages de façon utile.
Nous utilisons également nos propres métriques pour orienter nos priorités de crawl – quelles URLs un bot devrait ensuite parcourir. Cela signifie que nous ne gaspillons pas de ressources à crawler et à recrawler des pages qui ne changent jamais, et dont personne ne se soucie.
Nous pensons que Google utilise une idée similaire. Google est meilleur à la “découverte” que Majestic. Sans aucun doute. Mais la décision de revisiter une URL – quelle que soit la quantité de ressources dont vous disposez – est une question de compromis pour un crawler web. Quel pourcentage de vos ressources de crawl devrait être dépensé pour découvrir ce que vous n’avez pas encore vu par rapport à la vérification de ce que vous savez déjà ?
Les Flow Metrics aident Majestic à atteindre cet équilibre.
- Majestic lance un plus grand Index Fresh - May 9, 2018
- Mises à jour Majestic importantes - March 26, 2018
- Mise à jour de l’Historic Index de Majestic - March 19, 2018