Majestic Infrastruktur-Verbesserung

Die meisten User verlassen sich Tag für Tag auf unseren aktualisierten Index, da dieser ständig aufgefrischt wird und jeden Link abdeckt, den wir über einen Zeitraum von 90 Tagen sehen.

Einige unserer Benutzer verwenden jedoch den historischen Index. Er ist um einiges größer und die Aufgabe, den Index zu aktualisieren, ist massiv. Wir haben vor kurzem einige Infrastrukturverbesserungen vorgenommen, was dazu geführt hat, dass wir den historischen Index nicht wie erhofft in diesem Monat neu berechnen konnten.

Zu aller erst: Entschuldigung an alle, die auf die Aktualisierung des historischen Index warten. Wir konnten dies nicht vorhersehen, aber wir arbeiten daran, die Ursache so schnell wie möglich zu korrigieren – und wir schätzen, dass das Update vor Ende Februar abgeschlossen sein wird.

Das ist gleichzeitig eine sehr gute Gelegenheit, um etwas mehr darüber zu erfahren, wie Majestic hinter den Kulissen arbeitet.

“Wenn wir unsere gesamte Datenbank mit 6.659.283.985.220 URLs durchsuchen würden, sagt die einfache Mathematik, dass dies ungefähr 3 Jahre dauern würde.”

Der historische Index ist ein BIEST eines Datensatzes. Majestic crawlt seit über einem Jahrzehnt und es sind mittlerweile eine Menge Daten zusammengekommen.

Aber Majestic ist so viel mehr als nur eine Liste. Die Mathematik, die Majestic bei diesem Datensatz anwendet, verwandelt die Liste in aussagekräftige Statistiken, auf die sich die Industrie stützt.

Trust Flow und Citation Flow sind keine Zahlen, die aus der Luft gegriffen werden, und ohne dass die Mathematik auf den gesamten Datensatz angewendet wird, würden sie nicht zu Normen konvergieren, die uns helfen, die Stärke einer Website zu verstehen.

Der aktualisierte Index ist die eine Sache – mit 847.072.493.467 URLs, auf die wir unseren Algorithmus loslassen. Der historische Index ist ein ganz anderer mit 6.659.283.985.220 URLs. Majestic ist nicht annähernd so gut finanziert wie unser Suchmaschinen-Gegenstück: Wir haben nicht die gleichen Ressourcen, um das Internet zu durchsuchen. Unser Netzwerk von Bots crawlt täglich um die 7 Milliarden URLs. Wenn wir unsere gesamte Datenbank mit 6.659.283.985.220 URLs durchsuchen würden, dann würde das ungefähr 3 Jahre dauern.

Natürlich sind viele dieser URLs mit Websites verknüpft, die es nicht mehr gibt, die Seiten wurden entfernt, oder die Seite hat sich seit der ersten Erstellung nicht verändert. Um sicherzustellen, dass wir die wichtigen und regelmäßig aktualisierten Websites durchsuchen, haben wir einen Cluster von Computern, die alle unsere URLs untersuchen und auswählen, welche als nächstes durchsucht werden sollten, um sicherzustellen, dass unser Index die aktuellsten und relevantesten Informationen enthält.

Die Größe des Internets nimmt ständig zu, ebenso wie die Menge an Spam und subversiven Informationen, die geschaffen wurden, um Suchmaschinen zu täuschen. Suchmaschinen werden immer besser darin, dieses Zeug zu erkennen, und das müssen wir auch.

Zu diesem Zweck haben wir vor kurzem unseren Cluster aktualisiert. Unglücklicherweise hatte dieses Update einige Auswirkungen auf andere Seiten unserer bestehenden Prozesse, da Sie sich vorstellen können, dass der gesamte Prozess in sich miteinander verbunden ist und dies zu Problemen in unserem historischen Index-Aufbau geführt, was nun zu Verzögerungen geführt hat.

Warum wir denken, dass unsere Flow Metriken eine bessere Sicht auf das Internet und einige Möglichkeiten, wie wir es nutzen, schaffen

Flow-Metriken werden bei jedem Index-Update von Grund auf neu erstellt, sowohl im aktualisierten Index als auch im historisch Index. Wir haben es nicht eilig, denn es braucht Zeit, um ein System aufzubauen, das Seiten auf sinnvolle Weise analysiert.

Wir verwenden auch unsere eigenen Metriken, um unsere Crawl-Prioritäten zu bestimmen – welche URLs ein Bot als nächstes crawlen sollte. Das bedeutet, dass wir keine Ressourcen verschwenden, die sich ständig ändern und die niemandem wichtig sind.

Wir denken, dass Google eine ähnliche Idee verwendet. Google ist bei der “Entdeckung” besser als Majestic. Keine Frage. Aber die Entscheidung, eine URL erneut aufzurufen – egal wie viele Ressourcen Sie haben – ist für einen Web-Crawler eine Frage des Kompromisses. Welchen Prozentsatz Ihrer Crawl-Ressourcen sollten Sie aufwenden, um herauszufinden, was Sie noch nicht gesehen haben, im Verglich zu den Dingen, die Sie bereits wissen?

Flow Metriken helfen Majestic dabei, dieses Gleichgewicht zu finden.

Über
Letzte Artikel

Newsroom

Letzte Artikel von Newsroom (Alle anzeigen)

Majestic Historic Index – Normalisierung von Builds - April 1, 2020
Der Historische Index von Majestic – Rückblick 2019 und Vorfreude auf 2020 - December 11, 2019
Neu von Majestic: Verwandte Seiten bringt Ihnen eine atemberaubende Backlink-Analyse - December 3, 2019

Majestic Infrastruktur-Verbesserungen

Warum wir denken, dass unsere Flow Metriken eine bessere Sicht auf das Internet und einige Möglichkeiten, wie wir es nutzen, schaffen