Unsere Crawl-Abteilung hat kürzlich gemeldet:
Sie werden mehr Rechenzentren benötigen…
3.004.506.542.426 URLs bislang gecrawlt
Seit Majestic also im Jahr 2004 begonnen hat, das Netz zu crawlen, haben wir drei Billionen URLs gescannt. Einige von Ihnen interessiert das vielleicht und wir möchten gerne erklären, warum drei Billionen gecrawlte URLs zwar bedeutend, aber nur die Spitze des Eisbergs sind, wenn es um Daten von Majestic geht.
Eine Billion neue URLs in weniger als 12 Monaten gecrawlt
Majestic hat fünf Jahre gebraucht, um die erste Billion URLs zu crawlen, wie wir im Oktober 2009 bekannt gegeben hatten. Um die zweite Billion URLs zu crawlen, brauchten wir dann nur noch etwas mehr als zwei Jahre. Kurz bevor wir die Zwei-Billionen-Marke erreichten, ging es uns nicht mehr nur um die reine Entdeckung von URLs, sondern um ein ausgewogenes Verhältnis zwischen dem Auffinden und dem erneuten Crawlen von URLs. Und selbst so haben wir weniger als 12 Monate später unsere dritte Billion gefunden
Aufgrund welcher Faktoren ist das Crawlverhalten von Majestic mittlerweile intelligenter geworden?
Unsere Flow Metrics – Trust und Citation Flow – helfen uns, das Internet auf intelligentere Weise zu durchforsten und mehr Daten aus der gleichen Crawling-Bandbreite zu erhalten. Majestic ist nun in der Lage, mehrere Signale zu nutzen, damit wir auch wirklich die richtigen Seiten zur richtigen Zeit crawlen … anstatt einfach nur auf Unmengen von Seiten den Links zu folgen.
Weitere Faktoren unterstützen uns dabei, unseren Bot-Crawl intelligenter zu gestalten:
- Mit dem Parameter Crawl-Delay in Robots.txt kann ein Webmaster die Wartezeit zwischen den Seitenabrufen für unseren Bot auf seiner Website ändern – wobei wir uns auch an die Anweisungen in Robots.txt halten.
- Trust Flow trägt dazu bei, dass wir wichtige Seiten im Vergleich zu minderwertigem Evergreen Content häufiger neu abrufen.
- Indem wir Veränderungen von Seiteninhalten dokumentieren, können wir zwischen Seiten, die sich selten ändern, sowie Seiten mit neuen Informationen oder häufig aktualisierten Inhalten unterscheiden.
- Unser URL-Übermittler hilft uns, die URLs, die für SIE wichtig sind, besser zu priorisieren, indem Sie die Möglichkeit bekommen, Tausende bzw. Zehntausende URLs zwecks Prüfung hochzuladen.
Es gibt doch mehr als drei Billionen Links, oder?
Aber natürlich! Die meisten URLs sind mit einer Vielzahl von Links verbunden, wobei der größte Teil davon jedoch interne Links sind. Auch wenn Majestic die internen Links nicht meldet, crawlen wir sie, um besser zu verstehen, wie der Linkjuice durch eine Website fließt. Darüber hinaus melden wir auch alle Seiten, die AUF die einzelnen URLs VERLINKEN. Angenommen, eine durchschnittliche Seite hat 100 eingehende Links, was 300 Billionen Link-Beziehungen entsprechen würde… rein spekulativ versteht sich. Hier die richtige Antwort zu finden, wäre schon wieder ein eigenes Projekt. Was wir ABER WISSEN ist, dass wir rund 800 relative Topical Trust Flow-Werte für jede URL berechnet haben. Natürlich haben die meisten URLs nur einen Topical-Trust-Flow-Wert für einen relativ kleinen Teil der 800 Themen, allein das Ausmaß der Berechnung würde einen durchschnittlich „großen Computer“ jedoch schon überfordern und zum Stillstand bringen.
- Drei Billionen URLs gecrawlt – erst die Spitze des Majestic-Eisbergs - February 18, 2015