Nach über zwanzig Jahren Crawling kann man mit Fug und Recht behaupten, dass , der Majestic-Crawler , langsam in die Jahre gekommen ist. Als wir anfingen, war ein verteiltes, von der Community geführtes Crawling der letzte Schrei. Doch mit der Reifung des Webs sind auch die Erwartungen an das Crawling gestiegen. In diesem Beitrag werden wir:
- Neuigkeiten über einen zukünftigen, ergänzenden neuen Crawler mitteilen
- unseren Ansatz für Crawling überdenken
- Unsere Roadmap für Crawling und Entwicklung vorstellen.
Neuer Crawler
In den letzten Monaten haben wir unseren Crawling-Stack verfeinert. Wer ein wachsames Auge auf seine Logs hat, sieht vielleicht Einträge von einem v2 MJ12bot. Dies spiegelt die monatelange Entwicklung und eine Abzweigung unserer Crawling-Strategie wider.
Jahrelang hat sich Majestic auf ein verteiltes Netzwerk von Crawlern verlassen. Das Ziel dieser jüngsten Entwicklung ist es, MJ12Bot um eine ergänzende, zentralisierte Crawling-Kapazität zu erweitern. Während viele Webmaster damit zufrieden zu sein scheinen, MJ12bot weiterhin crawlen zu lassen, haben sich die Zeiten geändert, und es gibt einige, die Bedenken gegen einen Crawler haben, der nicht in der Lage ist, eine einfache Überprüfung über Reverse DNS zu unterstützen.
Dies stellt einen bedeutenden Richtungswechsel für Majestic dar. Viele andere Firmen haben schon seit einiger Zeit mehr als einen Crawler im Einsatz. Majestic hat sich zum größten Teil auf MJ12Bot verlassen, um Daten zu sammeln. Wie in der Branche üblich, wurden jedoch auch einige Datenquellen von Drittanbietern einbezogen.
Ziel ist es, dass der neue zentralisierte Crawler auf Webmaster mit begrenzteren Bandbreiten Rücksicht nimmt. Ein zentralisierter Dienst bietet eine bessere Orchestrierung und Koordinierung sowie Unterstützung für Standards wie Reverse DNS.
Da sich zentrales und verteiltes Crawling etwas unterscheiden, wird Majestic einen neuen, eigenen User-Agent für diesen neuen zentralen Crawler einführen. Einzelheiten werden wir kurz vor dem Start bekannt geben.
KEINE PANIK!!! Die meisten Webmaster werden nichts tun müssen. Zumindest jetzt noch nicht. In der letzten Phase der Beta-Version und mindestens 12 Monate danach wird der neue Benutzer-Agent alle robots.txt-Befehle in Bezug auf MJ12Bot respektieren.
Details zum neuen User-Agent für den zentralisierten Crawl, zusammen mit dem RFC9309 Produkt-Token, werden auf einer neuen Microsite veröffentlicht. Fortgeschrittene Benutzer werden in der Lage sein, sowohl MJ12bot als auch den neuen User-Agent separat anzusprechen, indem sie robots.txt-Direktiven einführen, die auf den neuen User-Agent abzielen.
Unser Ansatz zum Crawling
Das primäre Mittel zur Datensammlung für Majestic ist MJ12Bot. Diejenigen, die mit dem Gebiet des Web-Crawling vertraut sind, werden jedoch wissen, dass es einige Websites gibt, die gerne indiziert werden, aber nicht gerne gecrawlt werden. Ein offensichtliches Beispiel ist Wikipedia. Wikipedia erhält viele Anfragen und bittet daher die Entwickler, die Archive von, anstatt die Website zu crawlen.
Es gibt noch andere Archive, die gerne in Webcrawls integriert werden. Die Verwendung von Common Crawl-Daten ist weit verbreitet.
Wir haben unseren Ansatz für die Einbeziehung von Daten Dritter schon seit einigen Jahren transparent gemacht.
Wie beim Web-Crawling sind jedoch weitere Möglichkeiten zur gemeinsamen Nutzung von Ressourcen und zur effizienteren Gestaltung des Crawlings für Website-Hosts online gegangen.
Ein Beispiel dafür ist die Zusammenarbeit von Ahrefs und Bing beim Austausch von Informationen durch das innovative Index now-Programm von Bing.
In Anbetracht der Tatsache, dass Majestic kurz davor steht, ein Unternehmen mit mehreren Crawlern zu werden, halten wir es für einen guten Zeitpunkt, unsere Richtlinien zur Dateneinbindung zu überprüfen.
Mit dem Aufkommen der künstlichen Intelligenz sehen sich Webmaster mit den steigenden Anforderungen einer zunehmenden Vielfalt von Crawlern konfrontiert. Aus Erfahrung wissen wir, dass viele Webmaster und Boutique-Webhosting-Anbieter sich Sorgen um die Bandbreitenanforderungen machen. Um gleiche Wettbewerbsbedingungen zu gewährleisten, hat Majestic mit einem begrenzten Evaluierungsprogramm begonnen, das die Zusammenarbeit mit einer kleinen Anzahl von Crawlern von Drittanbietern vorsieht. Das Ziel ist es, Informationen auszutauschen und zu versuchen, das Crawling zu koordinieren, um die Belastung der Webserver zu reduzieren. Wir sind uns bewusst, dass dies ein gewagter Schritt ist, und haben daher dieses Programm mit den folgenden wichtigen Leitplanken ins Leben gerufen:
- Das Crawling muss RFC 9309-konform sein: User Agents müssen angegeben und robots.txt muss beachtet werden.
- Die Drittparteien müssen in irgendeiner Weise mit der Internet-Kartographie oder mit dem Forschungsbereich der Internet-Informationsarchitektur verbunden sein.
- Wir wollen mit etablierten Firmen zusammenarbeiten. Wir wollen keine Drehtür mit ständig wechselnden User Agents von neuen Start-ups schaffen.
In der Anfangsphase wird dieses Programm nur für geladene Teilnehmer gelten. Es gibt keine Warteliste.
Wir hoffen, dass dieses Programm einen kleinen Beitrag zur Entlastung der Webmaster leistet und gleichzeitig Vorteile für die Mitgliedsorganisationen und über sie für die gesamte Internetgemeinschaft bietet.
Ihr Feedback
Ein neuer Crawler ist ein wichtiger Schritt. MJ12bot ist seit über 20 Jahren in Betrieb, und wir hoffen, dass er noch mindestens 20 weitere Jahre in Betrieb sein wird. Allerdings hat sich im Internet viel verändert, seit das verteilte Crawl-Projekt ins Leben gerufen wurde.
Wir hoffen, dass wir durch die Einführung eines neuen Crawlers ein differenzierteres Crawling anbieten können, insbesondere für Webmaster, die sich Sorgen über die verteilte Natur von M12bot machen. Wir haben im Laufe der Jahre viel Feedback und Erfahrung gegeben und haben viel davon in die jüngsten Entwicklungen einfließen lassen.
MJ12bot wird weiterhin Verbesserungen erfahren. Die beiden Crawler teilen sich einen großen Teil des Codes und der Infrastruktur. Wo es möglich ist, werden Verbesserungen des einen User-Agents auch für den anderen verfügbar gemacht.
Wir freuen uns darauf, in den kommenden Wochen Einzelheiten über den neuen Benutzer-Agenten bekannt zu geben.
Was die kollaborative Crawl-Initiative betrifft, so sind die Erklärungen etwas schwieriger zu koordinieren, da mehr Parteien beteiligt sind. Es werden jedoch Kommunikationsstrategien diskutiert, und wir hoffen, bald mehr darüber berichten zu können.
In diese Strategie sind die Rückmeldungen und Gespräche eingeflossen, die wir in den letzten zwanzig Jahren mit der Gemeinschaft geführt haben. Wir freuen uns weiterhin über Ihr Feedback und Ihren Dialog.
- 2025-2026 Crawler-Fahrplan - August 13, 2025
- 10 Wege zur Bewertung eines Backlinkprofils in Majestic - July 8, 2025
- SEO User-Agents in robots.txt nicht erlaubt. Gedanken zur jüngsten Ahrefs-Studie. - June 12, 2025