Con oltre vent’anni di crawling alle spalle, si può dire che il crawler di Majestic inizia a mostrare i segni del tempo. Quando abbiamo iniziato, un crawl distribuito, gestito dalla comunità, era tecnologia all’avanguardia. Tuttavia, con l’evoluzione del web, sono cresciute anche le aspettative riguardo al crawling. In questo post:
- Condividiamo notizie su un futuribile nuovo crawler complementare
- Esaminiamo il nostro approccio al crawling
- Illustriamo la nostra roadmap per il crawling e lo sviluppo di Majestic.
Nuovo Crawler
Negli ultimi mesi abbiamo perfezionato il nostro stack di crawling. I SEO che tengono d’occhio i loro log files, potrebbero vedere attività di spidering da un MJ12bot v2. È il frutto di molti mesi di sviluppo e un momento di discontinuità nella nostra strategia di crawling.
Per anni Majestic si è affidata a una rete distribuita di crawler. L’obiettivo di questo recente sviluppo è aggiungere una capacità di crawling centralizzata complementare per integrare MJ12Bot. Mentre molti webmaster sembrano contenti di continuare a permettere il crawling di MJ12bot, i tempi sono cambiati, e ci sono preoccupazioni per i crawler che non sono in grado di supportare una semplice verifica tramite DNS inverso.
Questo segna un cambiamento significativo di direzione per Majestic. Molte altre aziende hanno operato con più di un crawler per diverso tempo. Nella maggior parte dei casi Majestic si è affidata a MJ12Bot per raccogliere dati. Tuttavia sono state incluse alcune fonti di dati di terze parti, un approccio in linea con le pratiche del settore.
L’obiettivo è che il nuovo crawler centralizzato sia compatibile con le esigenze dei webmaster che hanno delle limitazioni di banda. Un servizio centralizzato offre una maggiore capacità di gestione e coordinamento delle attività di crawling, con un supporto standard per il DNS inverso.
Poiché il crawling centralizzato e distribuito è piuttosto diverso, Majestic introdurrà un nuovo user-agent distinto per il nuovo crawler centralizzato. Rilasceremo dettagli tecnici quando saremo pronti al lancio.
NON FATEVI PRENDERE DAL PANICO!!! La maggior parte dei webmaster non dovrà fare nulla. Almeno per ora. Per la fase finale del rilascio beta e per i primi 12 mesi a seguire, il nuovo user agent rispetterà tutti i comandi robots.txt relativi a MJ12Bot.
I dettagli del nuovo user agent per il crawl centralizzato, insieme al prodotto token RFC9309, saranno rilasciati su un nuovo microsito. Gli utenti esperti potranno gestire separatamente sia MJ12bot che il nuovo User-Agent, introducendo direttive robots.txt che puntano al nuovo user-agent.
Il Nostro Approccio al Crawling
Finora, il mezzo principale di raccolta dati per Majestic è stato MJ12Bot. Tuttavia, coloro che hanno familiarità con il campo del web crawling sono consapevoli del fatto che ci sono siti che vogliono essere indicizzati, ma non vogliono essere sottoposti a crawling. Un esempio è Wikipedia. Wikipedia riceve molte richieste, quindi chiede agli sviluppatori di scaricare archivi invece di fare crawling del sito.
Ci sono altri archivi che tendono a essere incorporati nei web crawl. L’uso dei dati Common Crawl è diffuso.
Siamo stati trasparenti riguardo al nostro approccio all’inclusione di dati di terze parti per diversi anni.
Tuttavia, proprio come con il web crawling, sono emersi ulteriori modi di condividere risorse e rendere il crawling più efficiente per gli host dei siti web.
Ad esempio, Ahrefs e Bing che cooperano per condividere informazioni attraverso l’innovativo programma Index Now di Bing.
Dato che Majestic è sul punto di diventare un’organizzazione con più crawler, pensiamo che sia un buon momento per rivedere le nostre politiche di inclusione dati.
Con l’avvento dell’IA, i webmaster vedono aumentare le richieste di crawling provenienti da un numero crescente di crawler. Sappiamo per esperienza che molti webmaster e fornitori di servizi di hosting minori sono preoccupati per le richieste di larghezza di banda. Per cercare di garantire condizioni di parità, Majestic ha avviato un programma di speimentazione limitato, che vedrà la collaborazione con un piccolo numero di crawler di terze parti “boutique”. L’obiettivo è condividere informazioni per coordinare il crawling e ridurre il carico sui webserver. Riconosciamo che questo è un approccio innovativo, e per questo il programma prevede alcune limitazioni:
- Il crawling deve essere conforme a RFC 9309: gli User Agent devono essere dichiarati e robots.txt deve essere rispettato.
- Le terze parti devono essere associate in qualche modo alla Cartografia Internet, o nell’area di ricerca dell’architettura informativa di Internet.
- Vogliamo lavorare con aziende consolidate. Non abbiamo alcun desiderio di creare un via-vai di User Agent di nuove start-up che cambiano di continuo.
Nelle fasi iniziali, la partecipazione a questo programma è solo su invito. Non c’è lista d’attesa.
Speriamo che questo programma contribuisca in piccola parte a ridurre il carico sui webmaster offrendo al contempo benefici ai partecipanti e, attraverso di essi, alla più ampia comunità internet.
Il Vostro Feedback
Un nuovo crawler è un passo significativo. MJ12bot ha operato per oltre 20 anni, e speriamo che continui a operare per almeno altri 20. Tuttavia, molto è cambiato sul web da quando è stato concepito il progetto di crawl distribuito.
Speriamo che introducendo un nuovo crawler, possiamo offrire un crawl più sfumato, specialmente ai webmaster preoccupati per la natura distribuita di MJ12bot. Abbiamo avuto molto feedback ed esperienza nel corso degli anni che abbiamo utilizzato per gli sviluppi recenti.
MJ12bot continuerà a migliorare. I due crawler condividono molto codice e infrastruttura. Dove possibile, i miglioramenti di un user-agent saranno resi disponibili all’altro.
Nelle prossime settimane condivideremo i dettagli del nuovo user agent.
Per quanto riguarda l’iniziativa di crawl collaborativo, le dichiarazioni sono più difficili da coordinare poiché sono coinvolte più parti. Tuttavia, si stanno discutendo strategie comuni di comunicazione e speriamo di poter condividere di più tra non molto.
Questa strategia è il frutto del feedback e delle conversazioni che abbiamo avuto con la comunità negli ultimi vent’anni. Continuiamo ad accogliere con interesse il vostro feedback per alimentare un dialogo costruttivo.
- Majestic Crawler Roadmap 2025-2026 - August 29, 2025
- 10 Modi per valutare un backlink profile con Majestic - July 16, 2025
- Majestic Lancia il Robots.txt Archive - May 27, 2025