Non capita spesso di svegliarsi la mattina e trovare i marchi Majestic sparsi dappertutto nel blog di Ahrefs, ma è esattamente quello che è successo lo scorso giovedì 22 maggio 2025. Un nuovo post di Patrick Stox e Xibeijia Guan è apparso sul nostro radar, intitolato “The SEO Bots That ~140 Million Websites Block the Most” (I bot SEO che circa 140 milioni di siti web bloccano di più).

Ahrefs è stato abbastanza generoso da citare MJ12bot. Insieme a MJ12Bot c’erano anche altri crawler SEO, in particolare Ahrefsbot e Semrushbot. Nell’analisi, questi tre sono stati evidenziati come crawler SEO con una presenza significativa in milioni di file robots.txt.

Di recente, abbiamo avuto diverse discussioni in Majestic sull’analisi dei file robots.txt, nell’ambito delle attività per il lancio di un nuovo progetto, OpenRobotsTxt.org, concepito come un archivio dinamico di file robots.txt che viene aggiornato con analisi automatizzate di dati che ricorrono di frequente. C’è una somiglianza tra il tipo di analisi che OpenRobotsTxt esegue e l’analisi eseguita e riportata da Ahrefs nel loro post recente.

Non siamo sicuri se il lancio di OpenRobotsTxt abbia catalizzato la pubblicazione dello studio di Ahrefs, o se i due studi siano stati rilasciati simultaneamente per pura coincidenza.

Prima di iniziare la discussione, è bene sottolineare come gli indici di backlink non si prestano a delle analisi comparative. Molti nel nostro settore avranno letto studi di produttori di database di backlink. Quello che succede tipicamente è che un fornitore commissiona uno studio. Lo studio conclude che il fornitore, sponsor dello studio, ha il prodotto migliore. Poi altri fornitori discutono sul perché lo studio è falsato e di parte. I clienti si annoiano e tutto continua come prima. Passa del tempo. Lo studio fatto diventa un ricordo distante e flebile e un altro fornitore decide che è il momento ideale per commissionare un altro studio. Il processo si ripete. E si ripete. E si ripete. Si capisce l’idea.

Speriamo che quanto segue venga percepito come un feedback costruttivo: nel caso in cui non lo fosse, siamo aperti a commenti e critiche che ci fanno capire come e perché abbiamo mancato l’obiettivo. Speriamo di poter utilizzare questa opportunità per evidenziare alcune delle ipotesi di analisi dei dati del progetto OpenRobotsTxt, formulando, allo stesso tempo, un commento equilibrato sull’ultima analisi di Ahrefs.

Una breve premessa su OpenRobotsTxt e perché ci sentiamo qualificati per commentare.

Giovedì 15 maggio 2025, Majestic ha annunciato il lancio del progetto OpenRobotsTxt.org. OpenRobotsTxt mira ad archiviare e analizzare i file robots.txt del mondo. Il progetto è stato avviato con un ENORME dump di dati da Majestic, che viene aggiornato regolarmente.

OpenRobotsTxt.org è un progetto a lungo termine. Nuovi dati vengono aggiunti di continuo. Questi dati vengono automaticamente analizzati per produrre report. Le statistiche su robots.txt sono prodotte e condivise con la comunità sotto una licenza Creative Commons.

Il progetto ha la missione di archiviare e analizzare i file robots.txt del mondo. OpenRobotsTxt mira a supportare il dibattito su robots.txt, user-agent e web crawling.

C’è una certa sovrapposizione tra il progetto OpenRobotsTxt e lo studio robots di Ahrefs.

Il confronto dei risultati tra lo studio robots di Ahrefs e OpenRobotsTxt

I risultati dello studio Ahrefs si possono riassumere con i dati della tabella sottostante:

Crawler:MJ12Bot ( Majestic )SemrushBotAhrefs Bot
% di siti web nello studio che bloccano i bot basato su campione di 140 milioni di “domini di 2° livello”6,49%6,34%6,31%

La media dei valori è:

(6,49% + 6,34% + 6,31%) / 3 = 6,38%.

Ahrefs e Semrush sono sotto la media, mentre MJ12bot è sopra.

Ahrefs dichiara che lo studio è basato su dati raccolti dal loro crawler, Ahrefsbot. Presumiamo quindi che non comprende siti che bloccano bot di Ahrefs. In questo caso, ci sarebbe un margine di errore da considerare. Date le differenze relativamente piccole tra i conteggi di disallow e la natura ‘single vendor’ di questo studio, ci sembra giusto interpretare lo studio di Ahrefs come un’indicazione generale di un tasso di blocco approssimativo del 6,4% sui principali bot SEO nei file robots.txt. Questo è un benchmark utile per tutti gli operatori di crawler. Siamo grati ad Ahrefs per aver condiviso questo risultato.

Il progetto OpenRobotsTxt riporta dati sul blocco di user-agent leggermente diversi dallo studio Ahrefs, ma possiamo sommare le colonne relative ai disallow per avere il totale che è la percentuale di volte che un bot è menzionato in un contesto disallow, in relazione al numero di siti oggetto dello studio:

Crawler:MJ12Bot ( Majestic )SemrushBotAhrefs Bot
% di siti web con disallow basato sullo studio di user-agent di circa 600 milioni di hostname0,5%0,46%0,93%

Si dovrebbe notare che il valore elevato attribuito a Ahrefs in questa tabella comprende un numero sproporzionato di presenze disallow basate su path. Sarebbe necessaria un’ulteriore analisi per misurare l’impatto di queste direttive.

C’è una differenza significativa tra i due set di dati. La differenza è di un ordine di grandezza tra il dataset Ahrefs e il dataset Majestic.

Perché?

A nostro modo di vedere, è inopportuno fare troppe ipotesi sullo studio Ahrefs. Quello che possiamo fare è condividere più informazioni sulla composizione dei 600 milioni di hostname utilizzati nel progetto OpenRobotsTxt.

Il principio cardine è che la statistica di OpenRobotsTxt si basa su hostname risolvibili e che la presenza del file robots.txt non è obbligatoria. Quindi, questo numero include hostname che non hanno un file robots.txt. Questo significa che la statistica precedente suggerisce che lo 0,5% dei siti web hanno esplicitamente impostato il disallow indicando MJ12Bot in robots.txt. Non tutti gli hostname hanno robots.txt, e un 404 su robots.txt è interpretato dalla maggior parte dei crawler come permesso di fare crawling.

Un’altra considerazione importante sul dataset OpenRobotsTxt è che mira ad essere protocol agnostic, cioè la maggior parte dei siti web HTTPS serve lo stesso contenuto dell’equivalente HTTP. Se così non fosse si rischierebbe di contare due volte i file robots.txt (e quindi il blocco) perché rilevati sia con protocollo http che https. Non crediamo sia ragionevole pensare a 600 milioni di hostname come rappresentanti di 1,2 miliardi di possibili file robots.txt.

Come per qualsiasi studio, vale la pena notare che i due studi sono basati su dataset diversi generati da diversi web crawler che, per loro natura, interagiscono con i siti web in modi diversi e possono interpretare i nomi a dominio “root” (di secondo livello) in maniera diversa. I bot hanno le loro tecniche di modulazione del rumore che possono modificare il numero di sottodomini che vengono campionati per produrre liste di hostname.

La nostra visione sulla metodologia e reporting nello studio Ahrefs

Il post condivide alcuni aspetti interessanti sulla metodologia dello studio:

  1. Il dataset sembra includere solo siti che contengono file robots.txt trovati dal crawler SEO Ahrefsbot.
  2. Lo studio Ahrefs ignora “altri tipi di blocco come firewall o blocchi IP”. Questo potrebbe avere un impatto significativo sulle conclusioni. Una caratteristica importante di questo impatto è che se Ahrefsbot è bloccato per IP su un server, questo significa che il crawler potrebbe non accedere al file robots.txt. Il mancato accesso può risultare nell’omissione di questi siti dal loro studio. Cioè, siti che bloccano solo Ahrefsbot via server potrebbero essere esclusi dallo studio e quindi non mostrare uno stato “allow” positivo per altri crawler.
  3. Il post del blog sembra fare riferimento a tre diversi dataset. Un test con 140 milioni di domini di primo livello, un controllo con 461M hostname e un set di campioni di siti top (DR > 45).
  4. L’analisi a livello hostname comprende 461M file robots.txt, e conclude che Semrush è il più bloccato in questo dataset.
  5. Il report Top Sites trova che Semrush è, ancora, il più bloccato in questo dataset.
  6. MJ12bot sembra essere il bot più bloccato per il campione di 140 milioni di datapoint.

Sembrano esserci almeno tre dataset. Nello studio di due dei dataset, sembra che Semrushbot sia identificato come il bot più bloccato. In uno dei tre studi si ipotizza che MJ12Bot è il bot più bloccato.

Alcune osservazioni o considerazioni nel post a proposito di MJ12bot:

  1. “È un crawler distribuito, il che significa che non si può cercare o bloccare per IP, il che li rende meno affidabili.”
  2. “Hanno fatto crawling del web per più tempo.”
  3. “Hanno una base utenti più piccola rispetto a strumenti SEO più popolari e quindi hanno meno leva per rimuovere eventuali blocchi.”

Sul terzo punto, alziamo le mani e ammettiamo di essere il coraggioso sfavorito se messi a confronto con i giganti degli strumenti SEO di Semrush e Ahrefs. Non siamo sicuri di come la nostra dimensione possa impattare le nostre capacità o influenza. Tuttavia, non è nostra consuetudine mandare in giro, di tanto in tanto, i ragazzi a “educare” i webmaster che potrebbero avere problemi con i bot.

Siamo altresì consapevoli del fatto che facciamo crawling del web da più tempo di Ahrefs e Semrush. Dei tre, MJ12Bot è stato il primo, Ahrefs è arrivato qualche tempo dopo, e infine Semrush che opera nel campo dell’analisi dei backlink. Dato che Semrushbot ha operato per un periodo di tempo più breve, il livello di disallow è sembrato degno di nota. Abbiamo trovato interessante il fatto che Semrushbot sembra essere disallowed in un volume simile ad Ahrefsbot e MJ12Bot. Sarà interessante vedere se e quando il conteggio disallow di Semrushbot supererà altri crawler SEO.

L’Altro punto si riferisce al modello di crawl distribuito utilizzato da Majestic. Non è un segreto che MJ12bot si basa su un modello distribuito di crawling comunitario. La preferenza per l’utilizzo del robots.txt rispetto a direttive lato server evidenziata dallo user agent MJ12Bot è stata stabilita da tempo.

Citazioni vs Disallow

Non tutte le citazioni in un file robots.txt sono problematiche per un crawler SEO. Alcune possono essere ottime notizie.

Lo studio di Ahrefs si concentra solo sui Disallow, mentre il progetto OpenRobotsTxt cattura una gamma di segnali dai file robots.txt.

Alcuni crawler SEO, come Ahrefs e Majestic, sono presenti in numeri significativi di direttive Allow. In una certa misura, la proporzione di Disallow espliciti potrebbe essere interpretata come un punteggio di gradimento dei webmaster per gli User Agent. Ovvero, una citazione in robots che non è un disallow è la prova che i webmaster conoscono l’Agent e non desiderano bloccarlo.

OpenRobotsTxt produce questo “Punteggio di Gradimento” per tutti gli User Agent.

OpenRobotsTxt riporta il seguente gradimento per i “Big Three” di cui abbiamo discusso finora:

Crawler:AhrefsbotSemrushBotMJ12Bot ( Majestic )
Gradimento (% di menzioni che sono Disallow)   PIÙ BASSO È MEGLIO34%69%40%      

Questa interpretazione dei dati OpenRobotsTxt suggerisce che mentre Ahrefsbot potrebbe essere il crawler SEO più menzionato dei tre, è anche il più popolare secondo questa metrica. SemrushBot sembra rimanere indietro in questo punteggio. Sospettiamo che il motivo per cui sia MJ12Bot che Ahrefsbot ottengano buoni risultati sia perché entrambi gli strumenti offrono servizi aggiuntivi ai proprietari di domini che verificano il sito web.

Questo esercizio evidenzia che essere menzionati in robots.txt non è necessariamente negativo.

Infine bisogna riconoscere il merito quando è dovuto. Le congratulazioni vanno a tutto il team di Ahrefs per il risultato ottenuto. Il loro sforzo ha portato al miglior punteggio di gradimento dei webmaster tra i tre crawler SEO elencati.

Comprendere i dati di analisi User-Agent di OpenRobotsTxt

Per produrre l’analisi condivisa su OpenRobotsTxt, vengono esaminati i file robots.txt. Come parte di questo processo, gli User Agent vengono normalizzati, nel tentativo di ridurre il rumore e indicare l’intento dell’autore del robots.txt.

Dopo l’analisi dei file, vengono elaborate diverse statistiche. Queste statistiche sono disponibili per il download dal sito web openrobotstxt.org e sono condivise sotto licenza Creative Commons.

Le colonne mostrate sono:

  • Citazioni (quando lo User-Agent è menzionato in una direttiva robots.txt)
  • Citazioni come percentuale dello studio complessivo
  • Disallow all
  • Disallow all come percentuale delle menzioni
  • Allow all
  • Una combinazione di direttive allow che seguono un disallow esplicito
  • Una serie di righe disallow
  • Una combinazione di righe disallow e allow
  • Menzioni dove non c’è impatto su allow o disallow, come crawl delay
  • Dove le regole sono in conflitto (fortunatamente tende a essere una quantità residuale)

Escludendo le cifre percentuali, la colonna “menzioni” è il totale di tutte le colonne a destra.

L’analisi risultante di oltre 37.000 user agent (al momento della pubblicazione di questo post) è disponibile per il download. I dati sono in formato CSV, quindi pronti per analisi con Excel e Python. Consulta il sito per vedere esempi di tabelle riassuntive.

Per concludere


Gli studi sui dati sono positivi. Aiutano a informare i professionisti del nostro settore. Un enorme riconoscimento va a Xibeijia Guan per un’analisi straordinaria.

Detto questo, non accettiamo completamente le conclusioni come presentate nel post di Ahrefs. Le nostre obiezioni e preoccupazioni non riguardano lo studio ma piuttosto la sua presentazione. È evidente che è stato dedicato un lavoro significativo all’analisi che rispettiamo e ammiriamo. Abbiamo cercato di essere costruttivi nella nostra risposta per fornire una spiegazione dal nostro punto di vista sulle differenze di approccio tra Ahrefs e OpenRobotsTxt.

Accogliamo con favore qualsiasi considerazione possiate avere su OpenRobotsTxt, lo studio di Ahrefs e la nostra risposta.

Per ulteriori informazioni e approfondimenti sull’analisi dei file robots.txt, vi invitiamo a visitare OpenRobotsTxt.org

Leave a Comment

Your email address will not be published.

You may use these HTML tags and attributes: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>
*