Majestic Lancia il Robots.txt Archive

Abbiamo il piacere di annunciare il lancio di OpenRobotsTXT – un progetto di Majestic.com, il cui obiettivo è archiviare e analizzare i file robots.txt di tutto il mondo.

La prima versione del sito è online e spiega il contesto entro cui opera lo spider OpenRobotsTXT, che inizierà l’attività di crawling in questi giorni.

Il banner di presentazione di OpenRobotsTXT: Archiviazione e analisi dei file robots.txt ricerca, scoperta e monitoraggio — **Openrobots.txt.org** – archiviazione e analisi dei file robots.txt

Il progetto si è avvalso dell’enorme quantità di dati raccolti dal crawler MJ12bot di Majestic, che ci ha permesso di analizzare gli User Agent. Questa prima versione del sito sfrutta un dataset che è scaricabile gratuitamente (con licenza Creative Commons) e descrive gli User Agent fin qui scoperti nel web.

Oltre a ciò, abbiamo pianificato il rilascio di strumenti e funzionalità gratuite che saranno disponibili sempre su OpenRobotsTXT. Una volta lanciato il crawler, ci saranno nuovi archivi con molte statistiche sull’uso del robots.txt.

Informazioni Dettagliate su OpenRobotsTXT

Majestic ha oltre vent’anni di esperienza nell’elaborazione di file robots.txt. e questo è un progetto che tenta di analizzare tutti i file robots.txt del web e creare un archivio per sapere quali sono i bot che i siti web bloccano di più, i nuovi user agent, e altri dati che sono di interesse per gli amministratori di sistema, gli amministratori di siti web, programmatori e programmatori di bot.

Qual’è l’Utilità di OpenRobotsTXT?

Il file robots.txt si trova nella root directory di ogni sito. È facilmente individuabili e scaricabile. Anche l’Internet Archive ne conserva una copia.

Allora, cosa c’è di nuovo?

La novità sta nell’approccio sistematico di effettuare delle analisi su larga scala di questi file – cosa mai fatta finora. OpenRobotsTXT non effettua solo l’archiviazione, ma li analizza per scroprire il loro valore intrinseco. È con questi dati che, ad esempio, possiamo capire come i siti gestiscono il traffico dei bot. È un modo originale per comprendere il comportamento dei crawler, scoprire nuovi bot e verificare l’efficacia delle direttive imposte ai bot – se vengono cioé alterate da server, ISP o altri intermediari.

Qual è la Motivazione Dietro OpenRobotsTXT?

L’obiettivo è semplice ma potente:

Vogliamo costruire un archivio aperto e globale di file robots.txt.

Questo dataset interessa ricercatori, amministratori di sistema, webmaster e sviluppatori di crawler perché offre dati sui rapporti che siti web hanno con gli agenti automatizzati. Raccogliendo e analizzando i file robots.txt, OpenRobotsTXT può aiutare a rispondere a molte domande – ad esempio:

Quali user agent sono bloccati e chi li blocca?
Quali sono i nuovi crawler?
Quali domini offrono o impediscono l’indicizzazione dei loro contenuti?
Ogni crawler vede lo stesso robots.txt?
Qual’è la frequenza con cui s’impedisce ai crawler di accedere ai robots.txt?

Con questi dati, possiamo aiutare l’ecosistema web a funzionare in modo più trasparente ed efficiente. Per gli sviluppatori di crawler è una opportunità di ottimizzazione. Ad esempio, se un sito richiede un ritardo di scansione di 20 secondi, si potrebbe rimodulare il suo crawl budget, favorendo le pagine più importanti. Questa ottimizzazione pro-attiva è un modo intelligente e rispettoso che i motori di ricerca hanno per eseguire la scansione di un sito.

E i siti che bloccano esplicitamente i bot?

Probabilmente non sono siti di grande interesse a cui dare troppa importanza o alta priorità. Piuttosto bisogna fare attenzione a quei siti con strutture aperte e ad alto volume di traffico.

Perché proprio adesso? Perché OpenRobotsTXT?

Abbiamo notato un interesse crescente per i crawler web, grazie all’ascesa dei LLM e bot AI. Questi sistemi raccolgono enormi quantità di dati utilizzando le stesse tecniche di scansione di crawler tradizionali che esistono da anni. Mentre emergono proposte per gestire l’accesso degli agenti di AI, un modo semplice ed efficace è ancora il file robots.txt.
OpenRobotsTXT è la nostra risposta – un archivio di file robots.txt aperto e trasparente per informare sull’attività dei crawler e supportare lo sviluppo di una conversazione aperta, informata e costruttiva sul ruolo dei bot nell’era dell’AI.

A chi si rivolge OpenRobotsTXT?

OpenRobotsTXT è uno strumento per tutti coloro a cui interessa conoscere ed approfondire i modi in cui i bot interagiscono con i siti web. Sono senz’altro interessati ricercatori, amministratori di sistema e di siti web, ISP, giornalisti e sviluppatori di crawler, solo per citare alcune delle categorie professionali più direttamente coinvolte. Dal nostro punto di vista, OpenRobotsTXT ci aiuta a comprendere il tasso di impedimento all’indicizzaione, identificando le tendenze di comportamento dei bot, confrontando i nostri crawler con altri del settore. Per fare questo, abbiamo introdotto un user-agent dedicato che recupera solo i file robots.txt, assicurando un dataset pulito e focalizzato.
Combinando i dati di questo crawler con quelli dei nostri partner e i dati disponibili su majestic.com, possiamo costruire una risorsa che è il frutto di un’azione sinergica tra i vari membri della comunità che condividono informazioni su nuovi bot, errori di configurazione comuni e standard emergenti. Questi dati possono aiutare gli amministratori di sistema e i webmaster offrendo spunti di riflessione su come i bot vedono i loro siti, potenziali problemi per direttive mal formulate, nomi di user-agent errati o regole obsolete. OpenRobotsTXT può aiutare i ricercatori a capire e studiare nuovi trend, come gli effetti pratici del nuovo standard RFC 9309, e verificarne l’implementazione.

Inoltre, i bot possono consultare i dati di OpenRobotsTXT prima di accedere ad un server. Questo può essere particolarmente utile in quei casi in cui non è stato possibile scaricare il file robots.txt.

Potrò utilizzare il sito OpenRobotsTXT per esplorare i dati dei crawler?

Sì!

La piattaforma offre strumenti per cercare e analizzare dati relativi al comportamento di siti web rispetto ai bot. Compiliamo statistiche regolari sui bot più performanti. Per gli amministratori di sistema e di siti web, un dato importante del robots.txt è la timeline che ne documenta l’evoluzione nel tempo (modifiche, errori del server o variazioni inaspettate che si verificano quando gl sviluppatori modificano temporaneamente un file robots.txt).

C’è un interesse crescente per questi file, ed è per questo che OpenRobotsTXT fornirà un archivio cache anche delle varie versioni dei files robots.txt. Stiamo verificando le modalità operative con cui condividere i dati con terze parti, utili in discussioni o controversie sull’accesso a dati di bot, per garantire la massima trasparenza e per identificare comportamenti in contrasto con le esigenze del sito.

OpenRobotsTXT aiuta a documentare quali risorse sono state acqusite dai bot, rispetto alle direttive imposte dal robots.txt, in maniera diretta e neutrale. La neutralità dell’approccio riduce ambiguità e migliora la comunicazione quando si presentano scenari con problemi di accesso a dati o contenuti, a causa di configurazioni errate o modifiche non previste.

È Consigliabile bloccare o consentire l’accesso a determinati bot?

OpenRobotsTXT è uno strumento neutrale che vuol favorire una discussione aperta. Non raccomandiamo di bloccare o consentire l’accesso a dati da parte di bot specifici perché il nostro obiettivo è rimanere neutrali.

Proprio in virtù della nostra mission e visione, forniamo dati per aiutare tecnici e managers a fare scelte consapevoli e informate. Tutti coloro che devono sviluppare politiche di accesso ai dati devono comprendere appieno l’impatto delle loro scelte (non solo tecniche, ma anche etiche). Conoscere i bot aiuta a sviluppare strategie consapevoli in base agli obiettivi dell’organizzazione, favorendo la giusta esposizione dei dati.

Come si contribuisce al progetto?

Soggetti a cui interessa partecipare e supportare questo progetto possono interagire in vari modi.

Un modo semplice è aiutare a sensibilizzare l’opinione pubblica comunicandone l’esistenza.

Quando vedi le visite del crawler OpenRobotsTxt ai tuoi file /robots.txt, parlane sui Social Media.
Altro modo è consultando il sito. Presto sarà disponibile un login per accedere a strumenti gratuiti. Il feedback e le idee degli utenti ci aiuteranno a sviluppare un sistema che migliorerà nel tempo. Stiamo lavorando per fornire un accesso più ampio al nostro archivio di dati, in costante crescita. Sebbene al momento la quantità di dati è gestibile, il dataset è piuttosto grande e va condiviso responsabilmente. Ci stiamo concentrando sullo sviluppo di partnership con organizzazioni fidate e ben consolidate. A breve, prevediamo di siglare accordi di collaborazione con ricercatori riconosciuti di istituzioni accademiche in tutto il mondo. Il nostro obiettivo a lungo termine è semplice: rendere i dati disponibili a tutti. E siamo impegnati per lo sviluppo di una piattaforma per una condivisione dei dati che sia il più possibile affidabile e sostenibile.

Come posso collaborare con OpenRobotsTXT?

Stiamo sviluppando un programma di partnership con quelle organizzazioni a cui interessa sviluppare una collaborazione più impegnativa. I dettagli saranno disponibili sul nostro sito. Organizzazioni a cui interessa approfondire l’opportunità di avviare una collaborazione possono contattarci utilizzando il modulo contatti.

Diamo priorità alle partnership con attori esperti e fidati per garantire che il progetto cresca in modo responsabile e sostenibile.

Il nostro intento è quello di stabilire protocolli di collaborazione per conseguire e mantenere l’integrità del progetto, condividendo approfondimenti e intuizioni a vantaggio dell’intero ecosistema del web.

About
Latest Posts

Majestic