La maggior parte dei nostri utenti fa riferimento al Fresh Index di giorno in giorno per via del fatto che viene aggiornato continuamente e riguarda i link che vengono scoperti e analizzati nell’arco degli ultimi 90 giorni.

Un’altra parte dei nostri utenti invece preferisce usare l’Historic Index, molto più grande e molto più difficile da mantenere e da aggiornare.
Di recente, abbiamo fatto un miglioramento delle nostre infrastrutture che non ci ha permesso di ricalcolare e aggiornare l’Historic Index come volevamo fare nel corso di questo mese.

Prima di tutto, vogliamo scusarci per qualsiasi disagio causato dal mancato aggiornamento dell’Historic Index. Si tratta di un piccolo ritardo nei meccanismi non preventivabile ma stiamo lavorando per sistemare tutto e subito. Non possiamo sbilanciarci, anche per rispetto nei confronti dei nostri utenti, ma indicativamente l’aggiornamento dovrebbe essere rilasciato per la fine di Febbraio.

Vogliamo cogliere l’occasione per rivelarvi delle chicche circa il funzionamento di Majestic.

Volessimo re-indicizzare tutto il nostro database di 6,659,283,985,220 URL, facendo un semplice calcolo impiegheremmo circa 3 anni di lavoro”

Come è facile immaginare, l’Historic Index è un dataset IMMENSO, frutto di anni di indicizzazione di Majestic.

Majestic è molto più che una semplice lista di URL. È calcolo, matematica e organizzazione: tutto quello che serve per trasformare tutti i nostri dati in informazioni utili a voi utenti.

Il Trust e il Citation Flow non sono numeri presi a caso e senza i calcoli sul dataset di cui parlavamo prima, non potremmo misurare la Page Strength come facciamo ora.

Il Fresh Index è un cosa con 847.072.493.467 URL da analizzare. L’Historic Index – con 6.659.283.985.220 URL – è decisamente altra cosa. Majestic non ha tutte le risorse di altri motori di ricerca per indicizzare il web. I nostri bot indicizzano circa 7 miliardi di URL al giorno. Dovessimo indicizzare di nuovo tutto il nostro database di 6’659’283’985’220 URL, occorrerebbero circa 3 anni.

Ovviamente, in quel numero sono compresi siti ormai obsoleti, pagine rimosse o pagine che non sono state mai modificate. Quindi, per assicurarci di indicizzare i siti che sono veramente importanti, abbiamo un cluster di computer dedicati solamente all’analisi delle URL per avere sempre le informazioni più aggiornate.

Internet è in continua espansione, come lo spam e le informazioni false create ad arte per ingannare i motori di ricerca. Quest’ultimi stanno migliorando sempre di più e anche noi abbiamo dobbiamo stare al passo con l’evoluzione che è in atto.

A questo fine, abbiamo deciso di aggiornare i nostri dati. Sfortunatamente, l’aggiornamento ha avuto delle piccole ripercussioni su alcuni calcoli del Historic Index.

Perché le nostre Flow Metrics creano un panorama completo di Internet

Le Flow Metrics vengono costruite con ogni aggiornamento dell’Index, Fresh e Historic. Non utilizziamo delle scorciatoie nei nostri processi di calcolo perché creare un sistema come questo richiede molto tempo e pazienza. Le priorità da assegnare, in termini di indicizzazione, vengono determinate proprio dalle nostre metriche. Cosa vuol dire? Che non sprechiamo tempo a re-indicizzare pagine che non cambiano mai, che non interessano a nessuno.

Google ragiona in maniera simile, ma è sicuramente migliore di Majestic nella scoperta di nuove URL; non c’è dubbio. Ma scegliere se re-indicizzare o meno una URL, è sempre un compromesso per un web crawler. Quante risorse vanno spese nella scoperta di quello che ancora non conosciamo rispetto a quanto speso nell’indicizzare ciò che già conosciamo?

Le Flow Metrics ci aiutano a trovare il giusto equilibrio.