Większość użytkowników polega na co dzień na naszym indeksie Fresh Index, ponieważ jest regularnie aktualizowany i obejmuje wszystkie łącza, jakie obserwujemy w okresie 90 dni.

Niektórzy z naszych użytkowników wolą jednak korzystać z indeksu Historic. Jest znacznie większy, dlatego zadanie aktualizacji takiego indeksu jest poważnym przedsięwzięciem. W ostatnim czasie wprowadziliśmy pewne ulepszenia w infrastrukturze, ale nie udało się nam w tym miesiącu przeliczyć indeksu Historic Index, wbrew oczekiwaniom.

Po pierwsze, przepraszamy każdego, kto czekał na aktualizację indeksu Historic Index. Nie mogliśmy przewidzieć tej wpadki, ale pracujemy nad przywróceniem porządku – szacujemy, że aktualizacja zostanie ukończona przed końcem lutego.

Przy okazji możemy ujawnić więcej informacji o tym, jak Majestic wygląda od strony technicznej.

Proste obliczenie wskazuje, że jeśli mielibyśmy przeszukać całą bazę 6 659 283 985 220 adresów URL, zajęłoby to nam 3 lata.

Historic Index to POTĘŻNY zbiór danych. Majestic przeszukuje dane w Internecie od ponad dekady, dlatego to jest MNÓSTWO danych.

Ale Majestic to znacznie więcej niż lista. Obliczenia stosowane przez Majestic na zbiorach danych przekształcają listy w istotne statystki, na których polega cała branża.

Wskaźniki Trust Flow i Citation Flow nie są liczbami wysnutymi z powietrza, a bez obliczeń zastosowanych na całym zbiorze danych, nie przekładałyby się na standardy, które pomagają nam zrozumieć „siłę strony internetowej” (ang. Page Strength).

Indeks Fresh Index to jedna rzecz – z 847 072 493 467 adresami URL do obliczeń. Indeks Historic Index to zupełnie inna, ponieważ to 6 659 283 985 220 adresów URL. Majestic nie ma tak dobrych podstaw, jak nasza wersja wyszukiwarki: nie mamy takich samych zasobów do przeszukiwania internetu. Nasze sieci botów przeszukują co dzień około 7 mld adresów URL. Proste obliczenie wskazuje, że jeśli mielibyśmy przeszukać całą bazę 6 659 283 985 220 adresów URL, zajęłoby to nam w przybliżeniu 3 lata.

Oczywiście wiele z tych adresów URL jest powiązanych z witrynami, które są już zamknięte lub usunięte bądź takimi, które od chwili utworzenia wcale się nie zmieniły. Dlatego aby przeszukiwać tylko te witryny, które są istotne i regularnie aktualizowane, dysponujemy klastrem komputerów, które badają wszystkie nasze adresy URL i wybierają te, które powinniśmy przeszukać w następnej kolejności, tak aby nasz indeks zawierał najbardziej aktualne i najistotniejsze informacje.

Rozmiar internetu nieustannie się powiększa, podobnie jak rośnie ilość spamu i fałszywych informacji stworzonych do wprowadzania wyszukiwarek w błąd. Wyszukiwarki coraz lepiej rozpoznają takie rzeczy, my także musimy to potrafić.

Dlatego w tym celu niedawno zaktualizowaliśmy swój klaster. Niestety, aktualizacja przyniosła niepożądane skutki uboczne dla pozostałych części naszego procesu kompilowania, ponieważ cały proces jest ściśle zintegrowany, co sprawia problemy w starszej kompilacji, a to przełożyło się na wspomniane opóźnienie.

Dlaczego uważamy, że nasze wskaźniki Flow Metrics dają lepszy obraz Internetu, i niektóre sposoby ich zastosowania

Wskaźniki Flow Metrics są tworzone od podstaw dla każdej aktualizacji indeksu, zarówno Fresh, jak i Historic. Nie przyspieszamy obliczeń, a stworzenie systemu, który analizuje strony internetowe w przydatny sposób, musi potrwać.
Wykorzystujemy także własne wskaźniki do kierowania priorytetami przeszukiwania – które adresy URL należy przeszukiwać w dalszej kolejności. Oznacza to, że nie marnujemy zasobów na przeszukiwanie i ponownie przeszukiwanie stron, które się nigdy nie zmieniają lub które nikogo nie interesują.

Sądzimy, że Google działa na podobnej zasadzie. Wyszukiwarka Google jest lepsza w „odkrywaniu” niż Majestic. Bez wątpienia. Ale decyzja o ponownym przeszukaniu adresu URL – niezależnie od posiadanych zasobów – jest dla robota indeksującego kwestią kompromisu. Jaki odsetek zasobów przeszukiwania należy przeznaczyć na odkrywanie tego, co nie zostało odkryte, a jaki na ponowne zbadanie tego, co już znamy?

Wskaźniki Flow Metrics pomagają Majestic w uzyskaniu właściwej równowagi.