La mayoría de los usuarios confían en nuestro Fresh Index diariamente ya que se actualiza de manera continua y cubre cualquier enlace que veamos durante los 90 días que dura el periodo analizado.

Sin embargo, algunos de nuestros usuarios utilizan el Historic Index. Es mucho más grande y la tarea de actualizarlo es enorme. Recientemente hemos hecho algunas mejoras en nuestra infraestructura que ha significado que no fuéramos capaces de recalcular el Historic Index como hubiésemos esperado este mes.

Lo primero es pedir disculpas a cualquiera que estuviese esperando la actualización del Historic Index. No pudimos prever el problema, pero estamos trabajando duro para poner todo en orden tan rápido como podemos. Creemos que la actualización estará complete antes de finales de febrero.

Eso nos ofrece la oportunidad de mostrar un poco más al detalle sobre cómo Majestic trabaja el motor levantandoos el capó.

 “Si tuviéramos que rastrear toda nuestra base de datos de 6,659,283,985,220 URLs, unos cálculos rápidos nos dicen que podría llevarnos aproximadamente 3 años.”

El Historic Index es una BESTIA de datos. Majestic ha estado rastreando por más de diez años y eso supone un MONTÓN de datos.

Pero Majestic es mucho más que un simple listado. Los cálculos que Majestic realiza sobre los datos son capaces de transformar ese listado en una serie de estadísticas que aportan el conocimiento necesario sobre la industria o sector al que se aplique.

El Trust Flow y el Citation Flow no son números sacados de la nada o sin cálculos que hayan sido aplicados a todos los datos, de ser así no serían capaces de transformarse en patrones que nos ayuden a entender el “Page Strength”.

El Fresh Index es un elemento con 847,072,493,467 URL con los que hacer cálculos. El Historic Index es otro elemento con 6,659,283,985,220 URLs. Majestic no está ni de lejos tan bien financiado como nuestros motores de búsqueda competidores: no disponemos de los mismos fondos para rastrear internet. Nuestra red de bots rastrea alrededor de 7 billones de URLs cada día. Si tuviésemos que rastrear toda nuestra base de datos de 6,659,283,985,220 los cálculos nos dicen que nos llevaría aproximadamente 3 años.

Por supuesto muchas de esas URLs están asociadas a páginas web que se encuentran actualmente cerradas o han sido eliminadas o simplemente no han cambiado desde la primera vez que fueron creadas. Por lo que para asegurarnos de que rastreamos los sitios realmente importantes y que son actualizados con frecuencia, tenemos un cluster de ordenadores que examinan todas nuestras URLs y seleccionan cuales de ellas deberían ser rastreadas a continuación para asegurarse de que nuestro índice cuenta con los datos más actualizados y relevantes posible.

El tamaño de internet está aumentando continuamente así como la cantidad de spam y la información que intent trampear a los motores de búsqueda. Estos últimos cada vez son mejores a la hora de reconocer estas cosas y nosotros debemos estar a la altura.

Con este fin hemos actualizado nuestro cluster. Desafortunadamente, esta actualización ha tenido algunos efectos secundarios en otras partes de nuestros procesos, como podréis imaginar, el proceso completo se encuentra interconectado y esto ha creado algunos problemas en nuestros datos históricos que se han visto retrasados.

Por qué creemos que nuestras Flow Metrics aportan un mejor punto de vista de Internet y algunas formas en que las utilizamos

Las Flow Metrics se han creado con los cimientos de cada una de las actualizaciones de nuestros índices, tanto el Fresh como el Historic. No forzamos los cálculos por lo que esto lleva su tiempo, el configurar un sistema que analice páginas de una manera útil y coherente. También usamos nuestras propias métricas para establecer las prioridades de nuestros rastreadores. Decidimos qué URLs deben rastrear primero nuestros rastreadores. Eso significa que no desperdiciamos recursos rastreando una y otra vez las páginas web que nunca cambian y sobretodo que a nadie le importan.

Creemos firmemente que Google se rige por las mismas ideas. Google es mejor en “descubrir” que Majestic, sin duda. Pero la decisión de re-visitar una URL sin tener en cuenta de los recursos de los que dispongas, es un tema de compromiso que depende de cada rastreador web. ¿Qué porcentaje de los recursos de rastreo deben invertirse en descubrir lo que aún no habéis visto frente a auditar lo que ya conocéis?

Flow Metrics hace que Majestic equilibre correctamente la respuesta a esta pregunta.