Non tutti sanno che attraverso Majestic è possibile analizzare le pagine del proprio sito. Le informazioni sono presenti nel tab Pagine del Site Explorer

image-1Questa opzione è un report delle pagine con il numero di link entranti e lo status della pagina

image-2

ovvero la risposta che il server ha restituito quando lo spider di Majestic ha richiesto la pagina. Quando una pagina viene scaricata correttamente il server risponde con il codice 200 ovvero di “download riuscito”, nel caso in cui sono state implementate delle direttive particolari (come ad esempio un re-indirizzamento verso altra pagina),  il server restituisce un codice 301 (come si può vedere dal  risultato n° 3 della screenshot precedente)

image-3

In altre circostanze, alcune pagine possono essere state individuate dallo spider di Majestic ma non ancora veificate da Majestic, e poi ci sono le pagine che Majestic ha individuato e che al momento della richiesta non erano disponibili per il download. In questo scenario il server può restituire due risposte: un codice 410 oppure 404.

Nella stragrande maggioranza dei casi i server offrono il 404 che è l’errore di “pagina non trovata” – è un segnale che la pagina, in quel momento, non è disponibile. Un messaggio 410 invece è una indicazione più precisa, ovvero la rimozione della pagina dal server (che è stata cancellata definitivamente ovvero è GONE).

Per chi fosse interessato ad ulteriori approfondimenti c’è una pagina su Wikipedia che offre un elenco completo di tutte le risposte fornite da server web.

È possibile verificare l’interazione tra client e server (cioè come risponde il server alle richieste di un browser oppure di uno spider) con questo sito.

L’importanza delle pagine 404

Identificare le pagine non trovate è importante. Gli utenti che aprono una pagina non trovata si irritano quando si ritrovano su un messaggio standard di Apache o IIS segnalando l’assenza della pagina. La presenza di pagine non trovate è altresì un segnale di scarsa attenzione e manutenzione del sito che i motori di ricerca tengono in considerazione.

Come comportarsi davanti alle pagine 404

La prima cosa da fare è verificare la pagina 404 che viene presentata agli utenti: È stata opportunamente personalizzata? Un’idea è creare una pagina quasi identica alla Home Page del sito dove però il messaggio di pagina non trovata è chiaramente visibile. Così facendo offriamo agli utenti che vi giungono l’opportunità di andare altrove nel sito e cercare pagine alternative/equivalenti.

Bisogna intervenire per correggere l’errore. La pagina potrebbe essere stata cancellata o rimossa per errore ed in quel caso basta ripristinarla. Più complessa l’operazione nel caso in cui la pagina è stata rimossa dal sito – potrebbe essere una pagina che nel tempo ha accumulato molti link entranti che improvvisamente sono orfani di pagina: succede spesso che pagine cambiano URL lasciando un vuoto nella nuova architettura del sito. La soluzione più immediata e semplice è implementare un reindirizzamento 301 verso la nuova destinazione – se una nuova destinazione esiste. Nel caso particolarmente disgraziato in cui una nuova pagina non c’è allora bisogna cercar di intervenire modificando i link entranti, contattando i webmaster offrendo delle pagine di destinazione alternative a cui puntare.

Torniamo sull’argomentodelle pagine non scansionate a cui si è accennato nei paragrafi precedenti.

image-4

In casi come questo si può “chiedere” a Majestic di visitare le pagine con lo strumento Richieste URL. Lo spider di Majestic visiterà le pagine. I tempi di attesa sono dell’ordine delle 72 ore (spesso anche meno).

image-5

I codici di risposta di un server sono numerosi e andrebbe oltre lo scopo di questo post analizzarli tutti. Sono tuttavia da tenere in considerazione i codici 403/406.

403
La richiesta è legittima ma il server si rifiuta di soddisfarla

406
La risorsa richiesta è solo in grado di generare contenuti non accettabili secondo la header Accept inviato nella richiesta

Risposte del server di questo tipo potrebbero essere una indicazione che il server sta bloccando l’accesso agli spider (buoni e cattivi) per risparmiare banda ed è una circostanza che merita la giusta attenzione: il sito potrebbe essere “vittima” di una scarsa indicizzazione da parte degli agenti web.

Questa circostanza si potrebbe verificare anche a causa di un uso improprio o errato delle direttive impartite attraverso il file robots.txt.

Il download dei dati

Semplice da effettuare, basta cliccare sul tasto “Export Data” ed appare la finestra di dialogo dove scegliere la tipologia di dati che si vogliono scaricare:

image-6

image-7

image-8

Il numero di pagine che si possono scaricare dipende dall’abbonamento: Con un abbonamento Silver il limite massimo è 5.000 pagine, mentre con il livello Gold il limite è 15.000, per arrivare fino a 30.000 con un abbonamento Platinum.

Gli usi di Majestic sono diversi a seconda delle esigenze e della creatività degli utenti. Ogni giorno riceviamo segnalazioni e suggerimenti molto interessanti – invia le tue procedure/tecniche che utilizzi per estrarre dati da Majestic – facci sapere! Lascia un commento e ti contatteremo!

THANK YOU!
If you have any questions in the meantime, please contact help@majestic.com
You have successfully registered for a Majestic Demo. A Customer Advisor will contact you shortly to schedule a suitable time to connect.