Introduzione

In questo articolo affrontiamo un tema da ottimizzazione SEO avanzata sconosciuto ai più: come le parole si trasformano in numeri – un argomento ai confini della realtà per molti digital marketers che non hanno un background tecnico. Questa non è la solita disquisizione dello spidering e dell’indicizzazione dei contenuti – con questo articolo descriviamo , seppure in modo del tutto incompleto e semplicistico, questo processo di elaborazione dei contenuti per fare delle considerazioni di ottimizzazione SEO.

L’articolo offre una descrizione qualitativa di come i motori di ricerca preparano i contenuti per essere indicizzati. Non affrontiamo l’argomento con il rigore della scienza dell’informazione e con tutta la matematica del caso. Chi scrive, non ne è all’altezza. Tuttavia s’è pensato di condividere questo viaggio affascinante con i lettori di Majestic perché conoscere questi processi è il primo passo verso un nuovo modo di vedere e fare ottimizzazione SEO.

È una descrizione qualitativa di come un motore di ricerca tratta i contenuti di un sito web. Ti farò vedere in maniera semplice ed intuitiva, come le parole vengono trasformate in numeri. È un percorso affascinate.

Chi mi conosce sa che sono un consulente SEO e non Data Scientist. Il mio punto di vista è molto vicino al tuo, anche se negli ultimi tempi mi sono avvicinato molto a questo mondo perché ritengo che per fare SEO c’è bisogno di queste conoscenze.

L’importanza per i consulenti SEO

Oggi molti digital marketers non hanno una formazione tecnica. Personalmente ne conosco tanti che hanno una laurea in scienza della comunicazione che nulla ha a che fare con ingegneria informatica o una laurea in matematica. Finora siamo riusciti a fare il nostro lavoro ed operare come consulenti SEO senza una benché minima conoscenza di questi aspetti così evoluti della Search.

Fare SEO a livelli alti richiede uno sforzo importante per capire l’evoluzione della Search e modificare il modo in cui facciamo SEO. Conoscere cosa succede dietro le quinte dei motori di ricerca e come ha inizio il processo di indicizzazione potrebbe essere un primo passo.

È un viaggio molto difficile che richiede formazione per acquisire competenze che molto di noi non hanno. Un atteggiamento che ci viene imposto dall’evoluzione tecnologica – adattarsi ad ogni evento avverso e superare le situazioni più difficili.

Adapt and Overcome (Cit. The Sniper Mind – David Amerland P.217)

L’obiettivo è non diventare delle commodity

La mia ambizione è accendere in ognuno di voi la curiosità del sapere e motivare la vostra ambizione di innovare il modo in cui fai SEO. Solleticando la tua curiosità, che ogni buon SEO deve avere, voglio attivare una riflessione personale sul tuo percorso lavorativo: quando avrai letto (e capito) questo articolo rispondi a queste domande:

  • secondo me dove sta andando la SEO?
  • Come sta cambiando il modo di fare SEO?
  • Cosa deve cambiare per essere ancora un professionista competente?
  • Quali sono le competenze che ho e quali devo acquisire nei prossimi mesi?
  • Quale deve essere il percorso formativo che devo seguire per acquisire nuove competenze?

The Real Cyberspace

Quello che a modo mio chiamo the real cyberspace è questo luogo astratto dove i linguaggi di programmazione sono poesia e comunicazione, dove l’uomo incontra la macchina e vice-versa. È uno spazio di trasformazione dove le parole ed il linguaggio diventano bit e viceversa.

I computer non ci capiscono

E noi non comprendiamo loro – è una cosa reciproca! I computer capiscono numeri e ne possono elaborare in pochi minuti più di quanti noi tutti potremmo elaborare in una vita intera e con gran fatica. Eppure i motori di ricerca riescono (quasi sempre) a capire il nostro intento e propongono contenuti vicini alle nostre espressioni di esigenze lavorative o di svago – il tutto attraverso una semplice query.

I linguaggi sono sistemi di comunicazione

I linguaggi sono l’essenza nel nostro essere. La cultura imprime accelerazioni ai linguaggi che si trasformano. Una lingua è un sistema di regole (struttura e grammatica). I linguaggi tendono a verticalizzarsi in delle specializzazioni di gruppo e per dominio di appartenenza. Le parole e le espressioni sono native e parte integrante di culture e professioni. C’è poi la complessità che deriva dal contesto di una discussione, dal libro che leggo o dal documento che sto analizzando.

Il Web è caos

È l’immagine dell’uomo e della sua vita caotica, piena di imprevisti, densa di caratteristiche diverse impresse dalle persone che, in centinaia di milioni, ogni giorni trasformano questo plasma vivo che chiamiamo web in un continuo divenire. Il caos è l’espressione della mancanza di struttura – il 90% del contenuto online non utilizza meta dati di supporto come, ad esempio, dati strutturati. Inoltre, molte pagine web sono scritte in un HTML con errori.

Come può un computer che capisce solo numeri capire e le lingue?

Ci pensa il Natural Language Processing (NLP) con un processo descritto nei paragrafi che seguono.

L’elaborazione delle parole

Il primo passo è la trasformazione delle parole in numeri. Prendiamo in considerazione una pagina web. Come prima cosa, dobbiamo scaricare i contenuti. Di recente Steve Pitchford di Majestic ha scritto una mini serie sulla programmazione in Python e uno dei tre articoli è dedicato proprio a come scaricare le pagine web con Python.

Ottimizzazione SEO avanzata - come trasformare le parole in numeri
La trasformazione di parole in numeri

Una volta scaricata la pagina, bisogna fare “pulizia”. Infatti, come abbiamo detto poc’anzi, il web è disordinato, e le pagine web sono scritte in un HTML che spesso è approssimato. Dopo aver scaricato la pagina web , bisogna estrarre i contenuti separandoli dall’HTML. Ecco una lista delle attività che sono tipiche dei data scientist.

Spesso l’attività di pulizia e preparazione è più impegnativa dell’analisi del dato.

Le attività per arrivare al contenuto pulito e pronto per essere elaborato sono:

  • Estrazione del contenuto dall’HTML. Dobbiamo separare il testo, le immagini i video e gli eventuali elementi resi disponibili per il download dalla struttura HTML di supporto;
  • Eliminazione della punteggiatura. I computer non capiscono la punteggiatura ed è d’intralcio all’elaborazione che stiamo per vedere;
  • La rimozione delle “stop words” ovvero le parole d’uso comune che non apportano significato al testo ma che sono indispensabili nel linguaggio comune come ad esempio aggettivi, proposizioni, articoli;
  • La creazione di un vocabolario di termini che sono presenti nel documento (o nel corpus di documenti se stiamo organizzando più pagine web). Il vocabolario non è un semplice inventario di tutte le parole, ma un estratto delle parole presenti dopo aver eseguito lo Stemming e Lemmatization.

    Lo stemming è il processo di combinazione di parole con significato simile – il processo di riduzione della forma flessa di una parola alla sua forma radice, detta “tema”.

    La lemmatizzazione è il processo di riduzione di una forma flessa di una parola alla sua forma canonica (non marcata), detta lemma.

    Nell’elaborazione del linguaggio naturale, la lemmatizzazione è il processo algoritmico che determina automaticamente il lemma di una data parola. Il processo può coinvolgere altre attività di elaborazione del linguaggio, quali ad esempio l’analisi morfologica e grammaticale. In pratica la lemmatizzazione, in linguistica, è il processo di raggruppamento delle diverse forme di una parola in modo che possano essere trattate come un unico termine.

S’intuisce che il processo non è per nulla banale e richiede una dose massiccia di data scrubbing, ovvero di pulizia meticolosa dei contenuti.

Rimaniamo in un ambito puramente descrittivo e continuiamo il nostro percorso di trasformazione, sapendo che queste tecniche sono ben consolidate e che possono essere utilizzate da chiunque voglia impegnarsi a capirne il funzionamento. Infatti, Python ha disponibili librerie che possono gestire queste procedure e non bisogna conoscere la programmazione. Bisogna conoscere la metodologia ed il perché vengono eseguite certe operazioni. Per questo, non dobbiamo diventare dei programmatori ma utilizzatori dei programmi.

La Trasformazione

Facciamo un esempio pratico di trasformazione di parole in numeri. Fin qui abbiamo esaminato il lavoro che c’è fa dare. Prendiamo in esame tre frasi molto semplici che per brevità riprendo dall’articolo originale in inglese qualche giorno fa:

  • Majestic is a link intelligence platform
  • Find backlinks to your website with Majestic
  • Sante is a Majestic Brand Ambassador

Vediamo come si articola il nostro lavoro per la creazione di un vocabolario. Eliminando le stop words abbiamo le seguenti parole con cui lavorare:

{‘ambassador’, ‘backlinks’, ‘brand’, ‘find’, ‘intelligence’, ‘link’, ‘majestic’, ‘platform’, ‘sante’, ‘website’}

Il nostro vocabolario è costituito da dieci parole. Adesso fai attenzione perché è qui che avviene la magia della trasformazione.

Organizziamo le tre frasi su righe separate e le parole del vocabolario in colonne come nell’immagine che segue:

Matrice spaarsa ottenuta da un vocabolario di parole di un corpus di frasi.
La creazione di una matrice sparsa partendo da un vocabolario di parole

Lo puoi fare anche tu, adesso, mentre leggi l’articolo:

  1. Scegli un insieme di frasi che puoi prendere da un libro, una rivista o da quest’articolo.
  2. Elimina tutte le stop words.
  3. Crea una tabella ed inserisci nelle colonne la cifra 1 in corrispondenza della parola se presente nella frase e 0 altrove.
  4. Ripeti il procedimento per ciascuna frase.

Abbiamo costruito una matrice di numeri che rappresenta le tre frasi.

Matrice sparsa ottenuta da un vocabolario di parole

Abbiamo creato un modello di spazio vettoriale del nostro contenuto.

Le parole sono diventate numeri.

Adesso possiamo trasformare questa matrice (sparsa) di numeri applicando le regole dell’algebra lineare. Possiamo, ad esempio, mettere a confronto le frasi per determinarne la loro similitudine, perché le frasi sono diventate dei vettori. E da qui si parte per costruire l’indice del web e capire, ad esempio se due documenti sono simili tra loro e quindi costituiscono contenuto duplicato. Sono sempre matrici di numeri come questa da cui si parte per fare, ad esempio, della Sentiment Analysis.

Difficile ma non impossibile

A noi professionisti del Search Marketing, che ci occupiamo di ottimizzazione SEO, non interessa conoscere i dettagli del processo. Noi non dobbiamo diventare dei matematici e conoscere la teoria della trasformazione delle matrici. Noi dobbiamo avere competenze sufficienti per comprendere il processo e gestire i programmi che elaborano i dati per capire i risultati e trasformare il dato dell’elaborazione in informazione. Dobbiamo aspirare a diventare dei piloti di formula 1: esperti nella guida che però non conoscono il ciclo termodinamico del motore che guidano!

Riassumendo

In questo articolo abbiamo visto come un testo si trasforma in una matrice di numeri che è elaborata dai motori di ricerca per indicizzare le pagine web e rispondere alle domande degli utenti. Il nostro percorso è stato discorsivo e anche impreciso a tratti ma l’articolo non ha l’ambizione di fare un trattato sull’argomento. Al contrario, l’articolo vuole essere una descrizione semplice ed intuitiva per far comprendere la complessità dell’operazione ed offrire un punto di vista diverso, a cui molti non hanno pensato. Vedere un testo come una matrice di numeri ha cambiato il mio modo di vedere e di fare ottimizzazione SEO.

Lo studio di Python e NLP mi hanno insegnato una cosa importante con cui vi voglio lasciare: La cura con cui si scrive copy è importante. A volte piccoli dettagli che all’apparenza possono sembrare insignificanti, fanno la differenza tra l’essere posizionati bene ed il non esserci nelle SERP dei motori di ricerca. La presenza o meno di una parola oppure la prossimità di diverse parole tra loro cambia la matrice di numeri: gli zero e gli uno si spostano ed il risultato del calcolo è diverso. E nel computer non c’è una persona che può correggere o interpretare il nostro pensiero – sono numeri.

Ultima considerazione: questa tecnologia non è perfetta come vorremmo che fosse. Sappiamo come dovrebbe funzionare ma non sempre succede. Ce ne accorgiamo quando i risultati di ricerca sono strani oppure non ci soddisfano appieno.

Condividi la tue considerazioni lasciando un commento qui sotto – parliamo della ottimizzazione SEO in chiave moderna e ragioniamo sul futuro e partiamo dal concetto che le keyword sono una cosa del passato.

Sante Achille
Follow me!