17
MAG
Michele Caivano aka Fortunecat | SEO | Discussione
[Update 27/05/2010]
Matt Cutts ha confermato che alla base del Google MayDay c’è una modifica degli algoritmi di Google. SearchEngineLand riporta:
Based on Matt’s comment at Google I/O, the pages that are now ranking well for these long tail queries are from “higher quality” sites (or perhaps are “higher quality” pages). My complete speculation is that perhaps the relevance algorithms have been tweaked a bit.
Fortunecat.it ve lo ha detto con 10 giorni di anticipo... ![]()
[/Update]
Google MayDay: in questi giorni ho ricevuto parecchie richieste a riguardo, quindi ho pensato di scrivere un post per fare po’ di chiarezza.
Ma cos’è Google MayDay?
In questo periodo numerosi webmaster hanno riscontrato una vistosa riduzione degli accessi provenienti da Google. Molti hanno notato che il calo più significativo di visite riguarda le cosiddette long tail, le frasi chiave costituite da 3 o più termini.
Questo problema è stato ironicamente battezzato “MayDay”, sia perche “la parola mayday è utilizzata in radiofonia per indicare un’immediata necessità di aiuto da parte di un’imbarcazione o di un velivolo” (da Wikipedia), sia perchè il calo di visite è stato notato nei primi giorni di Maggio (May Day).
Quali sono le possibili cause?
La mia opinione è la seguente: Google ha semplicemente “snellito” il proprio indice di ricerca.
Sicuramente avrete sentito parlare di Google Caffeine: Caffeine in sostanza è un aggiornamento dell’infrastruttura di Google, e tra gli obiettivi dichiarati di tale aggiornamento vi è proprio quello di aumentare la velocità delle ricerche.
Come si può “snellire” il Google Index?
Cerchiamo di capire come innanzitutto come è costituito un indice, facendo riferimento al brevetto “Index server architecture using tiered and sharded phrase posting list”.
Tutti i moderni motori di ricerca utilizzano le frasi per indicizzare, cercare, organizzare e descrivere i documenti. I documenti sono indicizzati tenendo conto delle frasi in essi contenute utilizzando una phrase posting list.
Le phrase posting list sono memorizzate in un cluster dell’index server e per motivi di performance possono essere raggruppate oppure partizionate in vario modo. Le frasi sono individuate considerando anche ogni possibile “phrasification” o variazione sul tema.
In termini più semplici:
E qui arriviamo al punto fondamentale. Per rendere l’indice più “leggero” Google può agire su due fattori:
Iniziamo dal primo punto: come vengono processate le query?
I motori di ricerca di vecchia concezione scomponevano le query complesse in singole parole chiave. La query dell’utente veniva soddisfatta fornendo come risposta i documenti contenenti tutte le parole chiave, seguendo un matching “booleano” diretto.
I motori di ricerca attuali cercano di indicizzare i concetti, più che le semplici parole chiave. Proprio per questo le frasi chiave non vengono decomposte nelle singole parole ma in sottofrasi, generando un albero di frasi per modellare concettualmente una query complessa.
Andiamo con ordine
Un insieme di parole non costituisce di per sé una frase. Come fa il motore di ricerca a distinguere le frasi?
Google ovviamente ragiona in termini statistici. Le frasi concettualmente rilevanti appaiono nei documenti con maggiore frequenza rispetto alle combinazioni puramente casuali.
Il processo effettuato da Google è il seguente:

Da quanto detto sinora risultano chiare le tecniche adottate da Google per indicizzare le frasi più significative o più importanti, che dir si voglia.
E le frasi lunghe e meno ricorrenti come vengono considerate?
Qui c’è il nodo fondamentale. Per ogni frase processata vengono anche estratte le possibili sottofrasi in modo da ridurre il costo computazionale dell’indicizzazione.
Facciamo un esempio concreto, ecco come potrebbero essere processate le tre query:

Le tre query/frasi vengono scomposte in sottofrasi e ricondotte ad un’unica unità concettuale. Per fare questo viene utilizzato un phrase tree, un albero che unisce logicamente fra loro le sottofrasi individuate.
Qual è di fatto l’effetto di questo nuovo algoritmo?
Per le frasi chiave più lunghe, per le cosiddette long tail, viene dato un minor peso al matching esatto dei termini, ed un peso maggiore al senso complessivo del documento.
Prima di Caffeine il fatto di scrivere nel vostro sito web la frase esatta “hotel rimini 3 stelle sul mare” vi dava un vantaggio significativo per quella long tail. Ora il peso della corrispondenza esatta è stato ridimensionato a favore di altri fattori, tra cui il senso del documento nel suo complesso, l’autorità del sito, ecc…
Riduzione del numero di pagine indicizzate
Ma siamo sicuri che il calo di visite sia solo dovuto alle long tail? Guardate questo diagramma che rapporta il numero di pagine indicizzate di FriendFeed in funzione della data di creazione delle pagine stesse.

E guardate anche cosa è accaduto a Punto-informatico.it:

Sembra incredibile, ma persino FriendFeed.com è stato soggetto ad una pesante deindicizzazione.
Fino a pochi mesi fa il numero di pagine indicizzate di FriendFeed era nettamente superiore, ve lo posso garantire in quanto uno dei miei seo tools utilizzava proprio Google per stimare il numero di link ad un dato dominio provenienti da FriendFeed.
E’ evidente quindi che per alleggerire il proprio immenso indice di ricerca Google ha dovuto rimuovere moltissime pagine. E in nome della velocità ha scelto di sacrificare le pagine più “anziane”.
Interessante, eh?
Alla prossima… ![]()
Pingback: Sunday – MayDay update – Morning 29# | My Social Web
Pingback: May day è arrivato Google MayDay