23
FEB

Il posizionamento delle keyphrase

Scritto da Fortunecat in SEO

Oggi parliamo in modo più generale del funzionamento di un motore di ricerca su larga scala come Google, analizzando le informazioni contenute nel brevetto “Multiple index based information retrieval system” del 28 Luglio 2009.

I sistemi di information retrieval, generalmente chiamati motori di ricerca, creano un indice che collega i documenti presenti su internet alle singole parole contenute nei documenti stessi.

Il motore di ricerca, in risposta ad una query contenente uno o più termini, fornisce un set di documenti contenenti proprio i termini richiesti dall’utente.

Viene quindi effettuato un ordinamento (ranking) dei documenti che tiene conto di:

  • link analysis;
  • host domain (il fatto che il dominio venga espressamente nominato conferma l’impatto della rilevanza ed autorevolezza dell’intero dominio sul ranking);
  • frequenza di occorrenze dei termini presenti nella query, ecc…

Ma un motore di ricerca evoluto non si limita al matching “booleano” dei termini: infatti per molte ricerche il matching esatto non produrrebbe i risultati desiderati.

Ad esempio – se ci limitassimo alla corrispondenza esatta – cercando Australian Shepherd (una razza canina) otterremmo come risposta anche documenti che parlano dell’Australia o degli Shepherd in generale.

Questo perché i sistemi di indicizzazione tradizionali si basano sulle parole piuttosto che sui concetti, e i concetti sono solitamente espressi utilizzando delle frasi.

Un modo per ovviare a questo inconveniente potrebbe essere quello di utilizzare i co-occurrence patterns: se le parole A, B e C sono presenti contemporaneamente in più documenti è probabile che siano in qualche modo collegate semanticamente.

Ma anche questo sistema ha delle controindicazioni. Supponiamo che le tre parole siano “Presidente”, “Casa” e “Bianca”.

Le parole “Casa” e “Bianca” generalmente compaiono in associazione al termine “Presidente”, ma prese singolarmente hanno ben poco a che fare con il concetto di “Presidente”. Quindi non possiamo ritenere semanticamente affini le tre parole in esame.

Come fa Google ad estrarre i concetti da un documento?

Se il motore provasse ad indicizzare tutte le frasi, ossia tutte le possibili combinazioni di termini, lo sforzo computazionale sarebbe enorme e i risultati sarebbero comunque inadeguati.

Quindi Google cerca di estrarre solo le keyphrase più importanti, estrapolando cioè solo le frasi utilizzate di frequente e/o in modo particolare all’interno dei documenti in esame.

L’obiettivo è quello di stabilire quali siano le frasi valide e significative, evitando così l’indicizzazione indiscriminata di tutte le combinazioni possibili di termini.

L’analisi delle frasi correlate

Per capire se due frasi sono correlate Google utilizza una metrica molto particolare: l’Informational Gain, dato dal rapporto tra il tasso di co-occorrenza effettivo di due frasi ed il tasso di co-occorrenza atteso.

In termini più semplici: se l’informational gain supera un valore di soglia, ossia se due frasi vengono utilizzate insieme con un tasso superiore a quello previsto/medio, Google classifica le frasi in questione come correlate.

Da un punto di vista semantico: le frasi correlate sono utilizzate in riferimento ad un dato argomento. Ad esempio “Presidente degli Stati Uniti” e “Casa Bianca” fanno riferimento a concetti molto vicini fra loro.

Capite bene quindi quanto questa patent sia attuale, soprattutto perché Google ha deciso di espandere i risultati di ricerca con i sinonimi. E non è un caso che nel post presente sul blog ufficiale di Google vengano fatti gli stessi esempi contenuti in questa patent.

Le frasi correlate e il ranking

L’utilizzo delle frasi correlate modifica persino i criteri di ranking, vediamo come.

Per ogni frase viene creata una “posting list” che identifica i documenti contenenti la frase in questione.
In aggiunta per ogni frase viene creata una seconda lista che contiene le frasi correlate a quella di partenza.

Dall’intersezione delle due liste il motore di ricerca riesce ad individuare i documenti che, oltre alla frase cercata, contengono anche le frasi correlate ad essa (documenti che quindi sono più rilevanti rispetto al concetto cercato dall’utente).

Il multiple index

Un altro aspetto molto interessante è che il motore di ricerca utilizza un indice multiplo. Sono infatti presenti un indice primario ed un indice secondario.

L’indice primario contiene l’index relativo alle frasi, con un numero limitato di documenti per ciascuna frase. Il ranking all’interno dell’indice primario è effettuato secondo criteri di rilevanza rispetto alla frase.

Tutti i documenti che non rientrano nell’indice primario finiscono nell’indice secondario, in cui il ranking è effettuato con criteri meno sofisticati.

Come viene assegnata la data ai documenti?

Come sapete tra le opzioni di ricerca di Google figura il ranking per data. Il brevetto è molto chiaro su questo punto. La data viene assegnata al momento dell’indicizzazione ma se il contenuto del documento viene aggiornato, anche la data viene aggiornata nell’istante di re-crawling. Questa informazione sicuramente vi tornerà utile per la real time search di Google, e per riciclare documenti “vecchi”.

I documenti che vengono aggiornati spesso inoltre traggono un beneficio in termini di ranking.

Indicizzazione “semantica”

Il sistema di indicizzazione si occupa anche di:

  • identificare le frasi e le frasi correlate;
  • indicizzare i documenti in relazione alle frasi;
  • creare e mantenere una tassonomia relativa alle frasi.

Grassetto, corsivo, sottolineato?

Davvero degno di nota il fatto che l’algoritmo di indicizzazione, nell’individuare le possibili frasi rilevanti in un testo utilizzi anche la formattazione presente: se una porzione di testo è ad esempio in grassetto, è probabile che costituisca una frase rilevante.

Ma questo non significa che il grassetto migliori il ranking, sia chiaro. Significa unicamente che il motore potrebbe utilizzare quelle informazioni per estrarre con maggiore facilità le frasi rilevanti da un documento, e quindi per effettuare una migliore classificazione semantica dei documenti.

L’utilizzo delle congiunzioni (e, o…)

Le congiunzioni, utilizzate in modo opportuno, possono suggerire al motore di ricerca che alcuni concetti espressi mediante frasi sono collegati. Se scrivo ad esempio posizionamento nei motori e social media marketing, il motore è in grado di comprendere, seppure in modo limitato, che le frasi chiave sono semanticamente affini.

A cosa serve quindi l’utilizzo opportuno della formattazione e delle congiunzioni?

C’è un limite massimo alle frasi rilevanti memorizzate per ciascun documento. Un utilizzo opportuno di questi strumenti ci garantisce che il documento sia correttamente classificato dal motore di ricerca.

Ranking e frasi chiave

A ciascun documento nella posting list viene assegnato un punteggio che tiene conto:

  • della rilevanza del documento stesso (es. pagerank);
  • numero di occorrenze della frase chiave;
  • anchor text e rilevanza dei documenti che linkano la risorsa;
  • utilizzo di markup per evidenziare le frasi rispetto al resto del documento.

Per le risorse via via meno rilevanti vengono memorizzate sempre meno informazioni (es.: per i documenti dal basso ranking non viene neppure considerata la posizione delle frasi all’interno del documento).

Come fa il motore a modellare i concetti?

Il concetto è modellato grazie ad una matrice di frasi. L’unione e la compresenza di più frasi chiave identificano un’unità concettuale.

Gli utenti non apprezzano documenti lunghi che parlano di diversi topic, per il semplice motivo che l’utente visita la pagina generalmente dopo aver effettuato una query nel motore di ricerca. Se cerco “gatti” voglio leggere pagine che parlino di gatti, no? Quindi maggiore è l’attinenza con la query, migliore il posizionamento della risorsa.

Se siete ancora vivi dopo aver letto questo kilometrico post non dimenticatevi di condividerlo sui social e di abbonarvi al feed. Tra l’altro ho creato anche una pagina facebook con cui potete darmi del “supporto morale”.

Alla prossima. :)

Se l'articolo ti sembra interessante puoi ritwittarlo o condividerlo su Facebook...

Ti potrebbe interessare anche:

  1. Brevetto Microsoft: Posizionamento su Bing
  2. Google MayDay: un po’ di chiarezza
  3. Oltre la personalizzazione dei risultati di ricerca
  4. Google Local Search: criteri generali di funzionamento
  5. Google e l’individuazione dei duplicati

Ti trovi in:

Blog » SEO » Il posizionamento delle keyphrase

Commenti dei lettori

  1. Federico Gargiani |

    Il posizionamento delle keyphrase – http://www.fortunecat.it/2010/02/posizionamento-keyphrase/

  2. Seo Guru |

    Interessante!! http://www.fortunecat.it/2010/02/posizionamento-keyphrase/ #seo #brevetti

  3. vincenzodb |

    davvero interessante :)

  4. stefitiz |

    bello ed esplicativo

  5. m3cStyle |

    Molto interessante, complimenti :)

  6. SEO Italy |

    Il posizionamento delle keyphrase – http://www.fortunecat.it/2010/02/posizionamento-keyphrase/

  7. Lorenzo |

    RT @seoitalytweets: Il posizionamento delle keyphrase – http://www.fortunecat.it/2010/02/posizionamento-keyphrase/

  8. Webmast |

    Molto interessante.

  9. JustB |

    Complimenti per la chiarezza, davvero un post interessante :)
    Mi chiedevo: ma tutte queste “considerazioni” come si devono poi riflettere nello sviluppo di un sito? Cioè ci sono degli effettivi miglioramenti ripensando la struttura di un sito per seguire queste linee guida?

  10. Fortunecat |

    @justb
    queste considerazioni ti possono servire soprattutto per cercare di posizionarti bene per le frasi chiave lunghe, le cosiddette “long tail”.
    per le long tail, il contenuto riveste un ruolo fondamentale. utilizzare le frasi correlate, la formattazione e persino le congiunzioni potrebbe aiutare il motore di ricerca che la tua pagina è davvero rilevante.

    grazie per la visita. :)

  11. Ivano Di Biasi |

    Bellissimo post, anche a me piace molto il “lato matematico” del SEO. Qualche mese fa ho realizzato un software che fa esattamente quello che hai descritto in questo post e mi ha aiutato molto per posizionare keywords di nicchia dove bastano i fattori onsite. Se vuoi darci un’occhiata ti lascio il link
    http://seo.ivanodibiasi.com/posizionamento-nei-motori/keyword-density-ottimale.html

    complimenti di nuovo per il bel post.

Lascia un commento

Puoi tenere traccia dei commenti successivi abbonandoti al feed dei commenti.