7
GEN

Google e l’individuazione dei duplicati

Scritto da Fortunecat in SEO

Salve a tutti, innanzitutto una comunicazione di servizio: su Fortunecat.it è stata attivata la nuova sezione Flash News contenente notizie “flash” dal mondo dei motori di ricerca.

D’ora quindi in poi gli abbonati al feed RSS riceveranno – oltre ugli update relativi ai post di approfondimento – anche le principali notizie del giorno. ;)

Bene, oggi parliamo di contenuti duplicati facendo riferimento ad un brevetto piuttosto recente “Duplicate document detection in a web crawler system” del 1 Dicembre 2009.

Il motore di ricerca, in fase di scansione, individua una serie di documenti con il medesimo contenuto. In funzione di opportune metriche indipendenti dal tipo di query viene stabilito quali documenti devono essere inclusi nell’indice e quali devono essere filtrati.

Il motore di ricerca assegna ad una classe di documenti duplicati un fingerprint, una sorta di codice identificativo che in sostanza individua un contenuto comune a tutte le pagine in questione (ad es.: un codice a 64 bit calcolato a partire da un testo normalizzato).

Tutte le informazioni relative al set di documenti duplicati vengono memorizzate in forma di dati strutturati.

Quando il motore di ricerca individua un nuovo documento, prima di processarlo effettua un confronto con gli altri documenti già memorizzati. Nel caso vi sia una coincidenza di dati, il nuovo documento viene marcato con il fingerprint relativo ad una specifica classe di duplicati.

In termini più semplici: il motore di ricerca classifica i contenuti con un codice identificativo, pagine con lo stesso contenuto condividono lo stesso codice.

Un aspetto molto interessante: i “crawling layer”

Google classifica gli URL usando tre livelli di scansione:

  1. livello base: contiene gli url delle pagine che vengono scansionate periodicamente;
  2. livello daily: contiene gli url delle pagine che richiedono una scansione giornaliera;
  3. livello real-time: contiene gli url di risorse che devono essere scansionate più volte al giorno, anche ad intervalli di pochi minuti (es. tweets).

Una pagina viene assegnata ad uno specifico layer in funzione della frequenza di aggiornamento e di altri indicatori (pagerank in primis).

Per ciascuna pagina inoltre viene calcolato il pagerank, e generata una mappa dei link e degli anchor text.

A questo punto la domanda è: quali documenti appariranno nei risultati di ricerca?

I componenti fondamentali in gioco sono due: il modulo Content Filter e il DupServer (il server che contiene le informazioni relative ai duplicati).

Quando viene individuata una nuova risorsa il Content Filter consulta il DupServer per capire se il documento è o meno un duplicato.

Facciamo un esempio:

Il motore individua il documento A. Il Content Filter consulta di DupServer e deduce che non esistono duplicati di A. Ad A viene assegnato un fingerprint 001 che identifica il contenuto di A.

Dopo 1 mese il motore scopre il documento B. Il Content Filter consulta il DupServer e scopre che B ed A hanno lo stesso contenuto.

Cosa succede ora?

1° caso: il pagerank di B è più basso del pagerank di A.

A “vince”. A e B rientrano nella stessa classe di duplicati il cui codice identificativo è 001, il codice di A. Questo sta a significare che l’insieme dei duplicati è rappresentato da A, e sarà proprio A ad apparire nei risultati di ricerca.

2° caso: il pagerank di B è più alto ma solo di poco.

A resta comunque la versione più rappresentativa. Ciò per due ragioni (mia interpretazione):

  • A così viene comunque privilegiato per il fatto di essere stato indicizzato prima;
  • si evita anche di modificare continuamente gli url nei risultati di ricerca.

3° caso: il pagerank di B è nettamente più alto.

B diventa la nuova versione più rappresentativa. B riceve un fingerprint tutto suo, es.: 002. D’ora in poi la classe di duplicati sarà identificata dal nuovo codice 002, segno appunto che il documento rappresentativo ora è B e non più A.

Conclusioni

Il criterio che Google utilizza per filtrare i documenti duplicati sembra essere fondamentalmente basato sul pagerank, ma le caratteristiche dell’algoritmo se non altro ci garantiscono che a parità di PR viene privilegiata di fatto la pagina indicizzata prima.

Approfondiremo ancora l’argomento quindi restate connessi. Alla prossima. :)

Se l'articolo ti sembra interessante puoi ritwittarlo o condividerlo su Facebook...

Ti potrebbe interessare anche:

  1. Bloccare i duplicati con robots.txt?
  2. 1° Lezione sui contenuti duplicati: come sono considerati da Google
  3. Google Local Search: criteri generali di funzionamento
  4. Il posizionamento delle keyphrase
  5. 2° Lezione sui contenuti duplicati: come difendersi dal furto di contenuti

Ti trovi in:

Blog » SEO » Google e l’individuazione dei duplicati

Commenti dei lettori

  1. Andrea Pernici |

    RT @Fortune_Cat: Google e l'individuazione dei duplicati: http://bit.ly/4BDE2A

  2. Michèle Ménard |

    interessante e ben spiegato RT @Fortune_Cat: Google e l'individuazione dei duplicati: http://bit.ly/4BDE2A #seo

  3. Andrea Moro |

    Interessante pezzo. Un link al brevetto ci stava tutto però.
    Buon lavoro.

  4. seoer |

    RT @Fortune_Cat: Google e l'individuazione dei duplicati: http://bit.ly/4BDE2A

  5. Merlinox |

    Non vorrei aver capito male, ma in questo modo viene sempre privilegiato il sito più “grosso” o sbaglio? E come pensate possa comportarsi nei confronti di alcune realtà di nanoblogging, veri e propri colossi, da decine di post al giorno scritti da malpagati editor, copiando qua e là?

    Grazie!

  6. Emilio Calvano |

    RT @Fortune_Cat #Google e l'individuazione dei #contenuti #duplicati: http://bit.ly/4BDE2A

  7. Federico Gargiani |

    RT @Fortune_Cat: Google e l'individuazione dei duplicati: http://bit.ly/4BDE2A

  8. Fortunecat |

    @merlinox purtroppo al motore di ricerca interessa poco chi è l’autore, l’importante è fornire il contenuto all’utente.

    per questo ho abbandonato la licenza creative commons, che non fa altro che avvantaggiare queste persone poco oneste.

    pensa che un’azienda qualche settimana fa ha realizzato un fantastico “approfondimento” su bing copiando integralmente un mio post ed un post di sean carlos di antezeta.it. senza citare la fonte ovviamente.

    invece ora uso la formula “tutti i diritti riservati”. così posso sempre avvalermi del digital millenium copyright act per difendermi.

    grazie a tutti per la visita. :)

  9. Merlinox |

    Qualche settimana fa ho proprio ragionato sulla Creative Commons, ma non ho scritto nulla. Il fatto scatenante è stata una signora che ha iniziato a copiare ogni mio post (documentato completamente su meemi). Alla fine si è risolto tutto per il meglio, ma mi sono reso conto che le CC non tutelano per niente, anzi.

    Ma la digital millenium copyright act tutela anche in Italia? E in che forma? Non è che per tutelarsi è necessario essere giornalisti iscritti bla bla bla? Mi piacerebbe approfondirne insieme.

  10. Fortunecat |

    il dcma è una legge statunitense che tutela i diritti d’autore, ma anche i residenti in altri paesi possono fare un dcma request.
    in sostanza google può rimuovere dai risultati di ricerca le pagine che violano il copyright.

    in questi casi però è molto più semplice contattare l’abuse del provider che ospita il sito incriminato. tutti i provider infatti si impegnano ad ospitare siti che rispettano il diritto d’autore.

    tra i post correlati ci sono anche 2 “lezioni” sui contenuti duplicati, con alcune tecniche per difendersi, lì certamente troverai altre informazioni utili. :)

  11. Merlinox |

    Pagine segnate in “read it later”… appena riesco verifico con piacere. Proprio stamane con Mattia Baldo (http://twitter.com/MattiaBaldo) si è parlato se la dicitura in footer “tutti i diritti riservati” abbia o no un senso legale.

  12. misterjinx |

    @MrCrissLab perché il PageRank è ancora utilizzato in altri algoritmi come trovare i duplicati vedi qui http://bit.ly/7UTLyk @Fortune_Cat

  13. simone |

    Premetto che devo ancora leggere il brevetto:
    da quello che scrivi sembra che il pagerank sia ancora molto importante per il posizionamento e nella fattispecie per il calcolo dei duplicati!
    giusto qualche tempo fa Cutts aveva fatto un video, in cui diceva che si dava troppo importanza al PR ,e che c’erano altri fattori per il calcolo del Ranking totale.
    Molti SEO e non, dissero che il PR stava morendo…
    Ora leggo questo e un pò sono stupito: il brevetto risalente appunto a fine 2009, alla soglia del 2010, google (ri)valuta l’importanza del PR?
    Siamo sicuri che sia di Google e non di Yahoo ( o Bing,visto l’accordo)?
    I conti non tornano…o forse è sempre più bravo Cutts a rigirare la frittata!

    ah a proposito, complimenti per il blog!

  14. Fortunecat |

    Ciao Simone,
    confermo, il brevetto è di Google.
    Il Pagerank è tuttora molto importante. Ma Cutts – come giustamente dici – ha fatto notare che è solo uno dei circa 200 fattori presi in considerazione da Google.
    Quindi è sbagliato concentrarsi solo sul PR.

    Cutts si è sempre battuto per l’eliminazione del PR dalla Google Toolbar e dai Webmaster Tools perchè distrae i webmaster dalla cosa più importante: dalla rilevanza e dalla qualità del contenuto.
    Ciò non toglie che questo paramentro sia ancora largamente utilizzato da Google. In tutti i brevetti che leggo viene sempre nominato, infatti. :)

    Grazie per la visita. :)

  15. Alessandro |

    Ciao Vorrei capire una cosa, ma se io ripubblico un’articolo o un post di un’altro blog citandone la fonte, questo viene visto lo stesso come contenuto duplicato ?
    Saluti

  16. Fortunecat |

    Ciao Alessandro, si viene ugualmente visto come un duplicato…

Lascia un commento

Puoi tenere traccia dei commenti successivi abbonandoti al feed dei commenti.