7
GEN
Scritto da Fortunecat in SEO
Salve a tutti, innanzitutto una comunicazione di servizio: su Fortunecat.it è stata attivata la nuova sezione Flash News contenente notizie “flash” dal mondo dei motori di ricerca.
D’ora quindi in poi gli abbonati al feed RSS riceveranno – oltre ugli update relativi ai post di approfondimento – anche le principali notizie del giorno.
Bene, oggi parliamo di contenuti duplicati facendo riferimento ad un brevetto piuttosto recente “Duplicate document detection in a web crawler system” del 1 Dicembre 2009.
Il motore di ricerca, in fase di scansione, individua una serie di documenti con il medesimo contenuto. In funzione di opportune metriche indipendenti dal tipo di query viene stabilito quali documenti devono essere inclusi nell’indice e quali devono essere filtrati.
Il motore di ricerca assegna ad una classe di documenti duplicati un fingerprint, una sorta di codice identificativo che in sostanza individua un contenuto comune a tutte le pagine in questione (ad es.: un codice a 64 bit calcolato a partire da un testo normalizzato).
Tutte le informazioni relative al set di documenti duplicati vengono memorizzate in forma di dati strutturati.
Quando il motore di ricerca individua un nuovo documento, prima di processarlo effettua un confronto con gli altri documenti già memorizzati. Nel caso vi sia una coincidenza di dati, il nuovo documento viene marcato con il fingerprint relativo ad una specifica classe di duplicati.
In termini più semplici: il motore di ricerca classifica i contenuti con un codice identificativo, pagine con lo stesso contenuto condividono lo stesso codice.
Un aspetto molto interessante: i “crawling layer”
Google classifica gli URL usando tre livelli di scansione:
Una pagina viene assegnata ad uno specifico layer in funzione della frequenza di aggiornamento e di altri indicatori (pagerank in primis).
Per ciascuna pagina inoltre viene calcolato il pagerank, e generata una mappa dei link e degli anchor text.
A questo punto la domanda è: quali documenti appariranno nei risultati di ricerca?
I componenti fondamentali in gioco sono due: il modulo Content Filter e il DupServer (il server che contiene le informazioni relative ai duplicati).
Quando viene individuata una nuova risorsa il Content Filter consulta il DupServer per capire se il documento è o meno un duplicato.
Facciamo un esempio:
Il motore individua il documento A. Il Content Filter consulta di DupServer e deduce che non esistono duplicati di A. Ad A viene assegnato un fingerprint 001 che identifica il contenuto di A.

Dopo 1 mese il motore scopre il documento B. Il Content Filter consulta il DupServer e scopre che B ed A hanno lo stesso contenuto.
Cosa succede ora?
1° caso: il pagerank di B è più basso del pagerank di A.
A “vince”. A e B rientrano nella stessa classe di duplicati il cui codice identificativo è 001, il codice di A. Questo sta a significare che l’insieme dei duplicati è rappresentato da A, e sarà proprio A ad apparire nei risultati di ricerca.

2° caso: il pagerank di B è più alto ma solo di poco.
A resta comunque la versione più rappresentativa. Ciò per due ragioni (mia interpretazione):
3° caso: il pagerank di B è nettamente più alto.
B diventa la nuova versione più rappresentativa. B riceve un fingerprint tutto suo, es.: 002. D’ora in poi la classe di duplicati sarà identificata dal nuovo codice 002, segno appunto che il documento rappresentativo ora è B e non più A.

Conclusioni
Il criterio che Google utilizza per filtrare i documenti duplicati sembra essere fondamentalmente basato sul pagerank, ma le caratteristiche dell’algoritmo se non altro ci garantiscono che a parità di PR viene privilegiata di fatto la pagina indicizzata prima.
Approfondiremo ancora l’argomento quindi restate connessi. Alla prossima.
Ti potrebbe interessare anche:
Ti trovi in:
Puoi tenere traccia dei commenti successivi abbonandoti al feed dei commenti.
SEO
12 Commenti
Feed dei commenti
© Tutti i diritti riservati
RT @Fortune_Cat: Google e l'individuazione dei duplicati: http://bit.ly/4BDE2A
interessante e ben spiegato RT @Fortune_Cat: Google e l'individuazione dei duplicati: http://bit.ly/4BDE2A #seo
Interessante pezzo. Un link al brevetto ci stava tutto però.
Buon lavoro.
RT @Fortune_Cat: Google e l'individuazione dei duplicati: http://bit.ly/4BDE2A
Non vorrei aver capito male, ma in questo modo viene sempre privilegiato il sito più “grosso” o sbaglio? E come pensate possa comportarsi nei confronti di alcune realtà di nanoblogging, veri e propri colossi, da decine di post al giorno scritti da malpagati editor, copiando qua e là?
Grazie!
RT @Fortune_Cat #Google e l'individuazione dei #contenuti #duplicati: http://bit.ly/4BDE2A
RT @Fortune_Cat: Google e l'individuazione dei duplicati: http://bit.ly/4BDE2A
@merlinox purtroppo al motore di ricerca interessa poco chi è l’autore, l’importante è fornire il contenuto all’utente.
per questo ho abbandonato la licenza creative commons, che non fa altro che avvantaggiare queste persone poco oneste.
pensa che un’azienda qualche settimana fa ha realizzato un fantastico “approfondimento” su bing copiando integralmente un mio post ed un post di sean carlos di antezeta.it. senza citare la fonte ovviamente.
invece ora uso la formula “tutti i diritti riservati”. così posso sempre avvalermi del digital millenium copyright act per difendermi.
grazie a tutti per la visita.
Qualche settimana fa ho proprio ragionato sulla Creative Commons, ma non ho scritto nulla. Il fatto scatenante è stata una signora che ha iniziato a copiare ogni mio post (documentato completamente su meemi). Alla fine si è risolto tutto per il meglio, ma mi sono reso conto che le CC non tutelano per niente, anzi.
Ma la digital millenium copyright act tutela anche in Italia? E in che forma? Non è che per tutelarsi è necessario essere giornalisti iscritti bla bla bla? Mi piacerebbe approfondirne insieme.
il dcma è una legge statunitense che tutela i diritti d’autore, ma anche i residenti in altri paesi possono fare un dcma request.
in sostanza google può rimuovere dai risultati di ricerca le pagine che violano il copyright.
in questi casi però è molto più semplice contattare l’abuse del provider che ospita il sito incriminato. tutti i provider infatti si impegnano ad ospitare siti che rispettano il diritto d’autore.
tra i post correlati ci sono anche 2 “lezioni” sui contenuti duplicati, con alcune tecniche per difendersi, lì certamente troverai altre informazioni utili.
Pagine segnate in “read it later”… appena riesco verifico con piacere. Proprio stamane con Mattia Baldo (http://twitter.com/MattiaBaldo) si è parlato se la dicitura in footer “tutti i diritti riservati” abbia o no un senso legale.
@MrCrissLab perché il PageRank è ancora utilizzato in altri algoritmi come trovare i duplicati vedi qui http://bit.ly/7UTLyk @Fortune_Cat