Scritto da Fortunecat in SEO
In questa prima lezione parleremo della policy di Google nei confronti dei contenuti duplicati, facendo riferimento alla informazioni fornite da Matt Cutts e da Greg Grothaus.
Non esiste una duplicate content penalty.
Avrete sicuramente notato che spesso alla fine delle SERP appare il seguente messaggio:
Al fine di visualizzare i risultati più rilevanti, sono state omesse alcune voci molto simili alle XX già visualizzate.
In alternativa, è possibile ripetere la ricerca includendo i risultati omessi.
A volte però accade che sia proprio il nostro sito ad essere “omesso” dalla SERP. Ma questo in realtà non dipende da una penalizzazione.
Google punta alla diversità dei risultati mostrati. Non vuole cioè che nella stessa SERP siano presenti più versioni dello stesso contenuto.
Gli esempi più comuni:
- I contenuti duplicati generati dalle categorie o dai tag dei blog. In presenza di “repliche” Google sceglie di mostrare solo le pagine che ritiene più rilevanti rispetto alla query dell’utente. Questo fa anche sì che le pagine category o tag abbiano spesso una forza maggiore rispetto ai singoli post perché più ricche di contenuti testuali.
- I contenuti duplicati generati da più versioni del medesimo prodotto negli ecommerce.
Ricapitoliamo riportando alcuni estratti dalle linee guida per webmaster di Google:
- Google sa che molti contenuti duplicati non hanno scopo ingannevole. Esempi: forum, ecommerce, versioni stampabili della pagina.
- Google cerca di mostrare e indicizzare solo siti con informazioni distinte.
Ma quindi i duplicati sono sempre innocui? No, vi sono alcune eccezioni. In alcuni siti i contenuti duplicati hanno finalità malevole: è il caso dello spam.
Lo spam non è tollerato da Google, quindi anzichè parlare di penalità per duplicati è più corretto parlare di penalità per spam.
Volete un esempio? Basta guardare uno dei tanti ecommerce che riportano copie esatte di articoli presenti su wikipedia per guadagnare più traffico. Qual è il valore aggiunto di un copia e incolla da wikipedia?
Pertanto è il tentativo di manipolare il ranking ad essere fonte di penalizzazione.
Esempio: gli spammers sono soliti evidenziare le keyword rilevanti con un numero eccessivo di tag bold (grassetto). Ma sarebbe assurdo ritenere il grassetto una fonte di penalizzazione, lo è il suo uso spammoso.
Ma soffermiamoci un momento sulla definizione di contenuto duplicato.
Gli url:
- http://example.com
- http://example.com/?
- http://example.com/home.aspx
- http://www.example.com
- http://example.com/index.html
sono tutti url distinti ma il contenuto è lo stesso. Questo – come abbiamo detto pocanzi – non comporta penalità ma determina comunque degli “effetti collaterali”.
- La link popularity viene diluita su più url diversi. Il link juice non viene “raccolto” da un’unica pagina. Anzichè avere 10 backlinks verso example.com e 10 verso www. example.com potreste averne 20 su un’unica pagina, migliorando il posizionamento.
- Quando ci sono più versioni della stessa pagina con url differenti Google cerca di mostrare nella SERP quella con url “migliore”. Ma a volte ci sono errori nella scelta e Google può mostrare degli url che non sono user-friendly (con parametri e altro). Url con molti parametri possono peggiorare l’usabilità e vanificare i vostri sforzi di branding.
- Il crawling è inefficiente perchè il bot perde tempo scansionando inutilmente più url relativi a pagine con stesso contenuto. Quindi più tempo speso per “scoprire” gli stessi contenuti e meno tempo per indicizzarne di nuovi.
Come risolvere il problema dei duplicati?
- Redirect 301: il 301 trasferisce tutte le proprietà, inclusa la link popularity all’url di destinazione. E’ utile per comunicare a Google il trasferimento di una pagina o di un intero sito.
- Canonical: a volte occorre utilizzare il canonical per mantenere distinte più versioni della stessa pagina. Esempio: negli ecommerce spesso la pagina di un prodotto deve essere accessibile da path diversi, un redirect non sarebbe applicabile. Con il rel=canonical il webmaster specifica che più pagine rappresentano differenti versioni dello stesso contenuto e sceglie quale url mostrare nella SERP. Il canonical funziona in sostanza come un redirect 301 solo per il Googlebot.
- Google Webmaster Tools: E’ possibile specificare negli strumenti per webmaster di Google se preferite mostrare il vostro sito con o senza il www. Inoltre grazie ad una funzione recentemente introdotta è possibile di indicare al crawler quali parametri negli url ignorare. Di seguito uno screenshot di esempio:

Regole per usare il canonical:
- Il canonical può essere usato solo per pagine sullo stesso dominio.
- Il canonical funziona anche tra differenti sottodomini (site.com, blog.site.com, ecc.)
- Si può usare anche tra pagine con http e pagine con https.
- Si può usare fra pagine simili e non necessariamente uguali, lievi differenze sono accettate.
Domini multipli
A volte si ha la necessità di avere più domini con estensioni diverse (.it, .com) per localizzare la propria attività. Questo non costituisce problema fintanto che ad utenti di nazionalità diverse corrisponda anche un contenuto diverso.
L’utilizzo di più domini distinti ha però alcuni contro:
- La reputation viene suddivisa fra più domini.
- Problemi di duplicati per i domini di paesi anglofoni (ovviamente i siti .us, .uk e .au avranno pressappoco lo stesso contenuto).
- Avere più contenuti suddivisi su domini diversi può far perdere la possibilità di avere più pagine dello stesso dominio mostrate nella SERP.
Nel prossimo post parleremo delle tecniche da adottare per difendersi dal furto di contenuti. Se volete ricevere gli aggiornamenti potete abbonarvi al feed.
Alla prossima. 
Se l'articolo ti sembra interessante puoi ritwittarlo o condividerlo su Facebook...
Ti potrebbe interessare anche:
- 2° Lezione sui contenuti duplicati: come difendersi dal furto di contenuti
- Bloccare i duplicati con robots.txt?
- Google e l’individuazione dei duplicati
- Mobile SEO: facciamo il punto della situazione
- I motori di ricerca semantici
Ti trovi in:
Blog » SEO » 1° Lezione sui contenuti duplicati: come sono considerati da Google
Ciao, bel post.
Puoi fornire un esempio di ecommerce che sfrutta i contenuti di wikipedia utilizzandoli senza modifiche?
Ciao Riccardo, innanzitutto grazie per la visita.
Vuoi un esempio? Ecco il primo che mi viene in mente. Visto che sto pianificando una vacanza ad Orvieto vado su wikipedia, copio i primi due righi della voce “Orvieto” e li incollo su Google.
Ecco il risultato della ricerca: serp.
Hai visto quante “replicazioni”? Non sono esattamente ecommerce, ma hotel e ristoranti. Ma l’effetto è lo stesso.
Di esempi comunque ce ne sono tantissimi. Il punto è che la prima fonte di contenuto per il webmaster inesperto è proprio wikipedia.
Gli ecommerce poi sono particolarmente vittima dei contenuti duplicati anche a causa dell’utilizzo indiscriminato delle descrizioni dei prodotti.
Sei sempre il benvenuto su Fortunecat.it, spero che il post ti sia stato utile.