Contenuto Duplicato: Come fare?

Croce e delizia di parecchi webmaster, i contenuti duplicati tengono sempre banco in molte delle discussioni che popolano il webbe.

Con tutto il traffico che oggi c’è in rete poi, molto probabilmente una buona percentuale dei contenuti presenti potrebbe essere duplicata, e in questo bacino di scopiazzature (più o meno lecite – più o meno consapevoli) dobbiamo mettere un po’ di tutto, quindi a partire dai contenuti genuini come per esempio i documenti informativi, i cataloghi e le istruzioni, fino ad arrivare a quelli che vengono duplicati “pari e patta”, passando per quelli che invece vengono presi e variati per non sembrare duplicati, ma che ad una attenta analisi dei motori (o anche degli utenti più scaltri) comunque lo risultano.

Come comportarsi con i contenuti duplicati
(Mazinga Z di JUN 4 1 4 è con licenza creative commons )

Tecnicamente anche quello che sto scrivendo ora potrebbe esserlo… in fondo metto un post su un argomento molto discusso, ho tentato comunque di documentarmi un po’ prima, e quindi sono un target papabile per la duplicazione.

Quello che attanaglia invece la mente di chi non è addetto ai lavori o di chi non si informa o non testa per bene le cose, è la paura per una possibile MEGAPUNIZIONE che il motore potrebbe infliggergli se copiassse un contenuto.

BISOGNA CAPIRE che Il motore NON PROVA GUSTO nel punire/declassare/rimuovere un contenuto dalle Serp, e anzi, per aiutare gli utenti a non sbagliare mette pure a disposizione di TUTTI delle linee guida per evitare che si possa incorrere nella duplicazione di un documento.

Se poi non le conosciamo o le sappiamo a memoria e le vogliamo ignorare allora è un altro conto. L’importante è capire che non c’è nessuna scure puntata ogni sacrosanto secondo su chi scrive per il web ma che ovviamente, visto che il giocattolo non è il nostro, c’è la possibilità di essere FILTRATI in favore di argomentazioni più genuine (e poi se stiamo copiano lo sappiamo benissimo quindi è inutile lamentarsi).

Ma allora, quando un contenuto diventa duplicato?

Di fatto, un documento è un duplicato quando seppure avendo un url di riferimento differente, presenta la totalità o una grande porzione dei suoi contenuti (non esclusivamente testuali) uguali ad uno già presente sulla rete.

La duplicazione però, non va intesa solo come una sorta di appropriazione da parte di altri dei nostri contenuti, ma molto spesso, siamo noi stessi che ci autocreiamo il problema, con dei semplici passaggi già nella fase progettuale del nostro sito/blog. Tra quelli più comuni troviamo ad esempio:

1) Le copie PDF dei nostri articoli sempre pronte per essere scaricate con un click.
Sono utili si, ma spesso generano una duplicazione dei contenuti.
2) Il mancato utilizzo di un url-rewrite per eliminare gli id della sessione e suffissi scomodi autogenerati magari da un CMS (che peraltro offre solitamente la possibilità di avere un url-rewrite).

Quindi non sempre la colpa è degli altri ma spessissimo, proprio perché non ne siamo noi per primi consapevoli ci creiamo da soli il “problema” (che poi problema non è).

In ogni caso… Contenuto duplicato: Come si regola il motore di ricerca?

In maniera fin troppo spiccia (non me ne vogliano gli esperti), quando il motore trova un nuovo documento, tra le millemila cose che va a fare, effettua anche un confronto con altri contenuti che ha già nel database, verificando pure queste tre cose:

1) l’età dello stesso perché un documento web (indipendentemente da quel che se ne dica), sotto molti aspetti, più vecchio è, più rischia di godere di alcune priorità. Questa cosa non è però propriamente un dato di fatto perché capita anche di ritrovare primi nelle Serp contenuti propri, ricondivisi da fonti con un trust sicuramente più alto del nostro, nonostante si sia fatto TUTTI un lavoro pulito (ma tanto sappiamo che non siamo a casa nostra quindi…);
2) Che questo documento non sia veicolo di spam;
3) Che la sua Link Popularity (se possiamo ancora chiamarla così però il termine rende bene l’idea) sia lecita, quindi ne controlla non solo il valore ma anche la genuinità;

Dopo aver passato certi controlli, allora può procedere operativamente con il mostrare quello che per lui (non scordiamo mai sta cosa) è il risultato più pertinente filtrando (non penalizzando) ad un primo showing nelle Serp i risultati che reputa meno coerenti, ma che possono comunque essere visualizzati chiedendo di farceli vedere semplicemente andando a cliccare su un apposito link in fondo sulla pagina di ricerca.

Tendenzialmente infatti, Big. G. (tanto parliamo sempre di lui) non tende ad eliminare i contenuti duplicati o a prendere provvedimenti eccessivamente severi, ma è pur vero che opera un distinguo fondamentale tra documenti dannosi e non dannosi, quindi è bene sapere anche a grosse linee come applica la SUA legge.

Contenuto duplicato non dannoso

Normalmente, a parte la presenza on-line di contenuti genuini (come sopra accennato) ma trattanti argomenti simili, i forum di discussione rischiano di essere buoni produttori di contenuti duplicati, sia per la generazione (a volte) di pagine “doppie” destinate anche ad essere fruite da utenti mobili (perché non sempre lavorare responsive può essere una scelta), sia per il mantenimento di vecchie discussioni (anche archiviate), riprese poi con nuovi post dagli utenti che non cercano prima di cominciare a chiedere, perché “non gli va”.

In ogni caso, “Gugle” tende a mostrare solo una versione del documento nelle Serp e non prende particolari provvedimenti perché con il tempo ha IMPARATO fortunatamente a distinguere le cose.
la fonte ufficiale infatti recita che “I contenuti duplicati su un sito non sono motivo di sanzione a meno che non sembri che l’intento del contenuto duplicato sia ingannevole e atto a manipolare i risultati del motore di ricerca”.

Praticamente, a meno di una duplicazione massiva, palese, reiterata e senza link alla fonte originale, la penalizzazione normalmente non scatta, e comunque, se/quando accade, spesso è opera di una penalizzazione manuale ad opera di personale (perché ce l’hanno il personale non preoccupatevi) che lavora esplicitamente su quello (se poi vi tocca una cosa ALGORITMICA, allora fatevi anche un esame di coscienza).

Contenuto duplicato dannoso

È dannoso per “Gugle”, se lo stesso contenuto viene duplicato in diverse pagine dello stesso sito e se siamo noi a fare copy and paste da altri siti sul nostro.
A livello di provvedimenti, la differenza sostanziale è che nel primo caso, la penalizzazione sarà data solo da una probabile retrocessione/filtro (più o meno grave) nelle pagine di ricerca e sarà possibile porvi rimedio con la correzione dei contenuti doppi, aspettando poi il nuovo passaggio dello spider che verrà a sbirciare da noi, ma nel secondo il rischio (se te lo sei cercato) è il vero e proprio ban con la rimozione di tutte le pagine dai risultati, e in quel caso, per provare a recuperare, bisognerà riscrivere per intero tutti i documenti e poi sottoporsi ad una richiesta di re-inclusione al motore.

Non è vero perché io sono stato bannato

Allora: Ammettendo che tu lo sia stato davvero, possiamo dire che un vero e proprio BAN per una duplicazione di contenuto, dovrebbe essere un caso talmente eclatante da poter essere notato anche da un pipistrello a mezzogiorno sulla spiaggia di Ostia.

Una rimozione TOTALE del contenuto da uno stesso dominio, al massimo, secondo me perché (fortunatamente per ora) non ci sono mai cascato, dovrebbe essere data da una IPERMASSIVA e scorretta (senza nemmeno un link agli originali) duplicazione di materiale da fonti talmente autorevoli che solo a pensarci dovrebbe pigliarti il senso di colpa per quello che stai per fare, mentre lo stai facendo.

Non dico che sia impossibile perché io non sono davvero nessuno ma magari, il motivo della rimozione non è quello o solo quello, poiché ad esempio il motore ti vede come una link farm di quelle da sottoscala nascosto in un palazzetto della periferia di un pianeta di contrabbandieri o perché stai infrangendo un’altra delle linee guida invalicabili.

Ammesso comunque che tu lo sia stato perché il cattivone di Big G. ha scatenato i suoi animaletti anche su di te, sappi che in ogni caso puoi controllare sugli strumenti tipo Webmaster-tool tutte le notifiche che possono esserti state mandate per avvertirti dei quello che stava accadendo e poi, correggendo la cosa, anche se a luuuuuungo tempo, è possibile rieffettuare una richiesta di riconsiderazione al padrone di casa ovviamente aggiungendo delle VALIDE MOTIVAZINI al lavoro che ha scatenato la punizione (che secondo la mia umile esperienza è SEMPRE COLPA DI CHI LO FA E NON SI INFORMA).

Come diceva un mio vecchio prof di sistemi applicati: «LUI É STUPIDO CARO, NON ADDOSSARGLI DEMERITI. SE NON FUNZIONA, É SEMPRE COLPA TUA»

Detto questo: evitare i contenuti duplicati

Per inesperienza, perché non è il nostro lavoro o perché è una legge del webbe a tutti gli effetti, i contenuti duplicati fanno parte di questo mondo e, a meno di voler passare la vita a capire come evitarli o come far passare la voglia a chi ce li ruba, quello che mi sento di dire è che il “trucco” per provare a stare lontani dalle scopiazzature potrebbe essere quello di lavorare molto sulla popolarità della nostra risorsa prima di cominciare ad introdurre massivamente dei contenuti “originali”, in modo da cercare di convincere (quando sarà il momento) il motore a non filtrarci senza appello già in prima istanza.

Un contenuto molto personale poi, cucito sulla nostra immagine pubblica, sarà di più difficile scopiazzatura da una risorsa che non rispecchia affatto il nostro modo di essere e sarà anche PUBBLICAMENTE di più facile riappropriazione (con sputtanamento totale della risorsa delinquente).

Quindi, preso atto che il primo passo va fatto TECNICAMENTE da noi, stando attenti anche all’uso di programmi CMS, che se non ottimizzati o in possesso di plug-in appositi, possono autogenerare del contenuto doppio, state sereni che Gugle o gli altri motori non sono a caccia del vostro articolo sui Muffin al cioccolato o del vostro post sulla gita a Vienna con le amiche della Scala40 e che in ogni caso, se il vostro intento NON è ingannevole, la paurosissima punizione dell’animaletto di Mountain View non arriverà di certo.

In sostanza però, se proprio volete cedere al fascino della scopiazzatura (capita a tutti eh):

1) Approfittate per prendere spunto e approfondite magari; (tanto il più lo trovate pronto no?!);
2) Arricchite il tutto con un video, delle citazioni e immagini a tema;
3) Mixate articoli da più fonti cosi da poter avere anche qualche contenuto in più;

Insomma, fate almeno lo stretto necessario per evitare la copiatura palese. È scorretto per gli utenti, per chi si è dato da fare per un contenuto originale e ovviamente per il motore.

Strumenti di base e qualche accorgimento per far fronte al contenuto duplicato che ci siamo fatti da soli

Quando ormai il danno ce lo siamo fatto, lo strumento più immediato è senza dubbio il Webmaster Tool che ci aiuta a scovare gli errori fatti da noi, così possiamo correggerli anche in corso d’opera.
Una volta registrati e verificato il dominio, ci basta andare nel menu alla voce Ottimizzazione da cui si accede alla schermata dei miglioramenti HTML, e da li si può estrarre salvandola anche, una lista delle “cavolate” che abbiamo fatto.

Una volta individuati gli errori, possiamo provare ad aggiustare qualcosa con:

1) Il redirect 301;
2) il tag rel=canonical;
3) L’utilizzo del noindex;
4) L’utilizzao del disallow;

Redirect 301
È l’opzione base. Una volta che ci siamo accorti dei duplicati, possiamo fare in modo di “redirectarli” sempre al documento originale. Sfruttiamo il file htaccess del nostro sito e facciamo il lavoro manualmente. Teniamo sempre d’occhio quindi il Webmaster Tool così da accorgerci quanto prima delle varie incongruenze, ed evitando di dover stare a fare le cose tutte insieme.

Tag rel=canonical
È un sistema che ci permette di identificare fra tutti, un url principale che viene definito appunto canonico e di assegnare quindi in automatico una rilevanza minore agli altri. Nel caso appunto di documenti in multi-formato come le versioni pdf, il canonical, permetterà il filtraggio degli altri in favore del primo scelto.

Noindex
Come dice proprio il nome, usando il noindex, il contenuto in questione verrà ignorato letteralmente dallo spider e non verrà proprio incluso nell’indice. Un bel colpo di spugna e via. Unico neo è che questa cosa si fa praticamente alla vecchia maniera, quindi one-to-one gestendo di volta in volta la pratica per ogni contenuto.

Disallow
Se ce ne accorgiamo tardi, o per esempio il problema è legato ad una cartella in particolare che contiene un po’ troppi files, un metodo che possiamo usare al posto del redirect è proprio questo.
Il disallow, può essere impostato in modo da seguire regole e formattazioni ben precise. La regola che si andrà a creare, impedirà agli spider di andare a curiosare nel contenuto all’interno di determinati url singoli o di cartelle intere.
È possibile anche fare in modo che la restrizione abbia effetto solo su url in possesso di particolari sottostringhe.
Se per esempio ci fossero indirizzi generati per la preparazione di contenuti duplicati come i multi-formato, si potrebbe escluderli eliminando tutti quelli aventi la particolare stringa che li definisce.

Attenzione però perché NON SI TRATTA di un metodo proprio pulito perché eticamente non è davvero bellissimo. Insomma, se bisogna pulire, facciamolo e basta senza spostare la polvere sotto il tappeto.

Ci siamo adesso? Che ve ne pare?

DA RICORDARE:
1) Non stiamo ad impazzire se qualcuno ci copia. Lo si avverte, ci sono le vie legali e GLI SPUTTANAMENTI IN PUBBLICA PIAZZA che sono peggio;
2) Gugle o gli altri motori non provano gusto nell’autodistruggersi il database eliminando senza tregua i contenuti duplicati “non gravi”;
3) lavoriamo molto sulla nostra impronta di scrittura e saremo sempre riconoscibili;
4) Magari non è un ban, ma un filtro o un declassamento leggero. Controlla un po’ delle pagine dopo quella in cui eri;
5) Se ti hanno bannato davvero, molto probabilmente è colpa tua;

Come sempre, a grosse linee dovrei aver messo tutto.

Mi riserverò comunque il diritto di correggere e implementare il post se diventerò più bravo e imparerò qualcosa di nuovo o se mi correggerete dandomi magari anche qualche buono spunto 😉

Saluti pigri quindi e alla prossima.

Ciao Flavio!

Allora: “I contenuti duplicati su un sito non sono motivo di sanzione a meno che non sembri che l’intento del contenuto duplicato sia ingannevole e atto a manipolare i risultati del motore di ricerca”.

Questo è quello che ufficialmente dice il padrone di casa. In parole un po’ più semplici, i contenuti duplicati di norma non provocano penalizzazione da parte di Google perchè ad esempio molti CMS come WordPress, forniscono plug-in per la duplicazione di post o per esempio per l’esportazione degli stessi in pdf, quindi il motore piano piano ha iniziato a capire quali siano quelli veramente da punire. Andrebbero semplicemente sempre evitati perché come si dice “a sto mondo non si sa mai” e perché è sempre buona pratica lavorare puliti, specie quando si può evitare un qualunque casino con poco.

Tra i comportamenti punbili però, ovviamente c’è la riproduzione massiva di contenuti da una altra fonte… nel tuo caso il sito originale.

Che succede? Il motore, valuta una serie di fattori tra cui l’anzianità dei contenuti e decide che per ovvie ragioni il contenuto più “nuovo e con meno trust è quello che viene punito.”

Nel tuo caso probabilmente, il verdetto è arrivato proprio mentre il sito originale andava smantellato e quello duplicato veniva scansionato, in questo modo, il vecchio veniva meno ed il nuovo andava affossato dall’indice.

Che cosa puoi fare: controllare sul webmaster tool se sei iscritto, se nelle mail hai un avvertimento per una penalizzazione manuale. In quel caso, è possibile da un apposito link, effettuare una riconsiderazione della faccenda, aggiungendo valide spiegazioni e portando prove al confronto.

Se così non dovesse essere, la questione sarebbe un pochino più “annosa” perché saresti vittima di una penalizzazione che si dice algoritmica, quindi, al passaggio dell’animaletto di “Gugle” sei stato punito punto e basta.

Come se ne esce: col tempo, aspettando un nuovo passaggio della bestiola, accertandosi che dei vecchi contenuti non esista più traccia e continuando a lavorare sull’autorevolezza del nuovo sito.

Rispondi

ommenti

WEBLUX Web Agency ha detto:
3 Aprile 2014 alle 22:19

Beh diciamo che su un mio precedente sito, ma anche su quello attuale, ho sempre pubblicato nel mio blog articoli presi in “copia e incolla” totale da altri siti autorevoli come ansa, focus, punto informatico, hwupgrade etc … linkando sempre alla fonte originale. Devo dire che non ho mai riscontrato ne penalizzazioni ne problemi nelle SERP … credo che si venga penalizzati se il copia e incolla ha scopi diversi da quello di fornire semplici informazioni e aggiornamenti verso gli utenti …
Rispondi
1. Seo Pigro ha detto:
  4 Aprile 2014 alle 14:05
  
  Ciao Weblux!
  E’ più che corretto linkare la fonte originale dell’articolo e la considero una forte forma di rispetto in ogni caso.
  
  Quello che mi lascia sempre un po’ pensare però è il perchè della copiata palese.
  Non è altresì una forma di rispetto provare almeno a riesprimere con parole proprie, e magari integrando con informazioni ulteriori lo stesso articolo?
  
  Agli occhi di un utente che cerca informazioni di un argomento su più fonti come si appare?
  E’ una domanda che mi faccio spesso perchè come vedi io qui sul blog riprendo argomenti trattati più e più volte sulla rete, ma mi sforzo sempre di provare parlare con parole mie.
  
  Non sono qui a giudicare nessuno eh, però non so…copiare e incollare palesemente mi sa fa un certo “non effetto”…e poi non mi stimola la curiosità nella lettura
  
  no?!
  Rispondi
Flavio ha detto:
7 Settembre 2015 alle 19:12

Domanda di un fatto che sta accadendo proprio ora !
ho spostato 1 WP http://www.impianto-******.com da un hosting (tophost) ad un altro (serverplan) ma in questi giorni il contenuto avendolo copiato sullo spazio di appoggio del nuovo hosting è ovviamente duplicato…
è passato google 2 gg fa… e mi ha cancellato da moltissime ricerche organiche….
c’è speranza che possa recuperare dopo che dal 9 setttembre sarà attivo solo il nuovo hosting o 2 anni di lavoro sono andati in fumo !
grazie comunque.
Rispondi
Seo Pigro ha detto:
7 Settembre 2015 alle 21:27

Ciao Flavio!

Allora: “I contenuti duplicati su un sito non sono motivo di sanzione a meno che non sembri che l’intento del contenuto duplicato sia ingannevole e atto a manipolare i risultati del motore di ricerca”.

Questo è quello che ufficialmente dice il padrone di casa. In parole un po’ più semplici, i contenuti duplicati di norma non provocano penalizzazione da parte di Google perchè ad esempio molti CMS come WordPress, forniscono plug-in per la duplicazione di post o per esempio per l’esportazione degli stessi in pdf, quindi il motore piano piano ha iniziato a capire quali siano quelli veramente da punire. Andrebbero semplicemente sempre evitati perché come si dice “a sto mondo non si sa mai” e perché è sempre buona pratica lavorare puliti, specie quando si può evitare un qualunque casino con poco.

Tra i comportamenti punbili però, ovviamente c’è la riproduzione massiva di contenuti da una altra fonte… nel tuo caso il sito originale.

Che succede? Il motore, valuta una serie di fattori tra cui l’anzianità dei contenuti e decide che per ovvie ragioni il contenuto più “nuovo e con meno trust è quello che viene punito.”

Nel tuo caso probabilmente, il verdetto è arrivato proprio mentre il sito originale andava smantellato e quello duplicato veniva scansionato, in questo modo, il vecchio veniva meno ed il nuovo andava affossato dall’indice.

Che cosa puoi fare: controllare sul webmaster tool se sei iscritto, se nelle mail hai un avvertimento per una penalizzazione manuale. In quel caso, è possibile da un apposito link, effettuare una riconsiderazione della faccenda, aggiungendo valide spiegazioni e portando prove al confronto.

Se così non dovesse essere, la questione sarebbe un pochino più “annosa” perché saresti vittima di una penalizzazione che si dice algoritmica, quindi, al passaggio dell’animaletto di “Gugle” sei stato punito punto e basta.

Come se ne esce: col tempo, aspettando un nuovo passaggio della bestiola, accertandosi che dei vecchi contenuti non esista più traccia e continuando a lavorare sull’autorevolezza del nuovo sito.
Rispondi

Lascia un commento Annulla risposta

Seo Pigro
Ciao caro eccomi! Arrivo con i due punti: 1) Non è fare test...
Alessandro D'Andrea
Ciao Pigro! Ti faccio due riflessioni su quanto hai scritto,...
Francesco @Moonmaketing
La seo è un arte con dei dati dentro. Da fuori non è semplic...
Seo Pigro
ahahah ciao Michele e ben arrivato alla base spaziale! Grazi...
Michele
Hai uno stile fantastico! Articolo molto interessante,veriti...