Le guide pour les webmaster Duplicate Content de Google définit le contenu dupliqué (à des fins d'optimisation du moteur de recherche) comme "des blocs de contenu importants dans ou entre des domaines qui correspondent complètement à un autre contenu ou qui sont sensiblement similaires".
Le guide de Google énumère ensuite les exemples suivants de doublons de contenu:
- Forums de discussion pouvant générer à la fois des pages régulières et des pages réduites destinées aux appareils mobiles
- Stocker les éléments affichés ou liés via plusieurs URL distinctes
- Version imprimable des pages Web
Pénalités
Les moteurs de recherche doivent pénaliser certaines occurrences de contenu en double conçues pour spammer leur index de recherche, telles que:
- sites de raclage qui copient le contenu en gros
- techniques de filature d'article simplistes qui génèrent un "nouveau" contenu en remplaçant de manière sélective des mots dans le contenu existant.
Lorsque les moteurs de recherche trouvent un contenu en double, ils peuvent:
- Pénaliser un site entier contenant du contenu en double. (quand spammy)
- Choisissez une page comme source canonique du contenu et réduisez la priorité ou n'indexez pas l'autre page avec la duplication. (commun)
- Ne prenez aucune mesure punitive et indexez plusieurs copies du contenu (rare)
Eviter la duplication interne
Matt Cutts , de Google, a déclaré qu'il ne devrait vous faire mal que s'il paraissait spammé . Toutefois, de nombreux webmasters utilisent les techniques suivantes pour éviter les doublons inutiles:
- Assurez-vous que le contenu n'est accessible que sous une seule URL canonique
- Si votre site doit renvoyer le même contenu sous plusieurs URL (par exemple, pour une page "Aperçu avant impression"), spécifiez manuellement une URL canonique avec un élément de lien dans l'en-tête du document.
- Dans les cas où votre site renvoie un contenu similaire basé sur des paramètres encodés dans l'URL (par exemple, le tri d'un catalogue de produits), excluez les paramètres d'URL dans Google Webmaster Tools.
Syndication de contenu
La publication de contenu sur votre site qui a été publié ailleurs est appelée syndication de contenu. La création de contenu en double via la syndication de contenu peut être OK:
- Tant que vous avez la permission de le faire
- Vous dites à vos utilisateurs quel est le contenu et d'où il vient
- Vous créez un lien vers une source originale (lien profond direct au contenu original de la page avec la copie, et pas seulement un lien vers la page d'accueil du site où se trouve l'original)
- Vos utilisateurs le trouvent utile
- Vous avez quelque chose à ajouter à ce contenu, de sorte que les utilisateurs préfèrent le trouver sur votre site qu'ailleurs. (Commentaire ou critique par exemple.)
- Vous avez également suffisamment de contenu original sur votre site (au moins 50% d'origine, mais idéalement à 80% d'origine)
Même si Google ne pénalise pas chaque contenu dupliqué, le contenu dupliqué non pénalisé ne vous aidera peut-être pas à attirer des visiteurs:
- Vous êtes en concurrence avec tous les autres exemplaires qui sont là-bas
- Google préférera probablement la source d'origine du contenu et la copie la plus réputée du contenu.
Google sanctionnera le contenu en double publié sur votre site Web à partir d'autres sources si:
- Il semble avoir été gratté ou volé (surtout sans attribution).
- Les utilisateurs ne réagissent pas bien (en particulier, en revenant sur Google après avoir visité votre site.)
- Il existe tellement de copies qu'il n'y a aucune raison d'envoyer les utilisateurs à votre copie.
- Votre copie n'est pas l'original, la plus réputée ou la plus utilisable. et n'a aucun commentaire ou critique.
- Votre site ne contient pas suffisamment de contenu original pour équilibrer tout le contenu republié.
- Vous dupliquez tellement de pages sur votre propre site que Googlebot ne parvient pas à analyser le site complet.
Internationalisation et ciblage géographique
La localisation de contenu est un domaine dans lequel la duplication de contenu peut être bénéfique pour le référencement. Il est parfaitement correct de publier le même contenu sur des sites destinés à différents pays et parlant la même langue. Par exemple, vous pouvez avoir un site américain, un site britannique et un site australien, tous avec le même contenu.
Avec un site pour chaque pays, il est généralement possible de mieux classer les utilisateurs de ce pays. En outre, il est possible de répondre spécifiquement aux utilisateurs de chaque pays avec des différences d’orthographe mineures, une tarification dans la devise du pays ou des options d’expédition de produits. Pour plus d'informations sur la configuration de sites Web géo-ciblés, voir Comment structurer mes URL à la fois pour le référencement et la localisation?
Faire face aux racleurs de contenu
D'autres sites qui volent votre contenu et le republient sans autorisation peuvent parfois causer des problèmes de contenu en double pour votre site. Les moteurs de recherche travaillent dur pour faire en sorte qu'il soit difficile pour les sites de récupération de dupliquer votre contenu . Si un site de raclage vous cause des problèmes, vous pouvez peut-être supprimer le site de l'index de Google en déposant une demande DMCA auprès de Google.