Quelqu'un a cloné mon blog WordPress, comment puis-je l'empêcher de nuire au référencement?

Mon blog WordPress est complètement cloné. Ce site clone se met à jour en temps réel avec mon blog. Je suis surpris que quelqu'un puisse réellement faire ça.

Que dois-je faire pour arrêter l'impact nuisible dans mon classement dans les moteurs de recherche? Existe-t-il un moyen de dire à Google de ne pas indexer ce site?

wordpress scraper-sites Tanvir Hasan
la source

Je vois que cela semble maintenant avoir été "corrigé" - le site cloné n'est plus "cloné". Comment avez-vous réussi cela à la fin?

MrWhite

@ w3d Après deux semaines et plusieurs conversations avec Amazon Hosting, ils ont décidé de fermer ce site cloné. Merci tout le monde.

Tanvir Hasan

notez que dmca.com et google.com/webmasters/tools/dmca-dashboard sont différents lorsque vous cherchez à revendiquer une infraction.

Showcase Imagery

Réponses:

Ils chargent simplement votre site via un script côté serveur. Il vous suffit de bloquer l'adresse IP de leur serveur via .htaccess. Ouvrez simplement les journaux d'accès de votre serveur, ouvrez la page clonée sur leur site, puis affichez votre journal pour la nouvelle entrée et vous aurez leur adresse IP.

Cela ne ferait pas de mal non plus de soumettre une demande DMCA à Google, mais cela ne sera pas vraiment nécessaire car ce contenu disparaîtra instantanément une fois que vous aurez bloqué son adresse IP.

John Conde
la source

Je vais doubler la suggestion de faire une demande DMCA à Google. Nous en voyons diverses formes récemment et je ne suis tout simplement pas sûr de ce que serait le gain. Je suggérerais cependant de ne pas les bloquer pendant un certain temps pendant que Google le fait - alors je les bloquerais - mais vous pourriez ne pas avoir à le faire lorsque Google les supprime. Je suggère simplement que si vous déposez une plainte DMCA auprès de Google, donnez-leur un délai pour enquêter avant de bloquer. Sinon, bloquez-les tout de suite.

closetnoc

Salut John Conde, j'ai essayé de bloquer bloquer leur adresse IP via un fichier .htaccess en utilisant ce code "" commande Ordre Refuser, Autoriser le refus depuis [cette adresse IP] "Mais ce site clone est toujours en train de se mettre à jour en temps réel avec le mien. Est-ce le bon code pour bloquer cette ip?

Tanvir Hasan

@TanvirHasan C'est la bonne idée, à condition que vous ayez la bonne adresse IP. Est -ce que l' adresse IP apparaît toujours dans votre journal d'accès lorsque vous visitez le « site clonée »?

MrWhite

Mon hébergeur donne ces commandes au fichier .htaccess et c'est lui qui obtient cette adresse IP du journal. Mais ça ne marche pas.

Tanvir Hasan

Est-ce que cela a jamais été résolu??

closetnoc

(En plus de la réponse de @ John.)

Existe-t-il un moyen de dire à Google de ne pas indexer ce site?

Plutôt curieux que bien qu'ils semblent avoir tout cloné (y compris vos sitemaps XML ^{* 1} ), ils n'ont pas cloné votre fichier robots.txt. En fait, le fichier robots.txt de ce site bloque activement l'exploration de tout! Il ne semble donc pas y avoir quoi que ce soit à faire à cet égard. Faire une recherche de site sur ce domaine renvoie uniquement le domaine nu et un avis indiquant qu'il est bloqué par robots.txt.

(Plutôt curieux de savoir quelle serait leur intention en faisant cela? Vous pourriez peut-être simplement supposer qu'ils ont fait une erreur avec robots.txt - et peut-être que oui - mais cela ressemble plus à une exception délibérée pour moi?)

De plus, bien que vos plans de site XML soient clonés, ils ne mettent pas à jour les URL qu'ils contiennent (comme ils le font sur les pages principales du site), ils pointent donc toujours vers votre site.

^{* 1} Concernant le (s) sitemap (s) XML. Sur votre site "sitemap.xml" est en fait une redirection vers "sitemap_index.xml" et le site cloné a en fait cloné la redirection ... qui redirige vers votre site! (Sûrement une erreur de leur part.) "Sitemap_index.xml" est juste un index, reliant à 4 autres sitemaps. Si l'un de ces plans de site réels est demandé directement sur le site cloné, il est correctement cloné et les URL mises à jour. Cependant, j'aurais dit que ces sitemaps sont peu susceptibles d'être trouvés sur le site cloné en raison de la redirection initiale de "sitemap.xml". (?) Bien que s'ils soumettaient directement "sitemap_index.xml", cela contournerait évidemment la redirection.

MrWhite
la source

J'ai fait une demande au plan du site il y a quelques minutes à peine et il y a une redirection 301 du site de spam vers le site d'origine.

closetnoc

@closetnoc Ah oui! J'ai manqué ça avant. "sitemap.xml" est en fait une redirection sur le site d'origine également ... il redirige vers "sitemap_index.xml". Le site de spam semble cloner cette redirection qui renvoie l'utilisateur vers le site d'origine! Si vous demandez l'un des 4 plans de site répertoriés dans "sitemap_index.xml" directement sur le site de spam, le site de spam les clone correctement, cependant, en raison de la redirection initiale, je suppose qu'ils seront difficiles à trouver, à moins qu'ils ne sachent soumettre "sitemap_index.xml" au lieu de "sitemap.xml". J'ai mis à jour la réponse. Merci.

MrWhite

Si le site vous produit des backlinks, il est important d'utiliser l'outil Google Disavow, sinon l'algorithme fonctionnera contre vous, peu importe.

https://www.google.com/webmasters/tools/disavow-links-main

créez un fichier .txt et ajoutez:

domain:thedamnsitethatcloned.com

puis téléchargez-le sur Google via les outils pour les webmasters.

Voici exactement les étapes que je prendrais pour résoudre ce problème. Je sais que beaucoup de webmasters sont confrontés à ce problème. J'ai déjà eu ce problème et il ne semble pas y avoir de réponse directe sur Google (ironiquement) (c'est pourquoi je veux aider). Matt Cutts est le mec que vous êtes censé écouter à propos de ces problèmes, mais l'écouter, c'est comme essayer de gagner une partie d'échecs contre un superordinateur dans une maison en flammes (aucune aide à trouver).

Les raccourcis:

Inscrivez-vous auprès de DMCA et insérez le badge sur votre site Web.
Rassemblez tout le contenu copié en collant les 60 premiers mots de votre site Web dans Google et soumettez VIA https://www.google.com/webmasters/tools/dmca-dashboard Les demandes DMCA n'accepteront que les permaliens.
Désavouez CHAQUE site qui a copié du contenu renvoyant vers vous. Faites-le sur chaque page de votre site Web.

Ma première réponse a été de désavouer le domaine, mais j'ai oublié de mentionner que vous devez désavouer:

www. ET
non www.

(Google les compte comme deux domaines distincts).

John
la source