Mon blog WordPress est complètement cloné. Ce site clone se met à jour en temps réel avec mon blog. Je suis surpris que quelqu'un puisse réellement faire ça.
Que dois-je faire pour arrêter l'impact nuisible dans mon classement dans les moteurs de recherche? Existe-t-il un moyen de dire à Google de ne pas indexer ce site?
wordpress
scraper-sites
Tanvir Hasan
la source
la source
Réponses:
Ils chargent simplement votre site via un script côté serveur. Il vous suffit de bloquer l'adresse IP de leur serveur via .htaccess. Ouvrez simplement les journaux d'accès de votre serveur, ouvrez la page clonée sur leur site, puis affichez votre journal pour la nouvelle entrée et vous aurez leur adresse IP.
Cela ne ferait pas de mal non plus de soumettre une demande DMCA à Google, mais cela ne sera pas vraiment nécessaire car ce contenu disparaîtra instantanément une fois que vous aurez bloqué son adresse IP.
la source
(En plus de la réponse de @ John.)
Plutôt curieux que bien qu'ils semblent avoir tout cloné (y compris vos sitemaps XML * 1 ), ils n'ont pas cloné votre fichier robots.txt. En fait, le fichier robots.txt de ce site bloque activement l'exploration de tout! Il ne semble donc pas y avoir quoi que ce soit à faire à cet égard. Faire une recherche de site sur ce domaine renvoie uniquement le domaine nu et un avis indiquant qu'il est bloqué par robots.txt.
(Plutôt curieux de savoir quelle serait leur intention en faisant cela? Vous pourriez peut-être simplement supposer qu'ils ont fait une erreur avec robots.txt - et peut-être que oui - mais cela ressemble plus à une exception délibérée pour moi?)
De plus, bien que vos plans de site XML soient clonés, ils ne mettent pas à jour les URL qu'ils contiennent (comme ils le font sur les pages principales du site), ils pointent donc toujours vers votre site.* 1 Concernant le (s) sitemap (s) XML. Sur votre site "sitemap.xml" est en fait une redirection vers "sitemap_index.xml" et le site cloné a en fait cloné la redirection ... qui redirige vers votre site! (Sûrement une erreur de leur part.) "Sitemap_index.xml" est juste un index, reliant à 4 autres sitemaps. Si l'un de ces plans de site réels est demandé directement sur le site cloné, il est correctement cloné et les URL mises à jour. Cependant, j'aurais dit que ces sitemaps sont peu susceptibles d'être trouvés sur le site cloné en raison de la redirection initiale de "sitemap.xml". (?) Bien que s'ils soumettaient directement "sitemap_index.xml", cela contournerait évidemment la redirection.
la source
Si le site vous produit des backlinks, il est important d'utiliser l'outil Google Disavow, sinon l'algorithme fonctionnera contre vous, peu importe.
https://www.google.com/webmasters/tools/disavow-links-main
créez un fichier .txt et ajoutez:
puis téléchargez-le sur Google via les outils pour les webmasters.
Voici exactement les étapes que je prendrais pour résoudre ce problème. Je sais que beaucoup de webmasters sont confrontés à ce problème. J'ai déjà eu ce problème et il ne semble pas y avoir de réponse directe sur Google (ironiquement) (c'est pourquoi je veux aider). Matt Cutts est le mec que vous êtes censé écouter à propos de ces problèmes, mais l'écouter, c'est comme essayer de gagner une partie d'échecs contre un superordinateur dans une maison en flammes (aucune aide à trouver).
Les raccourcis:
Ma première réponse a été de désavouer le domaine, mais j'ai oublié de mentionner que vous devez désavouer:
(Google les compte comme deux domaines distincts).
la source