Un autre site reflète et se classe au-dessus de mon site dans les résultats de recherche.

55

Il y a un site de mauvaise réputation connu sous le nom de thedirty qui a complètement reflété mon site et qui contient maintenant des liens apparaissant sur Google à l'emplacement n ° 1 utilisant mon contenu. J'ai vérifié mes fichiers de log et j'ai remarqué que ce site explorait les miens depuis un moment et qu'il contenait également 10 000 liens depuis leur site.

J'ai déjà bloqué l'accès des utilisateurs référencés sur ce site et les ai signalés à Google comme spam sur le Web. J'ai également désavoué le domaine.

Comment obtiennent-ils les meilleurs liens dans Google (voire même le mien) pour de telles tactiques néfastes? Quelles sont les étapes pour éliminer complètement un problème comme celui-ci?

MISE À JOUR 8/28/2014:

Je pensais pouvoir fournir une mise à jour à ce sujet car j'ai plus d'informations maintenant. Alors thedirty a pointé leurs sous-domaines vers mon IP, ce qui a pour effet de faire en sorte que leurs sous-domaines ressemblent à mon site Web.

Pendant quelques jours, cela importait peu, car en utilisant htaccess, j'ai redirigé tous les hôtes pas de mon domaine vers mon domaine, ce qui signifiait essentiellement que je recevais les liens de trafic de leurs sous-domaines sur Google. Après quelques jours, Thedirty a changé ses sous-domaines pour pointer vers son site Web afin que je ne profite plus de cela.

Ils ont donc utilisé mon contenu pour obtenir les meilleurs résultats sur Google. Ils redirigent maintenant ces liens vers leur site Web afin de générer davantage de trafic vers le leur.

C'est une tactique sale par un site Web sale. J'espère que Google punira un tel comportement.

Marlboro Goodluck
la source
3
J'ai édité la partie où vous remettez en cause leur motivation car c'est hors sujet ici. Mais bonne question sinon.
John Conde
1
Le clonage de sites Web semble être une nouvelle astuce, beaucoup de sites Web sont mal utilisés pour le moment. Il y a des nouvelles à Heise (allemand) sur ce sujet. La solution habituelle (à part signaler le faux site) semble être de fournir un contenu spécial aux adresses IP des robots d'exploration, afin qu'ils affichent par exemple un lien vers votre véritable site.
martinstoeckli
1
Une autre inquiétude pour l'avenir - maintenant que Google a adopté une position si dure contre le webspam - est que les concurrents publieront volontairement mon contenu sur des sites de mauvaise réputation afin de nuire à ma réputation. Ou publierons des blogs à la recherche de spams pointant vers mon site à mon insu.
Marlboro Goodluck
3
@ Jarrod Roberson: pas vraiment, tout le monde sait qu'il y a un procès, mais combien de solutions techniques?!
machineaddict
1
@JarrodRoberson Pourtant, il s'agit d'un problème exclusivement réservé aux webmasters. Il est donc très important pour ce site, car si vous le posez ici, vous obtiendrez les réponses des personnes qui ont également dû le gérer. Il semble également que les gens ont soumis plusieurs solutions techniques parallèlement aux solutions juridiques.
thanby

Réponses:

45

S'ils ne font que refléter votre site en alimentant votre site via un script proxy ou en régurgitant votre verbatum HTML, vous pouvez ajouter des URL canoniques à vos pages. Cela permettra à Google de savoir que votre contenu est la source d'origine et d'afficher votre URL dans les résultats de la recherche, et non la sienne.

Soumettez une demande DMCA à Google. Ils sont un peu lents avec eux mais ils finiront par supprimer ces pages de leur index.

Désavouer les liens est un geste intelligent.

Je ne sais pas si bloquer les utilisateurs est utile cependant. Peut-être qu'en mettant un message en haut de vos pages les informant que vous êtes le site d'origine et que l'autre est une fraude, cela pourrait être une meilleure solution.

John Conde
la source
2
Les URL canoniques n’aident pas toujours. Le script qui reflétait mon site a modifié les URL canoniques pour qu'elles pointent également vers le faux site; donc c'était inutile.
CaptainCodeman
28

Vous pouvez déposer une plainte auprès de DMCA et, si vous résidez aux États-Unis, vous pouvez également intenter une action en justice pour violation du droit d'auteur.

Voici un lien vers une réponse courte qui explique comment la plainte DMCA peut aider n'importe qui:

Devez-vous être aux États-Unis pour déposer une plainte auprès de DMCA?

... et un autre l'explique plus ...

Quelle quantité de votre contenu doit être copiée avant de pouvoir déposer une plainte DMCA?

Si vous résidez aux États-Unis, vous pouvez engager un avocat qui connaît bien les questions de droit d'auteur et lui demander d'envoyer une lettre de cessation et d'abandon. Donnez-leur 10 jours (jours réels et non jours ouvrables, bien que les jours ouvrables soient également acceptables) pour supprimer le contenu. Vous souhaitez capturer des instantanés du site incriminé pour votre témoignage ainsi que des instantanés de votre site. Si vous vérifiez si une page a été supprimée, vérifiez directement le site et non les résultats de la recherche.

Si la page n'a pas été supprimée dans le délai imparti, vous pouvez déposer une affaire civile fédérale qui prendra au moins 10 000 dollars à défendre et qui ne vous coûtera presque rien. Vous serez dans le siège du conducteur. Il est probable qu'un règlement puisse être conclu pour au moins 10 000 dollars, voire davantage. Vous pouvez également récupérer vos coûts. Ce qui est important, c’est d’offrir une option gratuite pour remédier au problème, d’où la lettre de cesser et de s’abstenir. Après cela, vous êtes libre de déposer un dossier sans engager la responsabilité du défendeur.

Une autre remarque est que vous devrez démontrer les dommages si vous allez au tribunal. La perte de trafic de recherche est un dommage. Ici, vous travaillerez avec votre avocat pour collecter des mesures illustrant la perte de trafic et vous devrez monétiser la valeur de ce trafic. Bien entendu, vous pouvez supposer des nombres plus élevés ici même avec un taux de conversion de 100%. Juste au cas où, je collecterais des statistiques sur les pertes de trafic à l’aide de Google Analytics et de votre logiciel d’analyse de fichiers journaux, aujourd’hui et dans le futur.

Sachez que le dépôt d'une affaire n'est ni difficile ni très coûteux, surtout par rapport aux dommages que vous subissez maintenant et à l'avenir. Les atteintes au droit d'auteur ont diminué récemment, mais les quelques-unes qui violent le droit d'auteur sont beaucoup plus audacieuses de nos jours. Nous devons arrêter ces personnes et le seul moyen réel consiste à intégrer un facteur de coût dans la stratégie commerciale qui rend la violation du droit d'auteur non rentable.

placard
la source
2
Tout le problème que vous évitez, c'est qu'il est pratiquement impossible de découvrir qui se cache derrière le site. Je veux dire, ils devraient être idiots pour faciliter la localisation du site vers un individu réel.
David Mulder
1
@DavidMulder Pas d'esquive. Un avocat peut assigner les entreprises à comparaître pour les informations dont elles ont besoin. Même une lettre aimable suffit. Si les informations ne sont pas fournies, l'avocat peut exiger une déposition devant un juge, avec une peine de prison, s'il ne se présente pas ou ne fournit pas les informations demandées. Aux États-Unis, personne ne se cache du droit civil ou autre. Cela fonctionne toujours au niveau international, à quelques exceptions près.
closetnoc
@closetnoc: la société peut ne pas vouloir fournir les informations librement, ni même être libre de le faire. Il n’est pas certain que les tribunaux délivreront une assignation à comparaître ou que le sentier restera sous sa juridiction. Vous pouvez vous retrouver dans une bataille juridique très coûteuse et très longue avec une tierce partie qui pourrait même ne pas connaître le vrai nom du contrevenant. À en juger par votre réponse approfondie, vous êtes indiscutablement au courant de ces obstacles, mais je dois me ranger de côté de David Mulder: je pense que vous comprenez combien il est difficile de retracer le site jusqu’à un individu.
Marcks Thomas
@closetnoc: Oui, sauf que le fournisseur d'hébergement ne dispose pas des informations correctes. Et le paiement a probablement été effectué avec une carte de crédit prépayée ou une autre carte prépayée, une carte de crédit volée, un bitcoin ou un autre mécanisme de transaction introuvable. Oh, et le fournisseur d'hébergement pourrait même ne pas être aux États-Unis en premier lieu. C'est ce qu'on appelle Internet, qu'on le veuille ou non.
David Mulder
@ DavidMulder J'apprécie ce que vous dites. Je suis dans le secteur de la sécurité, en particulier dans le domaine de la recherche sur la recherche des méchants. La plupart de ce dont vous parlez serait chinois, russe ou polonais. Il existe néanmoins des moyens de déterminer qui sont ces personnes à travers des modèles et autres. Ils se donnent. C'est précisément ce que je fais. Tu dois essayer. Vous ne pouvez pas simplement basculer. Un bon avocat sur Internet connaît des gens comme moi et sait comment obtenir des informations. Un fil est tout ce dont j'ai besoin et je l'obtiens habituellement. Mais cela peut être un réel effort. Mais c’est le pire scénario.
closetnoc
27

Vous pouvez suivre leur IP (ou leurs IP) et renvoyer un contenu totalement différent pour qu’ils le reflètent - tout ce que vous voulez. De cette façon, vous bénéficiez d'un espace libre pour la publicité, et vous pouvez utiliser leur position élevée dans Google à votre avantage.

Une fois, j’ai utilisé cela pour expliquer simplement aux utilisateurs du site Web en miroir qu’il s’agissait d’un domaine erroné. Vous pouvez également poster un en-tête de redirection HTTP simple.

Igor R
la source
8
En fait, je trouve cela assez drôle pour une raison quelconque. +1
Mehrdad
1
ils ne cloneront probablement pas les en-têtes HTTP, mais vous pouvez leur envoyer des animations javascript et des bannières rigolotes dans le style Marquee en leur criant "ceci est une arnaque" et de bons vieux gifs animés: P
Florian Fida
peut également utiliser les balises méta et les redirections javascript, l'un des trois fonctionnera presque sûrement. dans tous les cas, ce n'est pas une solution stable et ne fonctionnera que jusqu'à ce qu'ils le découvrent et commencent à travailler contre. @Mehrdad, je suppose que c'est drôle parce que c'est hacky :)
Igor R
cela m’a aussi semblé drôle. L’agresseur s’ouvre lui-même une vulnérabilité en laissant la victime se rendre sur son terrain de jeu, même s’il peut l’arrêter à tout moment. ce qui rend l'attaquant assez stupide.
Igor R
Leur position élevée dans Google remplace la position élevée du site Web d'origine. Ce n'est donc pas vraiment une "publicité gratuite".
CaptainCodeman
12

Un peu tard pour vous, mais la meilleure idée pour protéger votre site Web (à l’avenir) serait la suivante: https://www.youtube.com/watch?v=I3pNLB3Cq24 (defcon 21, défense par numéros) simulant le code de retour afin que les utilisateurs verra le contenu, mais les bots seront

  • jeter le contenu
  • ramper en rond
  • arrête de travailler

autres idées possibles - assurez-vous que vos utilisateurs ne voient rien de tout cela:

  • laissez-les sauvegarder des Go d’informations (alors qu’il n’ya que quelques ko sur votre serveur)
  • faire que les robots inondent leur propre mémoire de faux liens
  • envoyer de faux contenus (100% boolsh * t - vous devez écrire des choses - comme "Obama enceinte", "Spider-Man 5 - l'été prochain", ... pour que vos voleurs puissent l'héberger ...)
  • envoyer de faux fichiers (comme 42.zip, s'ils ne vérifient pas le contenu copié, leurs utilisateurs s'amuseront -> les outils audiovisuels montreront que quelque chose ne va pas -> les utilisateurs seront p * ss * d ...)
  • laissez-les attendre plus de données (taille du fichier = 1-10 Mo et envoyez au hasard cr * p avec 1 octet / s ou moins)

autres idées:

  • liens protégés par Javascript (anciens, plus utilisés? mais s'ils restent inchangés, des utilisateurs vous seront envoyés (pendant un certain temps))
  • ordures dynamiques (utilisez des commentaires ou des éléments invisibles pour que les robots téléchargent des choses que les utilisateurs ne peuvent pas voir - les bons robots ne tomberont pas pour cela)
  • bloquer les adresses ip qui téléchargent trop / trop vite / dans le mauvais sens (les bots ne se comportent pas comme des humains 1) chaque lien sur chaque page 2) il existe un schéma ou un chaos total dans la façon dont ils choisissent le ou les lien (s) suivant (s))
  • utilisez Javascript pour rediriger vers votre serveur si les fichiers ne sont pas hébergés par votre serveur (aucune aide contre le vol, mais les voleurs doivent le supprimer ou leurs utilisateurs ne restent pas sur leur page - vous pouvez le coder en différentes routines (comme le déchiffrement de contenu ))
MurksVomOrk
la source
J'ai mon propre code qu'il me reste à régler certains qui bloquent les araignées. Je vais examiner vos idées car c'est le genre de gars que je suis! ;-) Bons conseils!
closetnoc
4
Le problème avec le blocage des araignées et des bots est que vous ne voulez probablement pas qu'ils soient tous bloqués. Google est très important, par exemple, si vous voulez que les gens puissent trouver votre site Web. (Et puisque Google a votre site dans son cache, un robot d'indexation Web n'a pas besoin d'analyser votre site pour le dupliquer).
Trlkly
Si vous leur donnez délibérément quelque chose de différent - je préfère la réponse d' Igor, qui souhaite que ce soit bénéfique pour vous (rediriger / dire que ce soit faux / diffuser des annonces) plutôt que de riposter.
OJFord
2

Cela s'appelle un Google Proxy Hack, et cela m'est aussi arrivé.

Tout d'abord:

  • Soumettez une plainte DMCA à l'hôte Web. Utilisez ce lien pour créer une plainte correctement formée et envoyez-la au courrier électronique d'assistance ou d'abus de l'hôte. Si l'hôte se trouve aux États-Unis, ils doivent supprimer le site. Même s'ils ne sont pas basés aux États-Unis, ils peuvent choisir de supprimer le site de toute façon. (Cela m'est arrivé une fois.)
  • Utilisez l' outil Google DMCA pour demander à ce que les URL en miroir soient supprimées de ses résultats de recherche.
  • Utilisez le rapport Scraper de Google pour signaler l'échec de l'algorithme de Google.

Fondamentalement, c'est un échec de la part de Google. Malgré tout ce qu'ils disent sur le classement basé sur "un contenu original de qualité", il s'agit d'un contre-exemple absurdement simple qui, franchement, est simplement embarrassant.

Espérons que si suffisamment de personnes s'en plaignent, Google finira par se mettre en forme et écrire les 10 lignes de code nécessaires pour vérifier qu'un site est le reflet exact d'un site déjà créé.

Sachez également que l’utilisation d’URL canoniques ne fonctionne pas toujours dans ce cas. Beaucoup de ces scripts proxy changent les URL canoniques pour pointer vers le site miroir, les rendant ainsi inutiles.

Enfin, sachez qu’ils ont peut-être aussi spammé votre site principal avec des liens inutilisables afin d’endommager votre classement. (Cela m'est arrivé aussi.)

Si vous faites des recherches et des pensées créatives, il y a des moyens de riposter. Je ne pense vraiment pas que ce soit une bonne idée de publier une liste complète ici, car cela simplifie simplement la vie des pirates.

CapitaineCodeman
la source
1

Comme d'autres l'ont mentionné, le meilleur moyen serait de déposer une plainte auprès du DMCA et d'intenter une action civile au sujet du droit d'auteur.

Pour le nouveau contenu que vous publiez, vous pouvez envisager de notifier les mises à jour de votre site sur les médias sociaux (Twitter, Facebook, etc.) dès que vous les publiez. L'horodatage enregistré peut être un indicateur juste que vous avez écrit en premier au cas où vous deviez le prouver. Grâce aux outils pour les webmasters de Google, vous pouvez appliquer un paramètre permettant à Googlebot d’explorer votre site souvent . En supposant que les moteurs de recherche populaires indexent vos pages Web régulièrement (utilisez l’exploitant du site, site: example.com, pour le savoir), la date figurant dans la copie en cache peut être utilisée comme un indicateur approximatif de la date de publication du contenu.

De même, pour le nouveau contenu que vous publiez, vous pouvez incorporer des filigranes dans des images et insérer des commentaires dans des fichiers JS, indiquant que vous êtes le propriétaire d'origine de ces fichiers.

mvark
la source
Si un bot copie le contenu, il peut simplement inclure des informations sur l'auteur dans la page, de sorte que le contenu copié contienne quelque chose du type "Ceci a été créé par Foo, tous droits réservés", ce qui en fait un cas vraiment clair (vous pouvez par exemple masquer. qu’en acrostiche, mais en tant que bot, cela fonctionnera en texte clair et renforcera votre cas).
Ángel