D'où vient le paramètre d'URL "? Chocaid = 397"?

9

Dans les outils Google pour les webmasters, j'ai remarqué que ma page d'accueil a été indexée deux fois:

  • example.com/
  • example.com/?chocaid=397

Je sais que je pourrais résoudre ce problème en utilisant le type de lien canonical, mais je me demande: d'où vient ce paramètre?

Il existe différents sites qui ont des pages indexées avec ce paramètre / valeur même: https://duckduckgo.com/?q=chocaid%3D397 .

J'ai cherché des similitudes entre ces sites. mais je n'ai pas trouvé de conclusion: c'est souvent la première page, mais pas dans tous les cas. Certains sont NSFW, mais pas tous. Lorsque l'URL d'un domaine a ce paramètre, souvent d'autres sous-domaines du même domaine l'ont aussi.

Exemples

Entrée Wikipédia

entrez la description de l'image ici

Microsoft Codeplex

entrez la description de l'image ici

unor
la source
Dans les outils Google pour les webmasters (ou dans vos journaux de référence), existe-t-il une indication de la page qui peut être liée à cette URL?
MrWhite
@ w3d: Je n'ai accès à aucun journal. Dans GWT, il était répertorié dans " Améliorations HTML " → "titres de page répétés". Je crains donc de ne pouvoir obtenir aucune information de référence.
unor
Je me demandais simplement s'il y avait quelque chose sous Trafic> Liens vers votre site> Votre contenu le plus lié> Plus (pour obtenir toutes les pages liées). Pour ?chocaid=397être indexé, il est probable que quelque chose s'y relie pour que Google trouve le lien en premier lieu?
MrWhite
@ w3d: Ah, je vois. Malheureusement, les données manquent toujours pour ce rapport (probablement parce que j'utilise GWT seulement depuis quelques jours).
unor
Je ne sais pas si cela aide, mais le nombre 397 a quelque chose à voir avec les hachages (voir ici et ici ). Je ne sais pas si cela a quelque chose à voir avec cette question, mais cela ?chocaid=397pourrait être une sorte de tentative de jouer avec les hachages (je ne sais pas grand-chose à ce sujet, donc je ne suis pas sûr de cela, cependant). C'est aussi une excellente question.

Réponses:

1

Quelle est la nouveauté de votre domaine? Il se peut très bien que ce soit une requête populaire sur l'ancien domaine et donc vous obtenez toujours des "visiteurs". Cette carte correspond-elle à une page valide ou à une 404? Si vous obtenez beaucoup de hits là-bas et que c'est un 404, je le remapperais (utilisez un .htaccess) sur votre page d'accueil ou quelque chose.

Kyros
la source
1
Je n'ai encore remarqué aucun visiteur; J'ai vu la page indexée par Google. Il correspond à la même page d'accueil (comme si le paramètre avait été omis). Je sais que je pourrais le rediriger ou l'utiliser canonical, mais cette question concerne davantage l'origine de ce paramètre.
unor
2
Mais cela n'explique pas pourquoi le même paramètre d'URL apparaît dans les résultats de recherche pour de nombreux autres domaines.
MrWhite
1

Il se peut que Googlebot essaie d'accéder à jQuery / Javascript et explore tout ce qu'il peut. Il y a eu un récent post ici sur une personne demandant de l'aide, car Googlebot explorait des URL non valides sur son site. John M a répondu sur la façon dont Googlebot peut rechercher plus d'URL à explorer à partir de scripts sur leur site. Il travaille pour Google Webmaster Tools. Vous avez à peu près répondu à votre propre question en définissant la balise canonique.

Anagio
la source
1

Bien que je n'ai pas de réponse définitive, il y a quelques choses que j'ai trouvées en examinant cela qui peuvent aider à le réduire:

  • Les liens apparaissent également dans Bing et Yahoo, donc cela n'a rien à voir avec Google.
  • Ils apparaissent sur les wikis, les blogs Tumblr, les blogs Wordpress et d'autres sites, et ils ne seront donc pas ajoutés via un exploit dans un logiciel particulier.
  • Ils apparaissent sur certains sites Tumblr de très faible qualité, et il est donc peu probable que ceux-ci aient reçu de la publicité. De même, les articles wikipedia sont peu susceptibles d'être promus via des publicités.

Ma meilleure supposition serait qu'il existe / était un site de grattage qui ajoute cette URL à tous les liens qu'il trouve. Certes, les liens externes semblent l'explication la plus probable d'où ils viennent, et les répertoires sont peu probables en raison de leur ajout à des pages assez aléatoires.

RichardB
la source
0

Cela peut provenir d'un fournisseur d'annonces que vous pourriez avoir, j'ai le même problème et le seul endroit possible d'où cela vient est d'un fournisseur de publicité injectant des logiciels malveillants via les codes javascript.

Raymund
la source
Avez-vous une source / preuve pour cela? Cela signifierait que Wikipédia est infecté par cela, car il y a quelques pages paginées Wikipedia indexées avec ce paramètre.
unor
Ouais parce que j'ai un blog que Google a bloqué à cause de cela et après avoir supprimé les publicités coupables, ils ont commencé à supprimer le bloc
Raymund