Pourquoi Google indexe-t-il les pages avec? Utm_campaign query string

9

Récemment, j'ai remarqué que Google indexe des URL contenant des arguments de chaîne de requête utm_campaign, utm_source et utm_medium. Dans les résultats, Google affiche les URL avec ces chaînes de requête plutôt que l'URL canonique:

utm_campaign ajouté à l'URL

Je comprends que cela pourrait être un problème de «contenu en double», mais j'ai utilisé la link rel=canonicalbalise sur tout mon site Web. À titre d'exemple:

[snip]
<meta name="description" content="App store optimization helps discovery and rank on Google Play and the App Store. Publishers can use ASO by following these simple steps."/>
<meta name="robots" content="noodp"/>
<link rel="canonical" href="https://sweetpricing.com/blog/2016/11/app-store-optimization/" />
<meta property="og:locale" content="en_US" />
[snip]

Capture d'écran du tag canonique

Je m'attends à ce que Google utilise l'URL canonique pour l'indexation. Qu'est-ce que je fais mal?

Brendon
la source
2
Même sans la balise canonique, Googlebot ignore généralement les paramètres UTM car il sait qu'ils ne sont utilisés que pour le suivi. Je ne les ai jamais vu indexés auparavant, surtout pas avec un canon.
Stephen Ostermiller
4
FWIW site:stackexchange.com inurl:utm_campaignrenvoie également des résultats similaires (à une échelle légèrement plus grande). Notez également que les site:recherches renvoient souvent des URL non canoniques dans les résultats, qui ne sont généralement pas renvoyées dans les recherches "normales". Cependant, les URL ci-dessus semblent également être renvoyées dans les recherches "normales".
MrWhite

Réponses:

3

En examinant votre site Web tel qu'il est maintenant, je ne sais pas trop si c'est un problème plus / actuellement.

Le problème n'est pas le lien interne sur votre site Web avec l'inclusion de paramètres UTM (comme le suggère une autre question).

Il semble plus qu'un processus que vous devez partager le contenu de votre site Web sur les médias sociaux laisse les paramètres UTM dans les URL et partage ces URL qui, à un moment donné, ont conduit à leur indexation.

Il est rare que cela se produise, mais cela est déjà arrivé à de nombreux autres sites. Le fait qu'il ne s'agisse que de trois pages indexées avec ces paramètres indique que ce n'est ni un problème grave ni un problème à l'échelle du site.

Voici les mesures que vous pouvez prendre pour aider à éliminer cela: -

1. Spécifiez une URL canonique sur vos pages

Vous le faites déjà et l'implémentation est correcte. Cela garantira que seule l'URL canonique spécifiée sera prise en compte dans les moteurs de recherche. Vraisemblablement, cela a toujours été en place, mais sinon, cela pourrait expliquer pourquoi il existe de vieilles instances de pages encore indexées avec des paramètres UTM.

Implémentation correcte des URL canoniques

2. Demandez à Google de ne pas indexer les paramètres UTM dans la Search Console

Dans le cas où certaines URL sont indexées avec les paramètres UTM (comme votre cas), le paramètre URL doit apparaître comme détecté dans la section `` Explorer> Paramètres URL '' de Google Search Console pour votre domaine (voir ci-dessous).

Paramètres URL de Google Search Console UTM

Même si les paramètres UTM n'apparaissent pas, vous pouvez 'Ajouter un paramètre' pour les créer.

Sélectionnez simplement No: Doesn't affect page content (ex: tracks usage)(connu sous le nom de «paramètres passifs») et Google n'explorera généralement qu'une seule URL avec une valeur de paramètre spécifique .

3 Interdisez les paramètres d'URL dans votre robots.txt

Cela empêchera Google d'indexer le contenu de ces URL, mais pas les URL réelles elles-mêmes (elles pourraient toujours s'afficher dans les résultats de la recherche mais omettront simplement la description comme ci-dessous).

Page indexée non autorisée dans robots.txt

Ajouter simplement quelque chose comme ce qui suit permettrait de gérer cela à partir de robots.txt: -

Disallow: /*?utm=*

Conclusion

Les étapes # 1 et # 2 devraient être exécutées par précaution et "meilleure pratique" de toute façon et l'étape # 3 en plus des étapes # 1 et # 2 peut-être (car elles ne seront pas efficaces en elles-mêmes).

Dans Google Search Console, il est également possible de supprimer (temporairement) des URL. Ceci est particulièrement utile s'il reste des pages tenaces indexées mais que vous savez que la source racine du problème a été résolue et que cette fonctionnalité devrait suffire à les éliminer une fois pour toutes des résultats de recherche.

Je n'ai pas inclus cela comme une étape ci-dessus car, malgré avoir fait des recherches auparavant, je ne me souviens pas s'il supportera les URL avec des paramètres [citation nécessaire]. J'ai connu une fois la réponse, mais ma mémoire me fait défaut à cette occasion particulière.

Plus d'informations sur la suppression des URL de Google .

zigojacko
la source
1
Mais si vous bloquez l' exploration de ces URL à l' aide de robots.txt(# 3), ne bloquerez-vous pas également le suivi de ces campagnes ? ... Et aussi empêcher la lecture de la balise canonique sur la page (# 1)?
MrWhite
Je suis d'accord avec ce que w3dk dit à propos de robots.txt. Si quoi que ce soit, utilisez noindex: /*?utm=*dans robots.txt.
Stephen Ostermiller
2

Il semble que vous utilisiez ces liens à l'intérieur du contenu de votre site Web pour lier des pages entre elles.

Pour vous assurer que Google n'indexera pas, vous pouvez ajouter rel="nofollow"à ces liens à l'intérieur de votre site Web et bloquer ces paramètres du fichier robots.txt:

Disallow : /*utm_campaign
Nadeem Haddadeen
la source
Bonne capture qu'ils sont utilisés pour les liens internes. Cela expliquerait la différence avec la plupart des sites où ils ne sont généralement utilisés que sur les liens entrants.
Stephen Ostermiller
En fait, les URL utm_campaign sont ajoutées par Buffer.com - par exemple, elles ressemblent à "utm_source = plus.google.com & utm_campaign = buffer". Je ne pense pas utiliser ces liens sur le site Web.
Brendon
1

Avez-vous vérifié que votre URL canonique a été indexée ou non? Si l'URL canonique a été indexée, il n'y a rien à craindre.

Vous pouvez essayer les outils pour les webmasters de Google et modifier la façon dont Google gère les paramètres d'URL ici .

muhammad usman
la source
1
Pour certaines URL, seule l'URL utm_campaign est indexée. Pour les autres pages, les deux URL sont apparues dans l'index. Hier, j'ai utilisé l'outil Explorer comme Google pour explorer une URL (avec la chaîne de requête utm_campaign) - cette URL semble maintenant avoir disparu et l'URL canonique est maintenant indexée.
Brendon
De plus, les statistiques d'exploration ( capture d'écran ) semblent montrer que les pages mettent beaucoup de temps à explorer (2,3 s en moyenne). Je ne sais pas s'il s'agit d'un problème répandu, mais Google a peut-être des problèmes pour explorer le site.
Brendon
Vous pouvez également faire un petit nettoyage une fois qu'un visiteur atterrit sur votre site Web. Utilisez le script Link Fresh URL pour supprimer dynamiquement tous les paramètres UTM de l'URL après en avoir profité. Deuxièmement, ajoutez des paramètres d'URL ...
muhammad usman