J'ai des pages sur mon site dont je souhaite éloigner les moteurs de recherche, je les ai donc interdites dans mon robots.txt
fichier comme ceci:
User-Agent: *
Disallow: /email
Pourtant, j'ai récemment remarqué que Google renvoie toujours parfois des liens vers ces pages dans leurs résultats de recherche. Pourquoi cela se produit-il et comment puis-je l'arrêter?
Contexte:
Il y a plusieurs années, j'ai créé un site Web simple pour un club dans lequel un de mes parents était impliqué. Ils voulaient avoir des liens e-mail sur leurs pages, donc, pour essayer d'empêcher ces adresses e-mail de se retrouver trop listes de spam, au lieu d'utiliser des mailto:
liens directs, j'ai fait en sorte que ces liens pointent vers un simple script de piège de redirection / récupération d' adresse exécuté sur mon propre site. Ce script retournerait soit une redirection 301 vers l' mailto:
URL réelle , soit, s'il détectait un modèle d'accès suspect, une page contenant de nombreuses fausses adresses e-mail aléatoires et des liens vers d'autres pages de ce type. Pour garder les robots de recherche légitimes à l'écart du piège, j'ai mis en place la robots.txt
règle ci-dessus, interdisant tout l'espace des liens de redirection et des pages de piège légitimes.
Récemment, cependant, l'une des personnes du club a recherché Google pour son propre nom et a été assez surprise quand l'un des résultats sur la première page était un lien vers le script du redirecteur, avec un titre composé de leur adresse e-mail suivi par mon nom. Bien sûr, ils m'ont immédiatement envoyé un e-mail et voulaient savoir comment obtenir leur adresse de l'index de Google. J'ai également été assez surpris, car je ne savais pas du tout que Google indexerait ces URL, apparemment en violation de ma robots.txt
règle.
J'ai réussi à soumettre une demande de suppression à Google, et cela semble avoir fonctionné, mais j'aimerais savoir pourquoi et comment Google contourne ma robots.txt
décision et comment m'assurer qu'aucune des pages interdites n'apparaîtra dans leur Résultats de recherche.
Ps. J'ai en fait trouvé une explication et une solution possibles, que je publierai ci-dessous, tout en préparant cette question, mais j'ai pensé que je la poserais de toute façon au cas où quelqu'un d'autre pourrait avoir le même problème. N'hésitez pas à publier vos propres réponses. Je serais également intéressé de savoir si d'autres moteurs de recherche le font aussi et si les mêmes solutions fonctionnent également pour eux.
la source
robots.txt
fichier est comme un petit panneau "Pas d'intrusion" à côté de l'allée de quelqu'un. Ce n'est pas magique, et (à moins qu'un visiteur ne le recherche explicitement), il peut se promener sur votre propriété sans même être légèrement affecté par son existence. Il existe des équivalents Internet de projecteurs et de clôtures en fil de rasoir, mais si c'est ce que vous voulez,robots.txt
n'est-ce pas.Réponses:
Il semble que Google inclue délibérément des URL interdites dans
robots.txt
son index s'il existe des liens vers ces URL à partir d'autres pages qu'ils ont explorées. Pour citer leurs pages d'aide sur les outils pour les webmasters :Apparemment, Google interprète une
Disallow
directiverobots.txt
comme une interdiction d' explorer la page et non de l' indexer . Je suppose que c'est techniquement une interprétation valable, même si cela me fait penser à des règles juridiques.Dans cet article d'interview , Matt Cutts de Google donne un peu plus de contexte et fournit une explication raisonnable pour laquelle ils le font:
La solution recommandée sur ces deux pages consiste à ajouter une
noindex
balise META aux pages que vous ne souhaitez pas indexer. (L'X-Robots-Tag
en-tête HTTP devrait également fonctionner pour les pages non HTML. Je ne sais pas si cela fonctionne sur les redirections, cependant.) Paradoxalement, cela signifie que vous devez autoriser Googlebot à explorer ces pages (soit en les supprimantrobots.txt
entièrement, soit en ajoutant un ensemble de règles distinct et plus permissif pour Googlebot), sinon il ne peut pas voir la balise Meta en premier lieu.J'ai modifié mon script de redirection / piège d'araignée pour envoyer à la fois la balise META et l'en-
X-Robots-Tag
tête avec la valeurnoindex,nofollow
et j'ai permis à Googlebot d'explorer l'URL du script dans monrobots.txt
. Nous verrons si cela fonctionne une fois que Google aura réindexé mon site.la source
Il est vrai que même si cela devrait empêcher Google (et les bons robots) d'explorer ces pages et de lire leur contenu, ils peuvent toujours afficher un lien URL uniquement dans les SERP s'ils sont liés, du formulaire:
Comme vous pouvez le voir, il n'y a pas de titre ou de description, c'est littéralement juste l'URL. Naturellement, ce type de résultats est généralement omis des SERP, sauf si vous les recherchez explicitement.
Et comme vous le mentionnez dans votre réponse, si vous ne voulez pas que l'URL apparaisse du tout dans les SERPs, vous devez autoriser les robots, mais inclure une balise META noindex.
la source