Comment empêcher l'indexation de certaines URL

8

Lorsque je tape site:example.com(en utilisant mon domaine évidemment), je reçois plusieurs erreurs de lien qui apparaissent dans la liste. Typiquement, ils ont la forme:/some/fixed/path/admin/unblockUser/11

Je pense ajouter la ligne suivante à mon robots.txtdossier:

Disallow: /some/fixed/path/admin/*
Simon Hayter
la source

Réponses:

18

Il existe deux façons principales d'empêcher les moteurs de recherche d'indexer des pages spécifiques :

  1. Un fichier Robots.txt pour votre domaine.
  2. La balise Meta Robots sur chaque page.

Robots.txt devrait être votre premier arrêt pour les modèles d'URL qui correspondent à plusieurs fichiers. Vous pouvez voir la syntaxe ici et plus en détail ici . Le fichier robots.txt doit être placé dans le dossier racine de votre domaine, c'est-à-dire à http://www.yourdomain.com/robots.txt, et il contiendrait quelque chose comme:

User-agent: *
Disallow: /path/with-trailing-slash/

(La coloration du texte ci-dessus est effectuée par le logiciel Stackexchange et doit être ignorée.)

La balise Meta Robots est plus flexible et capable , mais doit être insérée dans chaque page que vous souhaitez affecter.

Encore une fois, Google a un aperçu de la façon d'utiliser les robots Meta et comment supprimer les pages de leur index via les outils pour les webmasters. Wikipedia a une documentation plus complète sur les Meta Robots , y compris les dérivations spécifiques aux moteurs de recherche.

Si vous souhaitez interdire à Google, à The Web Archive et à d'autres moteurs de recherche de conserver une copie de votre page Web, vous souhaitez la balise suivante (affichée au format HTML4):

<meta name="robots" content="noarchive">

Pour empêcher l' indexation et la conservation d'une copie :

<meta name="robots" content="noindex, noarchive">

Et pour éviter les deux problèmes ci-dessus , ainsi que l' utilisation de liens sur la page pour trouver plus de pages à indexer:

<meta name="robots" content="noindex, nofollow, noarchive">

NB 1: Les 3 balises META ci-dessus sont uniquement destinées aux moteurs de recherche - elles n'affectent pas les proxy HTTP ou les navigateurs.

NB 2: Si vous avez déjà des pages indexées et archivées et que vous bloquez des pages via robots.txt tout en ajoutant en même temps la balise meta aux mêmes pages, alors le fichier robots.txt empêchera les moteurs de recherche de voir la balise meta mise à jour.

Jesper M
la source
1
Voté? Pourquoi diable cela a-t-il été rejeté? Veuillez laisser un commentaire si vous votez pour que la réponse puisse être améliorée.
Jesper M
@Jesper Mortensen Votre réponse initiale ne répondait pas du tout à la question de la mise en cache. Votre modification a corrigé cela et amélioré les informations de noindex. +1 maintenant ;-)
mawtex
1
Une chose à garder à l'esprit est qu'une directive de refus robots.txt n'empêche pas l'indexation d'une URL et n'entraîne pas la suppression de cette URL de l'index. Les moteurs de recherche peuvent et vont indexer les URL sans les avoir explorées (si elles ne sont pas autorisées), donc s'il est essentiel d'empêcher les URL d'être indexées (et pas seulement d'empêcher le contenu d'être indexé), alors vous devez utiliser la balise Meta des robots ou le x -robots-tag HTTP et assurez-vous que les URL ne sont pas interdites d'exploration.
John Mueller
1
De plus, bien qu'elle ne soit pas nécessairement incorrecte, une balise META de robots avec "noindex, noarchive" équivaut à "noindex" (lorsqu'une URL n'est pas indexée, elle n'est pas non plus archivée / mise en cache).
John Mueller
1
Enfin (désolé d'avoir ajouté autant de commentaires :-)), dans ce cas particulier (pages d'administration), je m'assurerais simplement que les URL renvoient 403 lorsqu'elles ne sont pas connectées. Cela empêche également les moteurs de recherche de l'indexer et est théoriquement plus clair que d'avoir un retour de page 200 + en utilisant une balise META noindex robots. Le résultat final est le même dans les résultats de la recherche, mais l'utilisation du code de résultat HTTP approprié peut vous aider à reconnaître plus facilement les accès administrateur non autorisés dans vos journaux.
John Mueller
5

Il existe en fait une troisième façon d'empêcher Google et les autres moteurs de recherche d'indexer les URL. Il s'agit de l' X-Robots-Tagen-tête de réponse HTTP . C'est mieux que les balises META car cela fonctionne pour tous les documents et vous pouvez avoir plus d'une balise.

Les balises REP META vous donnent un contrôle utile sur la façon dont chaque page Web de votre site est indexée. Mais cela ne fonctionne que pour les pages HTML. Comment pouvez-vous contrôler l'accès à d'autres types de documents, tels que les fichiers Adobe PDF, les fichiers vidéo et audio et d'autres types? Eh bien, maintenant, la même flexibilité pour spécifier les balises par URL est disponible pour tous les autres types de fichiers.

Nous avons étendu notre prise en charge des balises META afin qu'elles puissent désormais être associées à n'importe quel fichier. Ajoutez simplement n'importe quelle balise META prise en charge à une nouvelle directive X-Robots-Tag dans l'en-tête HTTP utilisé pour servir le fichier. Voici quelques exemples illustratifs: N'affichez pas de lien de cache ou d'extrait de code pour cet élément dans les résultats de recherche Google: X-Robots-Tag: noarchive, nosnippet N'incluez pas ce document dans les résultats de recherche Google: X-Robots-Tag : noindex Dites-nous qu'un document ne sera plus disponible après le 7 juillet 2007, 16h30 GMT: X-Robots-Tag: non disponible_after: 7 juil. 2007 16:30:00 GMT

Vous pouvez combiner plusieurs directives dans le même document. Par exemple: n'affichez pas de lien mis en cache pour ce document et supprimez-le de l'index après le 23 juillet 2007, 15h00 PST: X-Robots-Tag: noarchive X-Robots-Tag: indisponible_after: 23 juil. 2007 15:00:00 TVP

John Conde
la source
Le lien «En-tête X-Robots_tag» est rompu.
mawtex
Merci pour l'information. Chrome semble avoir des problèmes avec la barre d'outils de mise en forme et il a ajouté du texte supplémentaire au lien.
John Conde
1

Oui, cela résoudra le problème. Pour empêcher le contenu de s'afficher dans les index Google, vous pouvez utiliser soit robots.txt soit la balise meta html

<meta name="robots" content="noindex, nofollow" />

La prochaine fois que votre site sera indexé, votre contenu sera supprimé de l'index Google.

Vous pouvez également vous la noarchivevaleur - cela bloquera la mise en cache de votre page. Ceci est spécifique à Google:

<meta name="robots" content="noarchive" />

Vous pouvez utiliser l '«outil de suppression» dans les outils Google pour les webmasters pour demander une suppression très urgente de votre contenu. Notez que vous devez d'abord bloquer l'indexation de votre contenu (en utilisant soit robots.txt soit la balise meta robots).

Plus d'informations:

mawtex
la source
1

Si votre objectif est que ces pages ne soient pas vues par le public, il est préférable de mettre un mot de passe sur cet ensemble de pages. Et / ou avoir une configuration qui ne permet que des adresses spécifiques, sur liste blanche, capables d'accéder au site (cela peut être fait au niveau du serveur, probablement via votre hôte ou l'administrateur du serveur).

Si votre objectif est que ces pages existent, tout simplement pas indexées par Google ou d'autres moteurs de recherche, comme d'autres l'ont mentionné, vous avez quelques options, mais je pense qu'il est important de faire la distinction entre les deux fonctions principales de la recherche Google dans ce sens: exploration et indexation.

Exploration vs indexation

Google explore votre site, Google indexe votre site. Les robots d'exploration trouvent les pages de votre site, l'indexation organise les pages de votre site. Plus d'informations à ce sujet ici .

Cette distinction est importante lorsque vous essayez de bloquer ou de supprimer des pages de "l'index" de Google. Par défaut, de nombreuses personnes bloquent simplement via le fichier robots.txt, qui est une directive indiquant à Google quoi (ou non) explorer. On suppose souvent que si Google n'explore pas votre site, il est peu probable qu'il l'indexe. Cependant, il est extrêmement courant de voir des pages bloquées par robots.txt, indexées dans Google.


Directives à Google et aux moteurs de recherche

Ce type de "directives" ne sont que des recommandations à Google sur la partie de votre site à explorer et à indexer. Ils ne sont pas tenus de les suivre. Ceci est important à savoir. J'ai vu de nombreux développeurs au fil des ans penser qu'ils peuvent simplement bloquer le site via robots.txt, et soudain, le site est indexé dans Google quelques semaines plus tard. Si quelqu'un d'autre établit un lien vers le site, ou si l'un des robots de Google s'en empare, il peut toujours être indexé .

Récemment, avec le tableau de bord mis à jour de GSC (Google Search Console), ils ont ce rapport appelé "Index Coverage Report". De nouvelles données sont disponibles pour les webmasters ici qui n'étaient pas directement disponibles auparavant, des détails spécifiques sur la façon dont Google gère un certain ensemble de pages. J'ai vu et entendu de nombreux sites Web recevoir des "avertissements", étiquetés "indexés, mais bloqués par Robots.txt".

La dernière documentation de Google mentionne que si vous voulez que les pages soient hors de l'index, ajoutez-y des balises nofollow noindex.


Outil Supprimer les URL

Juste pour s'appuyer sur ce que d'autres ont mentionné à propos de "l'outil de suppression d'URL" ....

Si les pages sont déjà indexées et qu'il est urgent de les retirer, l'outil "Supprimer les URL" de Google vous permettra de bloquer "temporairement" les pages des résultats de recherche. La demande dure 90 jours, mais je l'ai utilisée pour supprimer les pages de Google plus rapidement que d'utiliser noindex, nofollow, un peu comme une couche supplémentaire.

À l'aide de l'outil "Supprimer les URL", Google continuera d'explorer la page et peut-être de la mettre en cache, mais pendant que vous utilisez cette fonctionnalité, vous pouvez ajouter les balises nofollow noindex, afin qu'elles les voient et au moment où les 90 jours sont écoulés. en haut, j'espère qu'il ne saura plus indexer votre page.


IMPORTANT: l'utilisation de balises nofollow robots.txt et noindex est un signal quelque peu contradictoire pour Google.

La raison en est que si vous indiquez à google de ne pas explorer une page, puis que vous avez un noindex nofollow sur cette page, il peut ne pas explorer pour voir la balise noindex nofollow. Il peut ensuite être indexé par une autre méthode (que ce soit un lien ou autre). Les détails expliquant pourquoi cela se produit sont plutôt vagues, mais je l'ai vu se produire.


En bref, à mon avis, la meilleure façon d'empêcher des URL spécifiques d'être indexées consiste à ajouter une balise nofollow noindex à ces pages. Avec cela, assurez-vous que vous ne bloquez pas ces URL également avec robots.txt, car cela pourrait empêcher Google de voir correctement ces balises. Vous pouvez utiliser l'outil Supprimer les URL de Google pour les masquer temporairement dans les résultats de recherche pendant que Google traite votre nofollow noindex.

réveillé zombie
la source