Pouvons-nous utiliser l'expression régulière dans le fichier robots.txt pour bloquer les URL?

23

J'ai quelques URL générées dynamiquement.

Puis-je utiliser l'expression régulière pour bloquer ces URL dans un fichier robots.txt?

Sudheera Njs
la source
Il serait également utile de définir des balises META robots sur les pages que vous ne souhaitez pas explorer / indexer.
Andrew Lott
@AndrewLott Dans mon cas, j'ai plus de 500 pages, alors j'ai pensé utiliser l'expression
régulière
Ensuite, une règle dans le code de votre site est probablement plus utile.
Andrew Lott

Réponses:

27

Les expressions régulières ne sont pas valides dans robots.txt, mais Google, Bing et certains autres bots reconnaissent certaines correspondances de modèles.

Supposons que si vous vouliez bloquer toutes les URL qui ont examplen'importe où dans l'URL, vous pouvez utiliser une entrée générique *

User-agent: *
Disallow: /*example

Vous pouvez également utiliser le signe dollar $ pour spécifier que les URL doivent se terminer de cette façon. Donc, si vous souhaitez bloquer toutes les URL qui se terminent par example, mais pas les URL qui ont un exampleautre endroit dans l'URL, vous pouvez utiliser:

User-agent: *
Disallow: /*example$

Plus d'informations détaillées sur Google peuvent être trouvées ici: Spécifications Robots.txt , Bing ici: Comment créer un fichier Robots.txt et il y a un guide interactif sur Moz ici

Max
la source
Parfait, * fonctionne très bien, testé dans l'outil de maître Web .. Merci Max ... :)
Sudheera Njs
Je vous déconseille d'utiliser des directives trop sophistiquées dans votre fichier robots.txt; ce sont vraiment, vraiment difficiles à déboguer plus tard. Essayez de garder les choses aussi simples que possible. N'oubliez pas que le fichier robots.txt est sensible à la casse, vous devrez donc peut-être ajouter des versions alternatives des directives en fonction de votre site.
John Mueller
serait bien si regex était supporté
SuperUberDuper