Mon robots.txt
dans Google Webmaster Tools affiche les valeurs suivantes:
User-agent: *
Allow: /
Qu'est-ce que ça veut dire? Je n'ai pas assez de connaissances à ce sujet, alors je cherche votre aide. Je souhaite autoriser tous les robots à explorer mon site Web, est-ce la bonne configuration?
robots.txt
Raajpoot
la source
la source
Réponses:
Ce fichier permettra à tous les robots d'accéder
Cela permet essentiellement à tous les agents utilisateurs (le *) d'accéder à toutes les parties du site (le /).
la source
Si vous souhaitez autoriser chaque bot à tout explorer, c'est la meilleure façon de le spécifier dans votre robots.txt:
Notez que le
Disallow
champ a une valeur vide, ce qui signifie selon la spécification :Votre méthode (avec
Allow: /
au lieu deDisallow:
) fonctionne également, maisAllow
ne fait pas partie de la spécification originale du fichier robots.txt , elle n'est donc pas prise en charge par tous les robots (de nombreux robots populaires le supportent, cependant, comme le Googlebot ). Cela dit, les champs non reconnus doivent être ignorés, et pour les bots qui ne les reconnaissent pasAllow
, le résultat serait le même dans ce cas de toute façon: si rien n'est interdit d'être crawlé (avecDisallow
), tout est autorisé à être crawlé.Cependant, formellement (selon la spécification d'origine), il s'agit d'un enregistrement non valide, car au moins un
Disallow
champ est requis:la source
Je comprends que c'est une question assez ancienne et qu'elle a de très bonnes réponses. Mais, voici mes deux cents par souci d'exhaustivité.
Selon la documentation officielle , il existe quatre façons d'autoriser un accès complet aux robots d'accéder à votre site.
Nettoyer:
Spécifiez un matcher global avec un segment d'interdiction comme mentionné par @unor. Donc, vous
/robots.txt
ressemblez à ça.Le hack:
Créez un
/robots.txt
fichier sans contenu. Ce qui par défaut autorise tout pour tous les types de fichiersBots
.Je m'en fous:
Ne créez pas un
/robots.txt
tout. Ce qui devrait donner exactement les mêmes résultats que les deux ci-dessus.Le moche:
À partir de la documentation des robots pour les balises méta , vous pouvez utiliser la balise méta suivante sur toutes vos pages de votre site pour faire
Bots
savoir que ces pages ne sont pas censées être indexées.Pour que cela s'applique à l'ensemble de votre site, vous devrez ajouter cette balise META pour toutes vos pages. Et cette balise doit être strictement placée sous votre
HEAD
balise de la page. En savoir plus sur cette balise meta ici .la source
Cela signifie que vous autorisez chaque (
*
) user-agent / crawler à accéder à la racine (/
) de votre site. Tu vas bien.la source