Qu'est-ce qu'un fichier robots.txt minimum valide?

14

Je n'aime pas que je vois beaucoup d'erreurs 404 dans le fichier access.log de mon serveur Web. Je reçois ces erreurs parce que les robots tentent d'ouvrir un fichier robots.txt , mais n'en ont pas trouvé. Je veux donc placer un simple fichier robots.txt qui empêchera les erreurs 404 d'apparaître dans mon fichier journal.

Qu'est-ce qu'un fichier robots.txt valide minimum qui permettra d'explorer tout ce qui se trouve sur le site?

bessarabov
la source

Réponses:

17

Comme indiqué ici , créez un fichier texte nommé robots.txt dans le répertoire de niveau supérieur de votre serveur Web. Vous pouvez le laisser vide ou ajouter:

User-agent: *
Disallow:

Si vous voulez que les robots explorent tout . Sinon, consultez le lien ci-dessus pour plus d'exemples.

dan
la source
Pourquoi ajouter "Interdire:" et pas seulement "Autoriser: *"?
Athoxx
2
@Patrik "Allow" sert à remplacer toutes les directives précédentes "Disallow". Cela n'a aucun sens s'il n'y a pas de «refus». Honnêtement, la meilleure solution est un fichier vierge.
DisgruntledGoat
2
Ah, je vois. Je conviens également qu'un fichier vierge est le meilleur.
Athoxx
2
@PatrikAlienus Parce que "Autoriser" n'est pas dans la spécification robots.txt.
user11153
1
@ user11153: Hein? Qu'en est-il de la section "3.2.2 Les lignes Autoriser et Interdire" de la spécification Internet Draft 1997 Une méthode pour le contrôle des robots Web ?
David Cary
2

Le meilleur minimal robots.txtest un fichier complètement vide.

Toutes les autres directives "nulles" telles que des instructions vides Disallowou Allow: *sont non seulement inutiles car elles sont sans opération, mais ajoutent une complexité inutile.

Si vous ne voulez pas que le fichier soit complètement vide - ou que vous le rendiez plus lisible par l'homme - ajoutez simplement un commentaire commençant par le #caractère, tel que # blank file allows all. Les robots ignorent les lignes commençant par #.

Maximillian Laumeister
la source
0

Je dirais ceci;

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php

Il permettra à Google de tout explorer, mais interdira à Google d'analyser votre panneau aadminn. Quelle est la situation idéale pour vous.

Fahad Ur Rehman Khan
la source
2
Il me manque peut-être quelque chose, mais je ne pense pas que le demandeur ait dit qu'il utilisait Wordpress.
Maximillian Laumeister