Si je ne veux pas définir de comportement spécial, est-ce correct si je n'ai pas la peine d'avoir un fichier robots.txt?

29

Si je ne veux pas définir de comportement spécial, est-ce correct si je n'ai pas la peine d'avoir un fichier robots.txt?

Ou le manque d'un peut-il être nocif?

Dan Dumitru
la source

Réponses:

30

L'absence d'un fichier robots.txt ne sera pas nuisible. Depuis le site Web de robotstxt.org :

Pour permettre à tous les robots un accès complet

User-agent: *
Interdire:

(ou créez simplement un fichier "/robots.txt" vide, ou n'en utilisez pas du tout)

Cependant, même si vous ne spécifiez rien dans votre fichier robots.txt, c'est un bon moyen d' informer les moteurs de recherche de l'emplacement de votre sitemap XML . Vous pouvez le faire en ajoutant une ligne en haut de votre fichier robots.txt qui ressemble à quelque chose comme:

Plan du site: http://www.example.com/sitemap-host1.xml

Vous devez également savoir que ne pas l'avoir créera un grand nombre de 404 entrées dans vos journaux Web.

JasonBirch
la source
+1 - bon résumé, bien que j'insiste vraiment sur ce que Kinopiko a déjà correctement souligné : il suffit de créer le plus basique ou même un vide pour éviter ces 404 et (selon la gestion des pages 404 de vos sites) potentiellement un certain trafic / bande passante , car les moteurs de recherche appliqueront un contrôle de cache HTTP approprié pour ignorer le téléchargement du fichier s'il n'est pas modifié, qu'il soit vide ou non.
Steffen Opel
Marqué comme wiki, veuillez le modifier comme bon vous semble.
JasonBirch
21

Si vous n'avez pas de "robots.txt", votre journal d'erreurs recevra beaucoup de 404 sur le fichier, ce qui pourrait être une sorte de contrariété, comme si vous n'avez pas de favicon.


la source
1
un excellent point ..
Jeff Atwood
1
+1 - Je voudrais ajouter que vous ne vous enregistrez pas uniquement à partir de fichiers journaux plus volumineux et bruyants, mais que vous pouvez également (en fonction de la gestion des pages 404 de votre site) éviter potentiellement un certain trafic / bande passante, car la plupart des 404 pages sont plus grand qu'un simple robots.txtfichier, qui en plus sera téléchargé moins souvent en raison des moteurs de recherche appliquant un contrôle de cache HTTP approprié .
Steffen Opel du
6

Je pense qu'il faudrait avoir à être OK, sinon d' énormes étendues du web seraient un indexable par les araignées web.

Non robots.txtéquivaut à «autoriser l'indexation par tout le monde» robots.txtpresque par définition.

Jeff Atwood
la source
2

L'absence d'un fichier robots.txt laisse au robot d'exploration le soin de décider ce qu'il peut et ne peut pas faire. Puisqu'il ne faut que quelques secondes pour éviter toute sorte d'ambiguïté, pourquoi ne pas en créer une qui permette à tous les agents d'accéder à tout?

Tim Post
la source
0

Eh bien, puisque robots.txtcontient l'adresse de votre sitemap , ne pas en avoir est potentiellement dangereux.

Thomas Bonini
la source
les plans de site ne sont utiles que pour certains types de sites Web, IMO
Jeff Atwood
J'ai également vu des robots d'exploration (google en particulier) rechercher /sitemap.xml ou /sitemap.gz en l'absence de robots.txt
Tim Post
Vous n'avez pas besoin d'avoir votre plan du site dans votre fichier robots.txt, vous pouvez quand même le soumettre à Google / Yahoo / Bing. Ce n'est certainement pas "potentiellement dangereux".
DisgruntledGoat
0

En fonction de votre contenu, il ne devrait pas y avoir de problème à ne pas avoir de fichier robots tant que vous êtes impatient de voir chaque page de votre site indexée par les moteurs de recherche.

seanl
la source