Une URL de plan de site relative peut-elle être utilisée dans un fichier robots.txt?

191

Dans le fichier robots.txt, puis-je écrire l'URL relative suivante pour le fichier de plan de site?

sitemap: /sitemap.ashx

Ou dois-je utiliser l'URL complète (absolue) du fichier du plan du site, comme:

sitemap: http://subdomain.domain.com/sitemap.ashx

Pourquoi je me demande:

  • Je possède un nouveau service de blog, www.domain.com, qui permet aux utilisateurs de bloguer sur accountname.domain.com.
  • J'utilise des caractères génériques, donc tous les sous-domaines (comptes) pointent vers: "blog.domain.com".

Dans blog.domain.com, j'ai mis le fichier robots.txt pour permettre aux moteurs de recherche de trouver le plan du site. Mais, en raison des caractères génériques, tous les comptes d'utilisateurs partagent le même fichier robots.txt.C'est pourquoi je ne peux pas utiliser la deuxième alternative. Et pour l'instant, je ne peux pas utiliser la réécriture d'url pour les fichiers txt. (Je suppose que les versions ultérieures d'IIS peuvent gérer cela?)

Easy Rider
la source

Réponses:

318

Selon la documentation officielle sur sitemaps.org, il doit s'agir d'une URL complète:

Vous pouvez spécifier l'emplacement du plan du site à l'aide d'un fichier robots.txt. Pour ce faire, ajoutez simplement la ligne suivante avec l'URL complète du plan du site:

Sitemap: http://www.example.com/sitemap.xml
unor
la source
31
Veuillez noter que l'exemple de @ unor a: Plan du site avec une majuscule S. Ceci est important car Robots.txt est sensible à la casse.
BodgeIT
19
Et sur le sujet du cas, robotstxt.org spécifie le fichier à nommer robots.txtsans la majuscule R.
khargoosh
si le site charge https, l'URL du plan de site est mentionnée avec http. Est-ce bien? Ou devons-nous placer l'URL du plan de site en fonction du protocole?
Shams
4
@Shams: Les URL répertoriées dans votre plan de site doivent utiliser le même protocole et le même hôte que le fichier de plan de site. Si votre site est disponible sous http et https , vous ne devez fournir qu'un seul plan du site (avec la variante canonique) .
unor
2

Les robots d'exploration de Google ne sont pas assez intelligents, ils ne peuvent pas explorer les URL relatives, c'est pourquoi il est toujours recommandé d'utiliser des URL absolues pour une meilleure capacité d'exploration et une meilleure indexabilité.

Par conséquent, vous ne pouvez pas utiliser cette variante

> sitemap: /sitemap.xml

La syntaxe recommandée est

Sitemap: https://www.yourdomain.com/sitemap.xml

Remarque:

  • N'oubliez pas de mettre la première lettre en majuscule dans "plan du site"
  • N'oubliez pas de mettre de l'espace après "Sitemap:"
Deepak Mathur
la source
-2

Bonne question technique et logique mon cher ami. Non dans le fichier robots.txt, vous ne pouvez pas utiliser l'URL relative du plan du site; vous devez aller avec l'URL complète du plan du site.

Il est préférable d'utiliser "sitemap: https://www.example.com/sitemap_index.xml "

Dans l'URL ci-dessus, après le signe deux-points donne de l'espace. J'aime aussi soutenir Deepak.

cstpl123
la source