Pour un site Web avec un contenu dynamique (du nouveau contenu est constamment ajouté), dois-je inclure uniquement le contenu le plus récent dans le plan du site ou dois-je tout inclure (avec un index du plan du site)? Quelles sont les meilleures pratiques pour les plans de site esp. pour les grands sites?
De plus, existe-t-il de toute façon que Google (et les autres moteurs de recherche) ne parcourent que les pages du plan du site?
Merci
Mise à jour:
Aussi, une idée de la façon dont stackoverflow gère cela? Je voudrais savoir, mais malheureusement (également avec compréhension ), ils ont bloqué l'accès à leur plan du site.
Réponses:
Inclure toutes les pages. Le plan du site XML a pour but d'informer les moteurs de recherche de tout votre contenu. Pas seulement les nouveautés.
Sur le site sitemaps.org (c'est moi qui souligne):
Si vous avez beaucoup de contenu, vous pouvez utiliser plusieurs plans de site XML .
Si vous avez du contenu que vous ne voulez pas avoir exploré ou indexé, vous devez spécifiquement dire aux moteurs de recherche de ne pas explorer et indexer ces pages. Utilisez un fichier robots.txt pour bloquer les pages ou répertoires que vous ne souhaitez pas explorer. Vous pouvez également utiliser une balise META pour cela. Mais vous ne pouvez pas spécifier dans un plan de site XML de ne pas analyser les pages non répertoriées.
la source
Using a Sitemap file won't reduce our normal crawling of your site. It's additional information, not a replacement for crawling. Similarly, not having a URL in a Sitemap file doesn't mean that it won't be indexed.