Nous utilisons un sitemap sur Stack Overflow, mais mes sentiments sont partagés.
Les robots d'exploration de sites Web découvrent généralement les pages à partir de liens au sein du site et d'autres sites. Les plans Sitemap complètent ces données pour permettre aux robots d'exploration qui prennent en charge ces plans de récupérer toutes les URL du plan Sitemap et d'en savoir plus sur ces URL à l'aide des métadonnées associées. L'utilisation du protocole Sitemap ne garantit pas que les pages Web sont incluses dans les moteurs de recherche, mais fournit des astuces permettant aux robots d'indexation Web de mieux analyser votre site.
D'après nos deux années d'expérience avec les sitemaps, il y a quelque chose de fondamentalement paradoxal dans le sitemap :
- Les plans Sitemap sont destinés aux sites difficiles à analyser correctement.
- Si Google ne parvient pas à explorer votre site pour trouver un lien, mais est en mesure de le trouver dans le plan du site, il ne donne aucun poids au lien du plan du site et ne l'indexera pas!
C'est le paradoxe du sitemap - si votre site n'est pas correctement exploré (pour une raison quelconque), l'utilisation d'un sitemap ne vous aidera pas!
Google s'efforce de ne fournir aucune garantie de sitemap :
"Nous ne pouvons faire aucune prédiction ou garantie quant au moment ou si vos URL seront explorées ou ajoutées à notre index" Citation
"Nous ne garantissons pas que nous analyserons ou indexerons toutes vos URL. Par exemple, nous n'analyserons ni n'indexerons les URL d'image contenues dans votre sitemap." citation
"soumettre un plan Sitemap ne garantit pas que toutes les pages de votre site seront explorées ou incluses dans nos résultats de recherche" citation
Étant donné que les liens trouvés dans les sitemaps ne sont que des recommandations , alors que les liens trouvés sur votre propre site web sont considérés comme canoniques ... il semble que la seule chose logique à faire est d' éviter d' avoir un sitemap et de vous assurer que Google et tout autre moteur de recherche peuvent correctement Spider votre site en utilisant les vieilles pages Web standard plaine tout le monde voit.
Au moment où vous avez fait cela , et que vous vous êtes bien amusés pour que Google puisse voir que votre propre site renvoie à ces pages, et qu'il serait prêt à l'explorer, pourquoi avons-nous besoin d'un plan du site, encore une fois? Le sitemap peut être très dangereux, car il vous empêche de vous assurer que les robots des moteurs de recherche sont en mesure d'explorer votre site dans son ensemble. "Oh, peu importe si le robot d'exploration peut le voir, nous allons simplement gifler ces liens dans le plan du site!" La réalité est tout le contraire dans notre expérience.
Cela semble plus qu'un peu ironique étant donné que les sitemaps étaient destinés à des sites qui possèdent une collection très profonde de liens ou une interface utilisateur complexe qui peut être difficile à exploiter. D'après notre expérience, le plan du site ne sert à rien, car si Google ne parvient pas à trouver le lien sur votre site, il ne l'indexera de toute façon pas. Nous l'avons vu maintes et maintes fois avec les questions Stack Overflow.
Ai-je tort? Les sitemaps ont-ils du sens, et nous les utilisons de manière incorrecte?
la source
Réponses:
Clause de non-responsabilité: je travaille avec l'équipe Sitemaps de Google. Je suis donc un peu partial :-).
Outre l'utilisation intensive de Sitemaps pour le contenu "non indexé sur le Web" (images, vidéos, Actualités, etc.), nous utilisons les informations provenant d'URL incluses dans les fichiers Sitemaps à ces fins principales:
Du côté des webmasters, j'ai également trouvé les fichiers Sitemaps extrêmement utiles:
Certes, pour les très petits sites statiques, facilement explorables, l'utilisation de Sitemaps peut être inutile du point de vue de Google une fois que le site a été exploré et indexé. Pour toute autre chose, je recommanderais vraiment de les utiliser.
FWIW Il y a quelques idées fausses que j'aimerais également aborder:
la source
priority
champ?1 2 3 ... 22 **23** 24 ... 198 199 200
. Donc, pour trouver un produit à la page 100, il vous faudrait environ 100 liens. Ou utilisez la barre de recherche. Est-ce que googlebot l'explorerait ou abandonnerait-il après une vingtaine de niveaux? Un sitemap serait-il la solution appropriée ici?Si vous savez que vous avez une bonne architecture de site et que Google trouve vos pages naturellement, le seul avantage que je connaisse est un indexage plus rapide. Si votre site est indexé assez rapidement pour vous, alors nul besoin.
Voici un article de 2009 où un monsieur a testé la rapidité avec laquelle Google a fouillé son site avec ou sans plan du site. http://www.seomoz.org/blog/do-sitemaps-effect-crawlers
Ma règle générale est que si vous lancez quelque chose de nouveau et de non testé, vous voulez voir comment Google explore votre site pour vous assurer qu'il n'y a rien à réparer, alors ne le soumettez pas. Toutefois, si vous apportez des modifications et souhaitez Google les voit plus rapidement, puis soumettez-les ou si vous avez d'autres informations confidentielles, telles que des actualités, soumettez-les parce que vous voulez faire tout ce qui est en votre pouvoir pour vous assurer que vous êtes le premier à voir Google, sinon c'est une question de préférence.
la source
Je soupçonne: pour Google, les sitemaps sont nécessaires pour suivre les mises à jour le plus rapidement possible. Par exemple, supposons que vous ayez ajouté un nouveau contenu à un emplacement précis de votre site Web, qui nécessite plus de 10 à 20 clics pour atteindre votre page d'accueil. Si Google accédait à cette nouvelle page serait moins probable dans un court laps de temps - jusqu'à ce qu'un chemin d'accès à cette page soit complètement déterminé, son existence est annoncée. Après tout, le classement PageRank n’est pas calculé immédiatement, il faut du temps pour évaluer le comportement des utilisateurs, et c’est-à-dire, jusqu’à ce moment-là, pourquoi le moteur ne devrait-il pas analyser et indexer une page avec du contenu récent?
la source
Les sitemaps sont extrêmement utiles si vous les utilisez correctement.
Tout d’abord, le fait que Google parle d’indices n’est là que pour a) s’assurer que les webmasters ne sont pas sous la fausse impression que sitemap = indexation et b) donner à Google la possibilité d’ignorer certains sitemaps s’ils les jugent peu fiables ( lastmod, c'est-à-dire la date du jour pour toutes les URL auxquelles ils accèdent chaque jour.)
Cependant, Google aime et consomme généralement les plans Sitemap (en fait, ils trouvent parfois les leurs et les ajoutent à Google Webmaster Tools). Pourquoi? Cela augmente l'efficacité avec laquelle ils peuvent ramper.
Au lieu de démarrer sur un site source et d'explorer le Web, ils peuvent affecter un montant approprié de leur budget d'analyse à un site, en fonction des sitemaps soumis. Ils peuvent également constituer un historique important de votre site avec les données d'erreur associées (500, 404, etc.).
De Google:
"Googlebot explore le Web en suivant les liens d'une page à l'autre. Si votre site n'est pas bien lié, il peut être difficile pour nous de le découvrir."
Ce qu'ils ne disent pas, c'est que l'exploration du Web prend beaucoup de temps et qu'ils préfèrent une feuille de triche (ou sitemap).
Bien sûr, votre site Web peut très bien fonctionner du point de vue de l'exploration, mais si vous souhaitez introduire un nouveau contenu, le déposer dans un plan du site avec une priorité élevée constitue un moyen plus rapide d'obtenir une exploration et une indexation.
Et cela fonctionne aussi pour Google, qui souhaite trouver, analyser et indexer son nouveau contenu rapidement. Maintenant, même si vous ne pensez pas que Google préfère les sentiers battus à la machette à l'approche de la jungle, il existe une autre raison pour laquelle les sitemaps sont utiles: le suivi.
En particulier, à l'aide d'un index de sitemap (http://sitemaps.org/protocol.php#index), vous pouvez diviser votre site en sections - plan du site par sitemap. Ce faisant, vous pouvez alors examiner le taux d’indexation de votre site section par section.
Une section ou un type de contenu peut avoir un taux d'indexation de 87%, tandis qu'un autre peut avoir un taux d'indexation de 46%. C’est ensuite à vous de déterminer pourquoi.
Pour tirer pleinement parti des sitemaps, vous devez suivre l'analyse de Googlebot (et Bingbot) sur votre site (via des blogs), les associer à vos sitemaps, puis les suivre jusqu'au trafic.
N'allez pas dormir sur les sitemaps, investissez-les.
la source
Selon les mots de Google: "Dans la plupart des cas, les webmasters bénéficieront de la soumission de Sitemap et ne seront en aucun cas pénalisés pour cela."
Mais je conviens que la meilleure chose à faire si vous voulez que les pages de vos sites Web apparaissent dans les moteurs de recherche est de vous assurer qu’elles sont explorables à partir du site proprement dit.
la source
Je crois que les moteurs de recherche utilisent le plan du site non pas pour rechercher des pages, mais pour optimiser la manière dont ils les consultent souvent à la recherche de mises à jour. Ils regardent
<changefreq>
et<lastmod>
. Il est probable que Google parcourt très souvent le site Web dans son ensemble (vérifiez vos journaux!), Mais tous les moteurs de recherche ne disposent pas des ressources nécessaires pour le faire (quelqu'un a-t-il déjà essayé Blekko ?). En tout cas puisqu'il n'y a pas de pénalité pour leur utilisation et qu'ils peuvent être créés automatiquement et facilement, je continuerais à le faire.la source
<priority>
domaine est assez important, leur faire savoir quelles pages sont les plus vitales. Par exemple, sur Stack Overflow, vous avez des centaines de balises et de pages utilisateur qui conviennent, mais qui sont loin d’être aussi importantes que les questions elles-mêmes. Si le plan du site définit la priorité de la question sur 1 et que tout le reste est inférieur, les questions sont plus susceptibles d'être indexées par rapport à d'autres pages.Si vous êtes intéressé par ce sujet, lisez cet article de Google http://googlewebmastercentral.blogspot.com/2009/04/research-study-of-sitemaps.html (avril 2009) - lisez le document dans son intégralité, mais pas uniquement l'article de blog .
du papier
mais oui, le sitemap est principalement utilisé pour la découverte (le processus de découverte de vos éléments par Google), pas pour la détermination de la valeur. Si vous avez des difficultés avec la découverte, utilisez un sitemap. la découverte est une condition préalable à l'analyse, mais ne touche pas la détermination de la valeur.
selon mon expérience
quand j'implémente une stratégie de référencement pour un site avec plus d'un demi million de pages, je vais pour
tout le reste n'est que du "balast" - ouais, d'autres choses pourraient avoir une valeur de référencement positive, mais ont une valeur négative: cela rend le site plus difficile à gérer. (ps: pour la détermination de la valeur, j'interconnecte les pages de destination de façon sensée (grand impact), mais c'est déjà la deuxième étape).
à propos de votre question: s'il vous plaît ne confondez pas découverte, exploration, indexation et classement. vous pouvez tous les suivre séparément et les optimiser séparément. et vous pouvez améliorer la découverte et l'exploration de manière majeure avec un excellent plan du site (c'est-à-dire: en temps réel).
la source
Les plans Sitemap peuvent vous sauver le cul.
Sur un de mes sites, j'ai un grand nombre de liens qui empêchent les moteurs de recherche de spider. En résumé, Google interprétait mal JS dans mon forum et provoquait de nombreux codes de réponse 500 et 403, qui, je le croyais, affectaient la position du site. J'ai résolu ce problème en excluant les URL problématiques via le fichier robots.txt.
Un jour, j'ai fait une erreur et empêché Google d'explorer certaines pages de ce site que je voulais vraiment indexer. En raison des exclusions du forum, la section d'erreur de "Webmaster Tools" pour "Restricted by robots.txt" contenait plus de 4000 pages. Je n'aurais donc pas relevé cette erreur jusqu'à ce qu'il soit trop tard.
Heureusement, toutes les pages "importantes" de mon site se trouvant dans des sitemaps, j'ai pu rapidement détecter ce problème dans la catégorie d'erreur spéciale que Webmaster Tools contient pour les problèmes de pages dans les sitemaps.
De plus, utiliser un index de sitemap pour déterminer la qualité de l'indexation de différentes sections de mes sites, mentionné par @AJ Kohn, me procure également de nombreux avantages.
la source
Je n'ai pas encore rencontré ce problème moi-même, mais la majorité de mes projets sont des applications ou des sites qui, autrement, nécessitent des comptes d'utilisateurs, de sorte que l'indexation par les moteurs de recherche n'est pas une priorité.
Cela dit, j'ai déjà entendu dire que le référencement avait rendu les sitemaps inutiles. Si vous regardez le protocole, c'est en quelque sorte un "système d'honneur" qui indique à quelle fréquence une page change et quelle est la priorité relative de chaque page. Il va de soi que dime-a-douzaine de sociétés de référencement utilisent les champs à mauvais escient - chaque page est la priorité absolue! chaque page change toutes les heures! - et rendu sitemaps efficacement inutile.
Cet article de 2008 dit en gros cela et semble arriver à la même conclusion que vous: le plan du site est quasiment inutile et vous feriez mieux d'optimiser le contenu à indexer et d'abandonner le plan du site.
la source
Laissez-le ramper.
Je fais ce qui suit:
Je génère un fichier XML étendu, qui sert de base à beaucoup de choses:
C’est pourquoi j’ai tout cela, pourquoi ne pas servir aussi un sitemap XML et laisser le robot faire ce qu’il aimerait faire, s’il le souhaite?
la source
Jeff, je n'ai aucune idée de Stackoverflow car je n'ai jamais eu l'occasion de ma vie d'être le webmaster d'un site Web aussi vaste et mis à jour si fréquemment.
Pour les petits sites Web qui ne changent pas souvent, je pense que le sitemap est très utile (ne dit pas que le sitemap est la chose la plus importante, mais très utile oui) pour deux raisons:
Le site est exploré rapidement (même raison expliquée par la réponse de Joshak ci-dessus ) et, dans ma petite expérience, je l'ai constaté à maintes reprises avec de petits sites (jusqu'à 30/50 pages).
Après quelques semaines, j’ai soumis un sitemap, j’ai cherché dans "Outils pour les webmasters de Google - Sitemaps" et le nombre d’URL soumises dans le sitemap par rapport au nombre d’URL figurant dans l’index Web . Si je vois qu'ils sont identiques, alors tant mieux. Sinon, je peux vérifier immédiatement sur mes sites Web quelles pages ne sont pas indexées et pourquoi.
la source
Cela a été (d'abord?) Écrit par Randfish sur SEOmoz à la bonne année 2007. La première fois, il arrivait aux mêmes types de conclusions, mais ensuite, le temps a fait que c'est chose… et est passé.
Depuis (janvier 2009), il a ajouté à l'article un post-scriptum indiquant que tout inconvénient éventuel est simplement compensé par les résultats globalement positifs de la création, de la vérification et de la soumission de sitemaps.
la source
Je crois que SiteMaps ne sert que pour deux raisons ces jours-ci:
la source
N'UTILISEZ PAS DE PLAN DU SITE
Les plans Sitemap sont principalement conçus pour les sites ne comportant pas d'horodatage ni index, ni nœuds ... SE le fait pour son contenu principal. Un sitemap ralentit donc le balayage ... Oui, c'est vrai, cela le ralentira, car le sitemap manque les métadonnées que les index de base ont. Sur le revers, je n'ai aucune idée réelle de la façon dont Google construit ses robots, sachez simplement que si j'allais sur Bot SE, je n'utiliserais PAS le plan du site. De plus, certains sites ne remarquent même pas que leurs sitemaps sont tous%! @ $ - et si vous avez créé un profil sur un sitemap qui ne fonctionne tout à coup, vous devez créer un nouveau profil à partir du site. site réel.
Donc, vous avez raison - N'UTILISEZ PAS DE PLAN DU SITE!
CONSEIL: Une chose à faire est de conserver la sémantique des balises autant que possible dans le temps, ce qui signifie que "Asked One Hour Ago" contient une métadonnée comme:
ne changez jamais le nom de la chaîne
relativetime
, sauf si la signification des donnéestitle
a changé. JAMAIS... :-)la source
J'ai récemment restructuré un site sur lequel je travaille encore. Comme je ne voyais aucun moyen de relier 500 000 pages pour aider les utilisateurs, j'ai décidé d'utiliser un sitemap XML, de le soumettre à Google et d'utiliser la recherche sur site. Cependant, depuis l’ajout du plan du site, Google n’avait aucun problème à indexer mon site, mais il est très agressif en ce qui concerne la navigation sur mon site et l’indexation extrêmement rapide des pages. Google a utilisé le plan du site pour rechercher de nouvelles pages (environ 3 300 par semaine) et revoir les pages mises à jour. Cela a été une vraie victoire dans mon livre. Je veux toujours trouver un nouveau moyen de lier mes pages et d'utiliser AJAX pour la consultation, mais c'est un projet pour un autre jour. Jusqu'ici tout va bien! Cela a été une bonne solution pour moi. Tous et toutes, j'ai gagné et pas perdu. Ce qui est intéressant, car j'ai toujours pensé que les sitemaps pourraient être plus utiles mais limités par leur conception.
la source
J'ai entendu dire que les sitemaps mettaient vos pages dans l'index supplémentaire plus rapidement. Mais je n'ai même pas entendu parler de l'index supplémentaire mentionné depuis longtemps, de sorte qu'ils ne l'utilisent peut-être plus.
PS au cas où ma déclaration ne serait pas assez claire, être dans l'index supplémentaire est (ou était) une MAUVAISE chose ... donc un sitemap est (ou était) BAD.
la source
Nous utilisons des sitemaps (non soumis aux moteurs de recherche, mais liés entre eux
robots.txt
) principalement pour nous assurer que la page d'accueil est la plus haute<priority>
. Je ne suis pas sûr s'ils ont beaucoup d'autre utilisation.la source
Je ne suis pas d'accord avec le fait que Google n'indexera pas les liens "sitemapped-only". J'ai de nombreux sites dont les pages ne sont accessibles que par sitemaps, et Google les indexe sans problème. Je peux donner de nombreux exemples de cela.
la source
Un site bien construit n'a pas besoin de plan du site, mais il peut contribuer à notre couverture et à notre classement et ajoute un petit plus comme la priorité, la fréquence de mise à jour, etc. Vous pouvez dire à un moteur de recherche ... J'ai mis à jour cette page quelque part au milieu de mon site sans nécessiter une analyse complète. Je n'ai jamais examiné les modèles d'analyse, mais on peut espérer que cela les aidera.
Cela dit, le principal avantage pour moi, ce sont les outils pour les webmasters et les informations qu’ils vous donnent sur la visibilité de votre site Web et de vos utilisateurs.
la source