Google pénalise-t-il les balises <lastmod> mises à jour quotidiennement dans les sitemaps si les données ne sont pas mises à jour quotidiennement?

10

J'ai un plan du site qui est généré quotidiennement avec beaucoup de liens vers des pages de produits. Ces produits sont importés quotidiennement à partir d'une autre source de données. Parce que la mise à jour consiste à jeter toutes les informations produit actuelles et à les remplacer par les nouvelles informations importées, la dernière date modifiée saute toujours d'un jour. Ceci est également utilisé dans le plan du site. Même pour les produits qui n'ont pas changé. Toutes les pages produits prétendent avoir été mises à jour.

Google pénalisera-t-il le site Web pour avoir prétendu que les pages ont changé de jour en jour alors qu'elles ne l'ont pas été?

Ma solution serait de ne modifier l'entrée que si les nouvelles données de produit importées diffèrent des données précédentes. Je veux juste m'assurer que c'est une mise à niveau utile à faire, alors que je pourrais également passer mon temps sur d'autres améliorations.

Obtenir
la source

Réponses:

5

Je n'ai jamais entendu parler d'une sanction à cause de cela. Au pire, vous perdez le temps de l'araignée, mais c'est en partie pourquoi nous avons des ordinateurs en premier lieu: faire des choses répétitives fastidieuses. Pourtant, vous devriez idéalement aborder le problème.

Cette...

Ma solution serait de ne modifier l'entrée que si les nouvelles données de produit importées diffèrent des données précédentes.

... est ce que vous devriez faire en premier lieu, indépendamment de considérations externes comme les sitemaps, etc. Si votre contenu n'est pas différent (et j'inclurais la suppression et le remplacement par des informations identiques dans cette description), votre lastmoddate ne devrait pas pas être modifié. Ici, vous gaspillez vos propres ressources. Vous n'avez pas dit combien de produits sont impliqués, mais il y aura un moment où ce processus va devenir lent et coûteux en calcul.

Su '
la source
Je suis entièrement d'accord. Cependant, je suis fiable sur une autre entreprise qui fournit les données. Ils envoient toujours chaque produit (+ 200) dans leurs exportations de données. La mise à jour du lot semblait donc la meilleure solution il y a quelques années. Mon client n'a pas le budget pour résoudre ce problème correctement. Ces ex / importations se produisent la nuit, donc les ressources supplémentaires utilisées ne sont pas un gros problème pour le moment.
Obtenir le
@Elicit si vous rencontrez toujours ce problème, stockez simplement les exportations de données de la veille dans leur format original et analysable et effectuez une comparaison de style diff git pour voir quels produits ont changé. Bien que ce soit agréable, vous n'en avez pas besoin pour vous envoyer uniquement les produits modifiés; vous devriez pouvoir le découvrir vous-même.
Anonymous Penguin
3

Je n'ai jamais aimé l'idée de mettre à jour <lastmod>tous les jours car ce n'est pas seulement faux, c'est trompeur pour les moteurs de recherche.

Dans un article sur SO , Gary Illyes de Google a écrit:

La balise lastmod est facultative dans les sitmaps et dans la plupart des cas, elle est ignorée par les moteurs de recherche, car les webmasters font un travail horrible en la gardant exacte.

J'ai généralement préconisé une utilisation <lastmod>correcte ou pas du tout. Le laisser (ainsi que <changefreq>& <priority>) rend même le fichier lui-même plus petit et plus rapide pour les moteurs de recherche.

Andrew Lott
la source
2

Non. Google utilisera lastmodun indice (identique à toutes les valeurs de sitemap), mais s'il décide que votre contenu n'est pas mis à jour quotidiennement, il l'ignorera simplement et revisitera vos pages selon son propre calendrier.

Chèvre mécontente
la source
2

Je ne travaille pas pour Google et je ne peux pas dire avec certitude ce qu'ils font réellement, mais la manière judicieuse pour eux de traiter les <lastmod>horodatages serait de donner des conseils pour ne pas perdre de temps à ré-explorer des pages qui n'ont pas changé.

Donc, si vous signalez toutes vos pages comme modifiées chaque jour, Googlebot continuera à explorer toutes vos pages dans l'ordre où elles se trouvent, plutôt que de se concentrer uniquement sur les pages qui ont changé. En fait, c'est comme si vous n'aviez signalé aucun horodatage de dernière modification.

La raison principale pour fournir des <lastmod>horodatages corrects est d'apporter des modifications à votre site plus rapidement dans l'index de Google. Si vous avez des centaines de pages sur votre site, il faudra un certain temps à Google pour les explorer toutes et trouver les modifications. Cependant, si vous dites à Googlebot quelles pages ont changé récemment, il peut d'abord explorer ces pages et éviter de perdre autant de temps sur le reste.

Bien sûr, vous pouvez simplement augmenter le taux d'exploration de Googlebot dans les outils pour les webmasters et espérer le meilleur. Mais vraiment, il ne devrait pas être trop difficile de faire en sorte que votre script de mise à jour conserve les horodatages. Par exemple, je suppose que vous faites actuellement quelque chose comme ceci:

for each product do:
    write new page content into product page file;
end do;

Si oui, remplacez-le par quelque chose comme ceci à la place:

for each product do:
    read old page content from product page file into string A;
    write new page content into string B;
    if A is not equal to B then:
        write string B into product page file;
    end if;
end do;
Ilmari Karonen
la source
2

Non, il ignore simplement les informations que vous avez fournies lorsqu'elles sont incorrectes. Dans ce cas, les robots d'indexation Web déterminent eux-mêmes la fréquence à laquelle ils doivent explorer vos pages.

Jérôme Verstrynge
la source
Le lien est rompu ...
Victor Schröder
1

Google ne vous pénalisera pas pour cela. Afin d'obtenir une pénalité, vous devez vraiment porter un chapeau noir sur le cul de Google, alors ne vous inquiétez pas. Google saura assez tôt si votre contenu a changé (c'est ce sur quoi ils ont travaillé ces dernières années) et utilisera la propriété lastmod comme indice.

Steven Van Vessum
la source
1

Je vous suggère de lire ces meilleures pratiques pour les plans de site XML et les flux RSS / Atom

Heure de la dernière modification

Spécifiez une dernière heure de modification pour chaque URL dans un plan de site XML et un flux RSS / Atom. La dernière heure de modification doit être la dernière fois que le contenu de la page a changé de manière significative. Si une modification est censée être visible dans les résultats de la recherche, la dernière heure de modification doit être l'heure de cette modification.

XML sitemap uses  <lastmod>
RSS uses <pubDate>
Atom uses <updated>

Assurez-vous de définir ou de mettre à jour l'heure de la dernière modification correctement:

Specify the time in the correct format: W3C Datetime for XML sitemaps, RFC3339 for Atom and RFC822 for RSS.
Only update modification time when the content changed meaningfully.
Don’t set the last modification time to the current time whenever the sitemap or feed is served.
John
la source
Merci pour la mise à jour. Espérons que le votant baissier le verra et inversera son vote.
John Conde