Comment Google reconnaît-il la date de publication d'un article

17

Lorsque je recherche quelque chose dans Google, je vois parfois la date de publication du post / article en dessous. J'ai également recherché un article de moi-même que j'ai sur mon site Wordpress, et Google reconnaît également sa date de publication.

Lorsque j'ouvre la source de mon site Web, je ne vois aucune balise spéciale ni rien indiquant la date de publication. Il n'est écrit que dans un div régulier, sans rien de spécial qui indiquerait au SE que c'est la date de publication (je pourrais avoir d'autres dates sur la page aussi).

Alors, est-il codé en dur dans Google l'emplacement exact de la date de publication de Wordpress dans l'arborescence DOM, ou ai-je raté quelque chose?

Je construis un nouveau site Web, avec mon propre CMS, et j'essaie de savoir comment mettre en œuvre la reconnaissance de la date de publication.

Can Poyrazoğlu
la source
2
Vous manquez certainement quelque chose: vous n'avez regardé que le HTML, mais il y a aussi des en-têtes HTTP qui indiquent quand une page a été modifiée. Que signalent-ils pour le permalien de votre article? Je suppose que Google utilise cela en combinaison avec ses propres enregistrements de la façon dont la page a changé, mais je n'ai aucune preuve réelle - d'où le commentaire plutôt qu'une réponse.
Peter Taylor
oui, le mien a été un essai "rude" .. Je vais examiner les éléments / en-têtes non HTML et le plan du site, comme d'autres l'ont également suggéré
Can Poyrazoğlu
@Peter Sans aucun doute, les en-têtes HTTP (notamment l'en-tête Last-Modified) sont une métrique que les SE utilisent. Cependant, je doute que cela joue un grand rôle dans la détermination de la "date de publication" d'un article - du moins pas ce que Google affiche comme date de publication. (Les autres SE ne semblent pas afficher de «date de publication»?) La date de publication d'un article n'est probablement pas la dernière date de modification d'un document. La plupart des pages sur les sites dynamiques (même pour les publications wordpress) semblent revenir près de la date / heure actuelle. IMO l'en-tête Last-Modified est principalement utilisé pour la mise en cache.
MrWhite
je pense que cela a quelque chose à voir avec le plan du site ..
Can Poyrazoğlu
Dernière modification HTTP stackoverflow.com/questions/204010/… ou certaines métadonnées HTML semi-standard: stackoverflow.com/questions/4575967/… sont d'autres possibilités, mais je ne sais pas si Google les utilise vraiment.
Ciro Santilli 新疆 改造 中心 法轮功 六四 事件

Réponses:

4

vous devez passer par le plan du site xml ou la version du flux RSS pour indexer vos données de publication via les principaux moteurs de recherche tels que Google, Yahoo et MSN. Générez un plan du site XML pour votre site Web et soumettez-le dans les outils Web Master pour l'index.

eThan Hunt
la source
7

J'ai juste eu un problème avec le fait que toutes mes pages principales ont été montrées comme mises à jour il y a plus de 4 ans, même si Google sait que ce n'est pas vrai parce que les pages ont été indexées aussi longtemps et changent considérablement d'un mois à l'autre. Après avoir été vraiment perplexe, puis vraiment énervé, puis perplexe à nouveau, j'ai finalement trouvé le problème. Nos conditions légales étaient servies dans un div caché avec une "Dernière mise à jour: 30 octobre 2007" et le div était en train d'être chargé sur presque toutes nos pages. (Parce qu'il apparaît lors de l'enregistrement) Je l'ai supprimé et maintenant je suppose que la date disparaîtra ou sera corrigée pour quelque chose de plus raisonnable.

Un récit édifiant et une preuve de plus qu'ils vérifient la sémantique du site plus que les détails techniques ou leur propre historique d'indexation.

mmdanziger
la source
Incluez-vous la dernière date de modification de vos pages ailleurs sur la page, le flux RSS ou le plan du site XML?
MrWhite
Non, car le site n'est pas un site d'actualités et je préfère ne pas le souligner. Idéalement, il n'y aurait pas de date pour ma page d'accueil. De plus, j'imagine qu'ils prennent probablement le derniermod avec un gros grain de sel - je sais que je le ferais si j'étais eux.
mmdanziger
7

Je doute fort que la date de publication d'un article ou d'un article soit basée sur l' <lastmod>entrée dans un sitemap XML (comme d'autres l'ont suggéré) ou l'en-tête HTTP Last-Modified d'ailleurs. Un plan Sitemap XML est uniquement consultatif et ne fait pas autorité. La dernière date de modification d'un document n'est probablement pas la même que la date de publication (originale) d'un article. Et, comme je l'ai mentionné dans mon commentaire en haut de la page, la dernière date de modification d'un document est probablement plus importante pour la mise en cache et peut - être pour déterminer les taux d'exploration. L'en-tête HTTP Last-Modified des pages générées dynamiquement est souvent très proche de la date / heure réelle (comme c'est le cas pour les blogs WordPress).

Un flux RSS / Atom, d'autre part, contient cette pépite d'informations spécifique. Et en effet, sur les sites Wordpress qui n'incluent pas la date de publication dans le contenu, la date de publication apparaît toujours dans les résultats de recherche de Google. Et pour autant que je sache, cela correspond à la date dans le flux RSS.

EDIT # 1: Cependant, un flux RSS ne contient pas nécessairement toutes les pages. Dans la plupart des cas, il ne doit contenir que les pages mises à jour les plus récentes ou les plus récentes. Mais il n'y a aucune raison pour que Google oublie ce qu'il a déjà lu, et la fourniture du contenu de cette page n'a pas changé, pas plus que la dernière date modifiée.

S'il n'y a pas de flux RSS, je pense que Google est assez intelligent pour analyser le contenu de la page. Surtout si les dates sont balisées «sémantiquement» à l'aide de microformats . Il est parfaitement possible que Google considère ce qui suit comme la date de publication faisant autorité pour un article dans lequel il est contenu:

<abbr class="published" title="2010-08-27T15:45:00-0700">
Friday, August 27th, 2010
</abbr>

Google lit certainement les microformats - hCard, hReview, etc.

Juste pour ajouter, je ne pense pas que Google indiquerait une date de publication à moins qu'il ne soit en mesure de trouver quelque chose d'autorité qui suggérerait cela. Cela ne va pas déduire une «date de publication» sur les données spéculatives, car une «date de publication» incorrecte ne sert à personne et Google obtiendrait beaucoup de bâton pour cela!

Et juste pour mémoire (si @Tom suggère le contraire :) Je pense que les articles / articles devraient avoir la date de publication visiblement affichée. Beaucoup ne le font pas, et cela peut être frustrant pour le lecteur, en particulier lors de recherches sur des problèmes technologiques et vous constatez qu'après avoir lu la moitié de l'article, il est obsolète!

EDIT # 2: J'ai depuis ressenti une gêne similaire que @mmdanziger détaille dans sa réponse. Sur l'un de mes anciens sites, j'ai le texte du formulaire "Site Dernière mise à jour le 17 juin 2012" (non marqué de manière spéciale) en haut de chaque page (écrit sur la page avec JavaScript !!). Cette même date a été choisie par Google et apparaît maintenant à côté de plusieurs pages (mais pas toutes) qui apparaissent dans le SERPS - ce n'est certainement pas la date de publication de la page. Il semblerait que Google soit simplement en train de supprimer la page pour une chaîne du formulaire "dernière mise à jour ( chaîne de données )" (après avoir traité le JavaScript !!). Ce site particulier n'a pas de flux RSS. Le site a un fichier Sitemap.xml mais les dates sont différentes.

J'ai également remarqué un comportement similaire sur d'autres sites.

MrWhite
la source
Comment reconnaît-il la date correcte à partir de cela? <div class="footer"> <div class="links"> April 24, 2011 | <a href=...C'est le SEUL endroit qui fait référence à la date de publication de mon message, et Google le trouve et s'affiche correctement dans les résultats de recherche
Can Poyrazoğlu
Y a-t-il quelque chose de spécifique dans l'ancre qui la suit? Là encore, ce n'est peut-être pas le cas. Avez-vous également un flux RSS (lié aux balises META du document)?
MrWhite
Je cherchais la réponse "comment Google détermine-t-il la date?" mais j'ai remarqué la même chose! Google essaie de trouver une chaîne de temps dans la page elle-même plutôt que dans l'en-tête modifié en dernier ou Sitemap.xml <lastmod>! Merci d'avoir confirmé mes pensées!
evilReiko
5

Je pense que Google utilise le plan du site et le flux RSS pour reconnaître la date de publication .. vous pouvez implémenter cette fonctionnalité dans votre CMS en créant un plan de site xml conformément aux normes .

<lastmod>2011-08-18</lastmod>
Vamsi Krishna B
la source
2

Selon Jonh Mueller de Google:

Nous utilisons une variété de signaux pour déterminer la date à afficher ou s'il est logique d'en afficher une du tout; ce n'est pas lié à un attribut spécifique.

John Mueller - Twitter

Cependant, je trouve très probable que Google recherche des dates sur les pages Web aux endroits suivants:

  • À la vue de la page, en utilisant l'apprentissage automatique
  • Données structurées de Schema.org, surtout si les données peuvent également être trouvées à la vue de la page
Maximillian Laumeister
la source
1

Je pense qu'il recherche intelligemment toutes les dates sur la page et lorsqu'il est convaincu que c'est la date pertinente, il l'utilise.

C'est un peu difficile parfois car je pense que cela peut avoir un impact négatif sur la capacité de clic du SERP, je suppose que cela peut avoir un impact positif temporaire s'il s'agit d'un article / post récent, mais je suis assez sûr que mes sites seraient mieux sans lui (Les chercheurs Google ne seraient peut-être pas mieux sans cela!)

Il n'y a pas d'options pour le contrôler via Google, uniquement avec vos propres méthodes. Vous pouvez soit:

  • Remplacez les dates par des images générées dynamiquement pour empêcher Google de les découvrir, mais cela peut entraîner d'autres problèmes tels que l'alignement visuel / l'affichage cohérent des polices / l'accessibilité, etc.
  • Supprimez toutes les dates des pages (cela peut encore être frustrant pour les visiteurs / utilisateurs lorsqu'ils souhaitent découvrir l'âge d'une source si vous disposez d'informations pertinentes).

Pour ces raisons, je voudrais simplement l'ignorer.

Tom Gullen
la source
Je n'essaie pas de supprimer la date :) J'essaie d' ajouter la fonctionnalité de date à un nouveau site que je suis en
train de