Comprendre les statistiques de Google Crawl

11

J'ai lancé mon site Web en janvier 2011 et il est indexé dans Google, ce qui est génial - environ 300 pages de contenu jusqu'à présent. J'essaie de comprendre ce qui s'est passé les statistiques de l'exploration vers la fin de juin et le début de juillet. Qu'est-ce qui a provoqué la montée massive? Qu'est-ce que cela signifie pour l'avenir? Y a-t-il autre chose que je devrais faire?


entrez la description de l'image ici

Ubique
la source

Réponses:

2

Si vous pensez qu'ils surexplorent votre site (peut-être même qu'il manque un contenu plus profond), vous devez vous assurer que vos en-têtes HTTP renvoient de bonnes valeurs pour des choses comme le temps `` lastmodified '', etc. Il se peut que Googlebot surestime à quel point votre site change . En prime, votre site se comportera mieux en ce qui concerne la mise en cache (qu'il s'agisse d'un proxy ou d'un navigateur) et se sentira donc un peu plus rapidement.

Vous feriez bien d'étudier quelles URL sont explorées (en examinant les journaux de votre serveur). S'ils ré-analysent la même URL encore et encore, vous avez certainement un problème. Une variante courante à ce sujet est si vous avez une page qui peut être affichée de différentes manières à l'aide de variables de demande. Googlbot peut essayer d'analyser toutes les combinaisons possibles de ces variables.

Un exemple que j'ai rencontré en tant qu'opérateur d'exploration était une page qui avait une liste de vingt en-têtes, dont toute combinaison pouvait être développée. Fondamentalement, cette page avait 2 ^ 20 URL différentes!

Assurez-vous que Googlebot n'est pas bloqué en train d'explorer essentiellement la même page encore et encore avec des paramètres trivialement différents (je l'ai vu se rattraper).

Kris
la source
Merci pour cela, j'ai remarqué aujourd'hui qu'il y avait un autre «pic» d'activité, alors je suis de plus en plus préoccupé car les statistiques d'exploration de Google ont exploré 1 000 pages de contenu - je n'ai que 300 pages! Comment puis-je vérifier les pages que Google ré-analyse encore et encore? Et comment puis-je vérifier que mes en-têtes HTTP retournent de bonnes valeurs - y a-t-il une application de test?
Ubique
Les journaux de votre serveur devraient vous indiquer quelles pages Google explore. Quant aux en-têtes HTTP, il existe un certain nombre de plugins Firefox. Personnellement, j'utilise Firebug.
Kris
1

Je suppose que Google modifie le taux d'exploration en fonction de l'âge du site, de la popularité (liens vers votre site), du balisage et de l'en-tête, des plans de site appropriés, etc. (au moins 2 semaines avant le changement).

Donc, lorsque j'ai publié mon blog il y a 2 ans, il a fallu des mois à Google pour indexer tout le contenu et des semaines pour indexer les nouveaux messages. Maintenant, je vois le message dans les résultats de recherche le jour même où je le publie.

C'est simple, google n'aime pas les nouveaux sites mais respecte les anciens.

Anton
la source