Google cache-t-il le fichier robots.txt?

17

J'ai ajouté un fichier robots.txt à l'un de mes sites il y a une semaine, ce qui aurait dû empêcher Googlebot de tenter de récupérer certaines URL. Cependant, ce week-end, je peux voir Googlebot charger ces URL exactes.

Google cache-t-il le fichier robots.txt et, dans l'affirmative, le devrait-il?

Quog
la source

Réponses:

13

Je vous recommande fortement d'enregistrer votre site avec Google Search Console (auparavant Google Webmaster Tools) . Il y a une section d'accès au robot sous la configuration du site qui vous indiquera quand votre robots.txt a été téléchargé pour la dernière fois. L'outil fournit également de nombreux détails sur la façon dont les robots d'exploration voient votre site, ce qui est bloqué ou ne fonctionne pas et où vous apparaissez dans les requêtes sur Google.

D'après ce que je peux dire, Google télécharge souvent le fichier robots.txt . Le site Google Search Console vous permettra également de supprimer spécifiquement les URL de l'index, afin que vous puissiez supprimer celles que vous bloquez maintenant.

danivovich
la source
2
J'ai vérifié les outils pour les webmasters: le fichier robots.txt est valide et il a été récupéré le plus récemment 17 heures avant la dernière visite de ces pages par googlebot. Je soupçonne que c'est une question de propagation à travers le réseau de google - finalement tous les serveurs googlebot rattraperont les instructions robots.txt.
Quog
Le robot Google n'utilise pas le fichier robots.txt aussi souvent que les mises à jour sont signalées dans la Search Console. Cela fait quatre semaines que j'ai fait une mise à jour, et le robot Google utilise toujours un mauvais robots.txt - et il détruit notre trafic et nos classements.
Corporate Geek
3

Persévérer. Je suis passé de robots.txt à meta noindex, nofollow. Afin de faire fonctionner la méta, les adresses bloquées dans robots.txt devaient d'abord être débloquées.

J'ai fait cela brutalement en supprimant complètement le fichier robots.txt (et en le supprimant dans le webmaster de Google).

Le processus de suppression de robots.txt, tel que vu dans l'outil pour webmasters (nombre de pages bloquées), a pris 10 semaines, dont l'essentiel n'a été supprimé par Google qu'au cours des 2 dernières semaines.

araldh
la source
J'ai tendance à être d'accord avec toi. Nous avons fait une erreur et mis à jour à tort le fichier robots.txt. Google l'a mis en cache et l'utilise quatre semaines après avoir corrigé l'erreur et l'a remplacé par un nouveau robots.txt. J'ai même soumis manuellement une demande de rafraîchissement dans les outils Google pour les webmasters et ... rien. C'est vraiment mauvais car cela a entraîné une perte de trafic et de classement. :(
Corporate Geek
2

Oui, Google mettra évidemment en cache le fichier robots.txt dans une certaine mesure - il ne le téléchargera pas chaque fois qu'il souhaite consulter une page. Combien de temps il le met en cache, je ne sais pas. Cependant, si vous avez un long en-tête Expires défini, Googlebot peut laisser beaucoup plus de temps pour vérifier le fichier.

Un autre problème pourrait être un fichier mal configuré. Dans les outils pour les webmasters que danivovich suggère, il y a un vérificateur robots.txt . Il vous indiquera quels types de pages sont bloquées et lesquelles conviennent.

Chèvre mécontente
la source
Voir le commentaire sur cette réponse webmasters.stackexchange.com/questions/2272/…
Quog
2
@Quog: Voir cette vidéo récente: youtube.com/watch?v=I2giR-WKUfY Matt Cutts suggère que le fichier robots.txt soit téléchargé une fois par jour ou environ toutes les 100 demandes.
DisgruntledGoat
2

La documentation de Google indique qu'ils mettent généralement en cache robots.txt pendant une journée, mais peuvent l'utiliser plus longtemps s'ils obtiennent des erreurs lors de la tentative de rafraîchissement.

Une demande robots.txt est généralement mise en cache jusqu'à un jour, mais peut être mise en cache plus longtemps dans les situations où l'actualisation de la version mise en cache n'est pas possible (par exemple, en raison de délais d'attente ou d'erreurs 5xx). La réponse mise en cache peut être partagée par différents robots. Google peut augmenter ou diminuer la durée de vie du cache en fonction des en-têtes HTTP Cache-Control max-age.

Stephen Ostermiller
la source
1

Oui. Ils disent qu'ils le mettent généralement à jour une fois par jour, mais certains ont suggéré qu'ils pourraient également le vérifier après un certain nombre de visites de page (100?) Afin que les sites les plus occupés soient vérifiés plus souvent.

Voir /webmasters//a/29946 et la vidéo partagée par @DisgruntedGoat ci-dessus http://youtube.com/watch?v=I2giR-WKUfY .

studgeek
la source
1

D'après ce que je peux voir sur le cache accessible aux utilisateurs, ils doivent taper l'URL de votre fichier robots.txt dans une recherche Google, puis cliquer sur la petite flèche déroulante verte et cliquer sur "caché" (voir l'image ci-dessous) cela vous donnera la dernière version de cette page à partir des serveurs de Google.

entrez la description de l'image ici

sam
la source
-2

Vous pouvez demander sa suppression à l'aide de l'outil de suppression d'URL de Google .

KOZASHI SOUZA
la source
Cela ne répond pas à la question.
MrWhite
pourquoi pas la réponse?
KOZASHI SOUZA
Parce que la question concerne spécifiquement le fichier robots.txt, la mise en cache et l' exploration des URL. Un des résultats pourrait être que les URL ne sont pas indexées, mais ce n'est pas la question. (L'outil de suppression d'URL de Google n'est également qu'un correctif "temporaire", il y a d'autres étapes que vous devez faire pour le rendre permanent.)
MrWhite