Je vous recommande fortement d'enregistrer votre site avec Google Search Console (auparavant Google Webmaster Tools) . Il y a une section d'accès au robot sous la configuration du site qui vous indiquera quand votre robots.txt a été téléchargé pour la dernière fois. L'outil fournit également de nombreux détails sur la façon dont les robots d'exploration voient votre site, ce qui est bloqué ou ne fonctionne pas et où vous apparaissez dans les requêtes sur Google.
D'après ce que je peux dire, Google télécharge souvent le fichier robots.txt . Le site Google Search Console vous permettra également de supprimer spécifiquement les URL de l'index, afin que vous puissiez supprimer celles que vous bloquez maintenant.
Persévérer. Je suis passé de robots.txt à meta noindex, nofollow. Afin de faire fonctionner la méta, les adresses bloquées dans robots.txt devaient d'abord être débloquées.
J'ai fait cela brutalement en supprimant complètement le fichier robots.txt (et en le supprimant dans le webmaster de Google).
Le processus de suppression de robots.txt, tel que vu dans l'outil pour webmasters (nombre de pages bloquées), a pris 10 semaines, dont l'essentiel n'a été supprimé par Google qu'au cours des 2 dernières semaines.
la source
Oui, Google mettra évidemment en cache le fichier robots.txt dans une certaine mesure - il ne le téléchargera pas chaque fois qu'il souhaite consulter une page. Combien de temps il le met en cache, je ne sais pas. Cependant, si vous avez un long en-tête Expires défini, Googlebot peut laisser beaucoup plus de temps pour vérifier le fichier.
Un autre problème pourrait être un fichier mal configuré. Dans les outils pour les webmasters que danivovich suggère, il y a un vérificateur robots.txt . Il vous indiquera quels types de pages sont bloquées et lesquelles conviennent.
la source
La documentation de Google indique qu'ils mettent généralement en cache robots.txt pendant une journée, mais peuvent l'utiliser plus longtemps s'ils obtiennent des erreurs lors de la tentative de rafraîchissement.
la source
Oui. Ils disent qu'ils le mettent généralement à jour une fois par jour, mais certains ont suggéré qu'ils pourraient également le vérifier après un certain nombre de visites de page (100?) Afin que les sites les plus occupés soient vérifiés plus souvent.
Voir /webmasters//a/29946 et la vidéo partagée par @DisgruntedGoat ci-dessus http://youtube.com/watch?v=I2giR-WKUfY .
la source
D'après ce que je peux voir sur le cache accessible aux utilisateurs, ils doivent taper l'URL de votre fichier robots.txt dans une recherche Google, puis cliquer sur la petite flèche déroulante verte et cliquer sur "caché" (voir l'image ci-dessous) cela vous donnera la dernière version de cette page à partir des serveurs de Google.
la source
Vous pouvez demander sa suppression à l'aide de l'outil de suppression d'URL de Google .
la source