Puis-je invoquer Google pour vérifier mon robots.txt?

11

J'ai lu les réponses à cette question, mais elles laissent toujours ma question ouverte: Google cache-t - il le fichier robots.txt?

Je n'ai pas trouvé de moyen dans les outils Google pour les webmasters pour invoquer un nouveau téléchargement de mon robots.txt .

Par une erreur, mon robots.txt a été remplacé par:

User-agent: *
Disallow: /

Et maintenant, tout mon contenu a été supprimé des résultats de recherche Google.

De toute évidence, je suis intéressé à corriger cela dès que possible. J'ai déjà remplacé le fichier robots.txt , mais je ne trouve pas de moyen de faire mettre à jour par Google la version mise en cache.

entrez la description de l'image ici

Der Hochstapler
la source
1
Le simple fait de ne pas autoriser toutes vos pages dans le fichier robots.txt ne devrait généralement pas être suffisant pour les supprimer complètement des résultats de Google, tant que d'autres sites y sont toujours liés.
Ilmari Karonen
Hmm c'est délicat. Les URL ZenCart semblent confondre le robot d'exploration de robots.txt et avant que vous le sachiez, vous avez bloqué des URL que vous ne voulez pas être bloqué. Mon expérience est que vous êtes mieux sans robots.txt, mais en gardant simplement un site Web propre. J'ai perdu de nombreuses places de classement Web en raison de ce blocage d'erreur robots.txt des URL valides. Parce que ZenCart utilise des URL dynamiques, il semble confondre le robot d'indexation robots.txt, ce qui entraîne le blocage des URL que vous ne vous attendez pas à bloquer. Je ne sais pas si cela concerne la désactivation d'une catégorie dans ZenCart, puis le déplacement de produits hors de cette catégorie a

Réponses:

10

Vous ne pouvez pas leur faire télécharger à nouveau votre fichier robots.txt lorsque vous le souhaitez. Google les réexplorera et utilisera les nouvelles données chaque fois qu'il le jugera approprié pour votre site. Ils ont tendance à l'explorer régulièrement, je ne m'attendrais donc pas à ce que votre fichier mis à jour soit long et que vos pages soient à nouveau explorées et réindexées. Gardez à l'esprit que cela peut prendre un certain temps après la découverte du nouveau fichier robots.txt avant que vos pages ne soient ré-explorées et encore plus de temps pour qu'elles réapparaissent dans les résultats de recherche de Google.

John Conde
la source
1
Selon eux, ils vérifient tous les jours environ, mais ils vérifient probablement plus souvent les sites occupés. Voir webmasters.stackexchange.com/a/32949/17430 .
studgeek
1

J'ai rencontré le même problème lorsque j'ai commencé mon nouveau site Web www.satyabrata.comle 16 juin.

J'avais un Disallow: /dans mon robots.txt , exactement comme Oliver. Il y avait également un message d'avertissement dans Google Webmaster Tools concernant les URL bloquées.

Le problème a été résolu hier, le 18 juin. J'ai fait ce qui suit. Je ne sais pas quelle étape a fonctionné.

  1. Santé -> Récupérer en tant que Google: robots.txt et la page d'accueil. Soumettez ensuite à l'index.
  2. Paramètres -> Domaine préféré: afficher l'URL en tant que www.satyabrata.com
  3. Optimisation -> Sitemaps: ajout d'un sitemap XML.

Le message d'avertissement concernant les URL bloquées a disparu et un nouveau fichier robots.txt s'affiche téléchargé dans les outils pour les webmasters de Google.

Actuellement, je n'ai que deux pages indexées dans Google, la page d'accueil et robots.txt . J'ai 10 pages sur le site. J'espère que le reste sera indexé bientôt.

Satyabrata Das
la source
0

J'ai eu un problème où les images ont été déplacées vers un serveur CNAME distinct et un refus a été placé sur le dossier d'images. La façon dont je l'ai compris était de récupérer robots.txt dans la page Web des outils pour les webmasters en tant qu'outil Google. Une fois qu'il m'a dit qu'il avait récupéré et lu robots.txt, je l'ai soumis. Cela a brisé un embargo de trois mois sur la numérisation d'images où Google a signalé qu'il lisait le fichier robots.txt mais ne modifiait pas son araignée pour correspondre aux règles qui ont été modifiées pour autoriser le dossier d'images. En une semaine, les images étaient à nouveau indexées.

Peut-être la peine d'essayer. Google est connu pour être parfois bloqué et ne pas relire le fichier.

Fiasco Labs
la source
Ils ont relu le fichier environ 6 heures après ma publication. Tout est maintenant revenu à la normale.
Der Hochstapler
Ouf! De retour sur la bonne voie alors!
Fiasco Labs
J'ai essayé de demander aux outils du webmaster de récupérer robots.txt, il s'est plaint qu'il ait été refusé par robots.txt :). Donc, apparemment, cette astuce ne fonctionnera pas si vous avez robots.txt faisant un bloc complet.
studgeek
Idem ici ... Demande de robots.txt refusée par robots.txt! Hah!
Kasapo
Whelp, si vous mettez deny à la racine, alors je suppose que vous êtes une sorte de SOL. Dans mon cas, c'était un sous-dossier qui était refusé, donc forcer une relecture de robots.txt à travers les mécanismes fournis fonctionnait réellement.
Fiasco Labs
-1

Dans mon cas, le problème était que j'utilisais un service DNS gratuit appelé fear.org.

(mon domaine gratuit s'est terminé en .us.to)

Une fois que je suis passé à un TLD, il a commencé à fonctionner.

Stefan Monov
la source
Je ne vois pas ce que DNS ou avoir un site gratuit a à voir avec robots.txt ou dire à Google de le récupérer.
Stephen Ostermiller
@StephenOstermiller: Je ne vois pas non plus, mais le fait est que cela a aidé dans mon cas.
Stefan Monov
Cela a aidé Google à vérifier votre robots.txt?
Stephen Ostermiller
@StephenOstermiller: Oui.
Stefan Monov