Pourriez-vous s'il vous plaît me faire savoir comment bloquer ces URL robots.txt
pour que Googlebots arrête l'indexation?
http://www.example.com/+rt6s4ayv1e/d112587/ia0g64491218q
Mon site Web a été piraté, ce qui est maintenant récupéré, mais le pirate a indexé 5000 URL dans Google et maintenant j'obtiens l'erreur 404 sur les liens générés de manière aléatoire, commençant /+
surtout par le lien ci-dessus.
Je me demandais s'il existe un moyen rapide autre que de supprimer manuellement ces URL des outils Google pour les webmasters?
Pouvons-nous bloquer cela avec robots.txt
des URL commençant par +
signe?
+
(plus) dans le chemin URL, c'est juste un caractère comme les autres.Réponses:
Un 404 est probablement préférable au blocage
robots.txt
si vous souhaitez que ces URL soient supprimées des moteurs de recherche (par exemple, Google). Si vous bloquez l'exploration, l'URL peut toujours rester indexée. (Notez que lesrobots.txt
blocs bloquent principalement l' exploration , pas l' indexation .)Si vous souhaitez "accélérer" la désindexation de ces URL, vous pouvez peut-être diffuser un "410 Gone" au lieu du "404 Not Found" habituel. Vous pouvez faire quelque chose comme ceci avec mod_rewrite (Apache) dans votre
.htaccess
fichier racine :la source
Je vais répondre à la 2e question.
https://developers.google.com/webmasters/hacked/docs/clean_site
Google indique explicitement que la suppression via Google Search Console (le nouveau nom des outils pour les webmasters) est la plus rapide.
Mais ils comprennent également que cela n'est pas possible dans certains cas:
Ainsi, bien que vous puissiez bloquer ces pages dans robots.txt - vous ne prenez aucune des mesures correctives comme expliqué par Google.
la source
devrait faire ce que vous voulez. Il indiquera au robot de ne pas demander toutes les URL commençant par a
+
.la source
Si vous voulez vraiment utiliser robots.txt, ce serait une réponse simple à votre question. J'ai également inclus un lien vers où vous pouvez lire les spécifications sur robots.txt.
En savoir plus sur les spécifications de robots.txt
Mais une autre alternative pourrait être d'utiliser .htaccess pour créer une règle de réécriture (si vous utilisez Apache, etc.) pour les attraper et peut-être dire à Google un meilleur code HTTP de retour ou simplement rediriger le trafic vers une autre page.
la source
*
(astérisque) à la fin du chemin URL. Il doit être supprimé pour une meilleure compatibilité avec les araignées.robots.txt
correspond déjà au préfixe, il en/+*
va de même/+
pour les bots qui prennent en charge les caractères génériques, et pour les bots qui ne prennent pas en charge les caractères génériques,/+*
ils ne correspondront pas du tout.