Le site a été piraté, vous devez supprimer toutes les URL commençant par + de Google, utiliser robots.txt?

15

Pourriez-vous s'il vous plaît me faire savoir comment bloquer ces URL robots.txtpour que Googlebots arrête l'indexation?

http://www.example.com/+rt6s4ayv1e/d112587/ia0g64491218q

Mon site Web a été piraté, ce qui est maintenant récupéré, mais le pirate a indexé 5000 URL dans Google et maintenant j'obtiens l'erreur 404 sur les liens générés de manière aléatoire, commençant /+surtout par le lien ci-dessus.

Je me demandais s'il existe un moyen rapide autre que de supprimer manuellement ces URL des outils Google pour les webmasters?

Pouvons-nous bloquer cela avec robots.txtdes URL commençant par +signe?

unor
la source
2
Il n'y a rien de spécial à propos de +(plus) dans le chemin URL, c'est juste un caractère comme les autres.
MrWhite
Vous pouvez rediriger Apache (en .htaccess) vers un fichier ou un répertoire dont robots.txt interdit l'accès aux robots
Mawg dit de rétablir Monica
@Mawg À quoi ça sert?
MrWhite
Pour empêcher les robots de bien se comporter?
Mawg dit de réintégrer Monica
2
Indépendamment du problème avec les URL, vous voudrez peut-être lire Comment gérer un serveur compromis?
Jonas Schäfer

Réponses:

30

Mon site Web a été piraté, ce qui est maintenant récupéré, mais le pirate a indexé 5000 URL dans Google et maintenant j'obtiens l'erreur 404

Un 404 est probablement préférable au blocage robots.txtsi vous souhaitez que ces URL soient supprimées des moteurs de recherche (par exemple, Google). Si vous bloquez l'exploration, l'URL peut toujours rester indexée. (Notez que les robots.txtblocs bloquent principalement l' exploration , pas l' indexation .)

Si vous souhaitez "accélérer" la désindexation de ces URL, vous pouvez peut-être diffuser un "410 Gone" au lieu du "404 Not Found" habituel. Vous pouvez faire quelque chose comme ceci avec mod_rewrite (Apache) dans votre .htaccessfichier racine :

RewriteEngine On
RewriteRule ^\+ - [G]
MrWhite
la source
14

Je vais répondre à la 2e question.

Je me demandais s'il y avait un moyen rapide autre que de supprimer manuellement ces URL des outils Google pour les webmasters?

https://developers.google.com/webmasters/hacked/docs/clean_site

Google indique explicitement que la suppression via Google Search Console (le nouveau nom des outils pour les webmasters) est la plus rapide.

Si le pirate a créé des URL entièrement nouvelles et visibles par l'utilisateur, vous pouvez supprimer ces pages plus rapidement des résultats de recherche Google en utilisant la fonction Supprimer les URL de la Search Console. Il s'agit d'une étape entièrement facultative. Si vous supprimez simplement les pages, puis configurez votre serveur pour renvoyer un code d'état 404, les pages tomberont naturellement de l'index de Google avec le temps.

Mais ils comprennent également que cela n'est pas possible dans certains cas:

La décision d'utiliser la suppression d'URL dépendra probablement du nombre de nouvelles pages indésirables créées (trop de pages peuvent être lourdes à inclure dans Supprimer les URL), ainsi que des dommages potentiels que ces pages pourraient causer aux utilisateurs. Pour éviter que les pages soumises via la suppression d'URL n'apparaissent dans les résultats de recherche, assurez-vous que les pages sont également configurées pour renvoyer une réponse 404 Fichier introuvable pour les URL indésirables / supprimées.

Ainsi, bien que vous puissiez bloquer ces pages dans robots.txt - vous ne prenez aucune des mesures correctives comme expliqué par Google.

pastepotpete
la source
4
User-Agent: *  
Disallow: /+

devrait faire ce que vous voulez. Il indiquera au robot de ne pas demander toutes les URL commençant par a +.

Sven
la source
2

Si vous voulez vraiment utiliser robots.txt, ce serait une réponse simple à votre question. J'ai également inclus un lien vers où vous pouvez lire les spécifications sur robots.txt.

User-agent: *
Disallow: /+

En savoir plus sur les spécifications de robots.txt

Mais une autre alternative pourrait être d'utiliser .htaccess pour créer une règle de réécriture (si vous utilisez Apache, etc.) pour les attraper et peut-être dire à Google un meilleur code HTTP de retour ou simplement rediriger le trafic vers une autre page.

davidbl
la source
2
Il n'y a pas besoin de *(astérisque) à la fin du chemin URL. Il doit être supprimé pour une meilleure compatibilité avec les araignées. robots.txtcorrespond déjà au préfixe, il en /+*va de même /+pour les bots qui prennent en charge les caractères génériques, et pour les bots qui ne prennent pas en charge les caractères génériques, /+*ils ne correspondront pas du tout.
MrWhite
Vous avez raison, je viens d'écrire cela sur la base de sa question sur Googlebot. Je l'ai édité pour refléter une meilleure compatibilité avec plusieurs robots.
davidbl