Google a mis en cache des milliers de fichiers PDF de mon site Web qui ne devraient pas être publics. J'ai mis à jour mes en-têtes, mais je dois supprimer le cache Quick View existant.
L'outil Google pour les webmasters me permet de les supprimer un par un, mais ce n'est clairement pas pratique compte tenu de la quantité de fichiers à supprimer.
Quelqu'un sait-il comment supprimer par lots des fichiers PDF du cache Google? Idéalement, je voudrais un moyen de supprimer tout ce qui correspond à "site: mysite.com * .pdf"
Réponses:
On dirait que vous avez déjà compris comment demander la suppression d'une seule URL , ce qui est évidemment hors de question ici. La deuxième étape de ce processus vous permet également de demander la suppression d'un répertoire entier , si les URL de fichier sont prévisibles de cette manière particulière. (Si vous avez des milliers de fichiers PDF, j'espère qu'ils sont au moins quelque peu organisés.) Sinon, vous n'avez presque pas d'options, malheureusement.
la source
J'ai récemment eu un piratage qui a ajouté plusieurs milliers de fausses pages à mon site.
J'ai soumis un plan du site corrigé à la Google Search Console (anciennement appelée Outils pour les webmasters) et j'ai converti tous les liens en 410, mais Google avait toujours la plupart d'entre eux indexés.
J'ai utilisé WebMaster Tools - Bulk URL removal Chrome Extension pour soumettre automatiquement les URL à supprimer. Il s'agit essentiellement d'un script qui prend une liste des URL puis les soumet pour vous, une à la fois. Il vous faudra des heures pour tous les soumettre, mais au moins vous n'aurez pas à le faire vous-même. Voici un article sur la façon de l'utiliser .
Vous pouvez obtenir une liste des URL que Google indexe en téléchargeant les données directement à partir de la Search Console. Accédez à État> Couverture de l'index et sélectionnez les résultats valides, puis faites défiler vers le bas. Vous verrez que Google a indexé une tonne d'URL qui ne figurent pas dans votre sitemap. Vous pouvez télécharger les 1000 premiers résultats. Il existe apparemment un moyen détourné de les obtenir tous, pas seulement les mille premiers, mais cela implique des appels d'API d'Excel. J'ai juste attendu quelques jours entre chaque millier, alors qu'ils sortaient lentement de l'indice.
Un autre moyen consiste à demander à un plugin WP de créer un plan du site, puis de filtrer les PDF ou tout ce que vous visez. Vous devrez probablement faire un peu de copier / coller / supprimer manuellement ici. Juste pour être sûr, j'ai lentement fait défiler ma liste d'environ 2 700 URL de spam et supprimé les URL légitimes. Cela n'a pris que 20 minutes environ.
Si vous n'essayez pas de neutraliser définitivement quelque chose, comme le spam, et essayez plutôt d'obscurcir des ressources premium, vous devez utiliser d'autres méthodes pour empêcher l'indexation de ces ressources, comme un fichier robots. Mais s'il s'avère que Google n'a pas écouté ou que vous avez laissé tomber la balle, vous pouvez au moins maintenant résoudre le problème et les supprimer de l'index en quelques jours seulement.
Dans ma situation particulière, je me demande pourquoi Google n'a pas de bouton de machine à remonter le temps, ni annuler, ni réinitialiser. L'idée est que je peux dire à Google que le site a été piraté il y a quelques jours, mais nous l'avons réparé, donc annulez le dernier x nombre de jours d'exploration et d'indexation. Mais cela serait trop facile.
la source
Si les fichiers "ne doivent pas être publics", ils doivent être sur Internet public. Vous pouvez supprimer les fichiers des listes Google (via robots.txt et d'autres méthodes), mais si les fichiers sont toujours là, tout le monde peut toujours les télécharger.
Vous devez les garder derrière une sorte d'authentification. Par exemple, déplacez les fichiers hors du répertoire Web public et servez-les à partir d'un script qui vérifie si l'utilisateur est valide en premier.
la source