J'avais quelques fichiers privés dans un répertoire de mon dossier scolaire. Vous pouvez voir que les fichiers existaient en accédant à myschool.edu/myusername/myfolder, mais en essayant d'accéder aux fichiers eux-mêmes via myschool.edu/myusername/myfolder/myfile.html renvoie une erreur 403.
Et pourtant, Google a réussi à récupérer le contenu de ces fichiers privés et à les stocker dans son cache! Comment est-ce possible? [J'ai depuis supprimé ces fichiers, je suis donc curieux de savoir comment Google a réussi à le faire.]
web-crawlers
security
googlebot
grautur
la source
la source
Réponses:
La raison la plus probable est que les pages ne renverront pas d'en-tête 403.
Vous pouvez vérifier cela à l'aide de la barre d'outils des développeurs Web dans Firefox ou Chrome. L'outil se trouve sous "Informations" -> "Afficher les en-têtes de réponse".
De plus, la façon dont je crée mes pages d'erreur est la suivante:
<?php header("Location: /error403.php",TRUE,301); ?>
Dans mon .htaccess, j'ai mis ce qui suit:
Options -Indexes
ErrorDocument 403 /403.php
Cela ajoute toutes les redirections de manière appropriée et me garantit que je reçois du jus de mes pages d'erreur.
Cela peut en fait être étendu de manière extrêmement cool si votre site Web dispose d'un moteur de recherche qui utilise les demandes GET.
la source