Depuis la mi-août 2014 environ, plusieurs serveurs Google téléchargent tous les (très) gros fichiers binaires sur mon site Web, environ une fois par semaine. Les adresses IP apparaissent toutes comme appartenant à Google et ressemblent à ceci: google-proxy-66-249-88-199.google.com. Ce sont des demandes GET, et elles affectent considérablement le trafic de mon serveur.
Avant cela, je n'avais pas vu de trafic provenant de ces IP proxy de Google, donc cela semble être quelque chose de relativement nouveau. Je vois toutes sortes de trafic provenant d'autres adresses IP Google, toutes des requêtes googlebot et HEAD uniquement.
Je ne serais pas inquiet à ce sujet, sauf que tous ces fichiers sont téléchargés par Google environ toutes les semaines. La bande passante utilisée commence à devenir excessive.
J'ai supposé que, puisque bon nombre de ces fichiers sont des exécutables Windows, Google les télécharge peut-être pour effectuer des analyses de logiciels malveillants. Même si c'est vrai, cela doit-il vraiment se produire chaque semaine?
Exemple de trafic provenant des IP proxy Google en novembre jusqu'à présent:
google-proxy-64-233-172-95.google.com: 8.09 GB
google-proxy-66-102-6-104.google.com: 7.50 GB
google-proxy-66-249-83-245.google.com: 3.35 GB
google-proxy-66-249-84-131.google.com: 1.54 GB
google-proxy-66-249-83-131.google.com: 4.98 GB
google-proxy-66-249-83-239.google.com: 2.48 GB
google-proxy-66-249-88-203.google.com: 2.94 GB
google-proxy-66-249-88-201.google.com: 2.58 GB
google-proxy-66-249-88-199.google.com: 4.89 GB
Mise à jour # 1: j'ai oublié de mentionner que les fichiers en question sont déjà dans le fichier robots.txt du site. Pour faire en sorte que la configuration robots.txt fonctionne correctement, j'ai également utilisé le testeur robots.txt dans Google Webmaster Tools, qui montre que les fichiers sont définitivement bloqués pour tous les robots Google, à une exception près: Adsbot-Google. Je ne sais pas non plus de quoi il s'agit. ET j'ai cherché sur Google certains des fichiers, et ils n'apparaissent PAS dans les résultats de recherche.
Mise à jour # 2: Exemple: entre 5h12 et 5h18 PST le 17 novembre, environ une demi-douzaine d'adresses IP (toutes google-proxy) ont effectué des GET sur tous les fichiers binaires en question, 27 au total. Le 4 novembre entre 14h09 et 14h15 PST, ces mêmes IP ont essentiellement fait la même chose.
Mise à jour # 3: À ce stade, il semble clair que même si ce sont des adresses IP Google valides, elles font partie du service proxy de Google et non du système d'exploration de sites Web de Google. Parce que ce sont des adresses proxy, il n'y a aucun moyen de déterminer où les demandes GET sont réellement originaires, ou si elles proviennent d'un endroit ou de plusieurs. Compte tenu de la nature sporadique des EEG, il ne semble pas qu'il se passe quoi que ce soit de néfaste; il est probable que quelqu'un décide de télécharger tous les fichiers binaires tout en utilisant le service proxy de Google. Malheureusement, ce service semble être complètement non documenté, ce qui n'aide pas. Du point de vue d'un administrateur de site, les procurations sont plutôt ennuyeuses. Je ne veux pas les bloquer, car ils ont des utilisations légitimes. Mais ils peuvent également être mal utilisés.
Réponses:
J'ai fait des recherches pour cette question et j'ai trouvé des minces intéressantes, telles que:
1. Est-ce un faux robot? -> /programming/15840440/google-proxy-is-a-fake-crawler-for-example-google-proxy-66-249-81-131-google-c
Conclusion de l'utilisateur:
Nous savons que l'aperçu en direct ne télécharge pas vos fichiers, alors passons à la question 2.
2. Fait-il partie des services Google? -> Ce proxy Google est-il un faux robot: google-proxy-66-249-81-131.google.com?
Conclusion:
Ma supposition à ce sujet est la même que ci-dessus. Quelqu'un essaie d'utiliser un service Google pour accéder à vos fichiers, comme un traducteur.
Si, comme vous le dites, les fichiers sont déjà bloqués par le fichier robots.txt, il ne peut s'agir que d'une demande manuelle.
EDIT: Pour répondre de manière approfondie au commentaire OP:
Les robots d'exploration peuvent-ils ignorer le fichier robots.txt? Oui. Voici une liste, je ne pense pas que Google le fasse, ce qui signifie qu'il peut s'agir d'autres robots utilisant des proxys Google.
Cela peut-il être un mauvais robot? Oui, et pour cela je recommande:
.htaccess interdiction:
Ce code peut interdire les IP ou les agents utilisateurs.
Ou utilisez un piège à araignée, présenté ici
Je continue de penser qu'il s'agit d'une demande manuelle.
la source