Comment les grands sites (par exemple Wikipédia) traitent-ils les bots qui sont derrière d'autres masqueurs IP? Par exemple, dans mon université, tout le monde recherche sur Wikipedia, ce qui lui donne une charge importante. Mais, pour autant que je sache, Wikipédia ne peut connaître que l'IP du routeur universitaire, donc si je mets en place un bot "déchaîné" (avec seulement un petit délai entre les requêtes), Wikipédia peut-il interdire mon bot sans interdire toute l'organisation? un site peut-il réellement interdire une adresse IP derrière un réseau organisationnel?
web-crawler
user4052054
la source
la source
Réponses:
Non, ils interdiront l'IP publique et tous ceux qui sont NAT à cette IP seront également interdits.
Bien qu'au moins À la pile si nous pensons que nous allons interdire un collège ou quelque chose comme ça, nous contacterons leur contact abusif pour les amener à traquer le délinquant et à arrêter le problème.
la source
Un site ne peut pas interdire directement une adresse IP qui se trouve derrière NAT. Il pourrait agir sur les adresses IP transmises via des proxy HTTP non anonymisés - lorsqu'un tel proxy transmet une demande, il ajoute généralement cette adresse à un en-tête X-Forwarded-For, donc si l'accès à partir de votre réseau privé doit réellement passer par un tel proxy l'IP interne pourrait être exposée; Cependant, la plupart des sites (wikipedia inclus) ne feraient pas confiance aux informations contenues dans cet en-tête de toute façon, car il est facile d'usurper pour impliquer des adresses IP innocentes ou échapper à des interdictions.
Il existe cependant d'autres techniques qui tentent d'identifier de manière unique les utilisateurs indépendamment de l'adresse IP. Vous pouvez interroger un navigateur Web pour de nombreuses informations à son sujet et sur le système sur lequel il fonctionne, comme l'agent utilisateur, la résolution d'écran, la liste des plugins, etc. - voir https://github.com/carlo/jquery- empreinte digitale du navigateurpour un exemple de cela dans la pratique. Vous pouvez utiliser ces empreintes digitales pour contrôler l'accès, bien que, selon la conception du site, vous puissiez interagir avec celui-ci sans vous engager dans le processus de prise d'empreintes digitales, et même si vous ne le pouvez pas, un bot pourrait fournir des données parasites et randomisées afin d'éviter d'avoir un empreinte digitale cohérente si vous savez que ce type de protection est en place. Cette méthode de contrôle court également le risque de faux positifs, en particulier en ce qui concerne les appareils mobiles où il y aura probablement un grand nombre de clients exécutant des clients de stock identiques sur du matériel de stock identique (la plupart des gens sur un modèle spécifique d'iPhone exécutant une version spécifique d'iOS). , par exemple, obtiendrait probablement la même empreinte digitale).
la source
Généralement, l'adresse IP n'est pas une information suffisante pour une interdiction correcte. Les réseaux avancés fonctionnent donc en haut de la pile réseau.
Une attaque par déni de service (DoS) (que vous craignez de créer) est généralement gérée en limitant le débit de la configuration de connexion TCP initiale. Cela signifie que les utilisateurs légitimes qui sont prêts à attendre passeront au travers tandis que ceux qui essaient simplement de consommer les ressources du serveur sont ralentis au point de devenir inoffensifs. C'est là que DoS a ensuite évolué vers une attaque DoS distribuée (DDoS).
Une fois que vous êtes connecté au serveur, vous pouvez effectuer autant de demandes que vous le souhaitez, l'administration du serveur Web peut configurer le nombre de demandes à traiter.
Le serveur Web peut probablement gérer plus de capacité que votre passerelle de réseau local de toute façon, c'est probablement le facteur limitant dans votre cas d'utilisation. Je parie que les administrateurs de votre réseau universitaire viendraient frapper à votre porte avant Wikipédia.
Il est important d'être un bon internaute, donc j'ajouterais un code de limitation de taux à un bot.
Il convient également de noter que Wikipédia propose des vidages de données afin que le chalutage du site ne soit pas vraiment nécessaire.
la source