Comment les sites détectent-ils les robots derrière les proxys ou les réseaux d'entreprise

Comment les grands sites (par exemple Wikipédia) traitent-ils les bots qui sont derrière d'autres masqueurs IP? Par exemple, dans mon université, tout le monde recherche sur Wikipedia, ce qui lui donne une charge importante. Mais, pour autant que je sache, Wikipédia ne peut connaître que l'IP du routeur universitaire, donc si je mets en place un bot "déchaîné" (avec seulement un petit délai entre les requêtes), Wikipédia peut-il interdire mon bot sans interdire toute l'organisation? un site peut-il réellement interdire une adresse IP derrière un réseau organisationnel?

web-crawler user4052054
la source

Le jour où Wikipédia a interdit le Qatar .

isanae

@isanae Connexe: superuser.com/q/1013630/326546

kasperd

Mieux vaut rendre votre bot indiscernable des utilisateurs légitimes

Hagen von Eitzen

Réponses:

Non, ils interdiront l'IP publique et tous ceux qui sont NAT à cette IP seront également interdits.

Bien qu'au moins À la pile si nous pensons que nous allons interdire un collège ou quelque chose comme ça, nous contacterons leur contact abusif pour les amener à traquer le délinquant et à arrêter le problème.

Zypher
la source

Ce que Zypher a dit. S'exprimant comme quelqu'un qui avait l'habitude de retrouver les plaintes envoyées à [email protected], nous étions généralement assez impatients de trouver la personne responsable afin qu'elle débloque la propriété intellectuelle publique. (Les étudiants du Collège adorent partager de la musique entre pairs. RIAA aime contacter [email protected] à ce sujet.)

Katherine Villyard

... à moins qu'il n'y ait quelque chose d'uniquement identifiable dans votre bot, comme passer un jeton d'accès ou un identifiant de navigateur unique.

simpleuser

Cela ne répond pas à la question du titre de savoir comment ces sites détectent les bots. En fait, il semble que si vous ralentissez suffisamment votre bot (ce qui ne serait pas beaucoup), il serait en fait impossible de le distinguer d'une utilisation valide par tout un groupe d'étudiants.

Wildcard

Pour prolonger le commentaire de @ KatherineVillyard. Superviser formellement le réseau d'une institution si personne ne nous contactait avant le blocage, et que la ressource dont nous étions bloqués était régulièrement utilisée, nous les contacterions pour corriger le problème. Habituellement, ils étaient prêts à nous débloquer si nous voulions résoudre ce problème de notre côté. Cela signifiait rechercher la source des abus. Étant Wikipédia, même s'ils n'atteignent pas votre institution, votre institution y réfléchira probablement une fois qu'ils auront réalisé qu'ils ont été mis sur liste noire. Cette interdiction apparemment inoffensive peut rapidement se transformer en expulsion.

Bacon Brad

@Wildcard FWIW la plupart des endroits ne vous diront pas comment ils détectent les bots simplement parce que cela ne fera qu'amener les auteurs de bots qu'ils attrapent pour changer les choses. Cela dit, il existe de nombreux autres signaux en plus de la vitesse des demandes de détection des bots. Mais la plupart des endroits ne s'en soucient pas beaucoup si vous jouez bien, ne faites pas quelque chose de merdique ou de fatigue. Cela ne vaut tout simplement pas la peine de chasser tous les petits robots.

Zypher

Un site ne peut pas interdire directement une adresse IP qui se trouve derrière NAT. Il pourrait agir sur les adresses IP transmises via des proxy HTTP non anonymisés - lorsqu'un tel proxy transmet une demande, il ajoute généralement cette adresse à un en-tête X-Forwarded-For, donc si l'accès à partir de votre réseau privé doit réellement passer par un tel proxy l'IP interne pourrait être exposée; Cependant, la plupart des sites (wikipedia inclus) ne feraient pas confiance aux informations contenues dans cet en-tête de toute façon, car il est facile d'usurper pour impliquer des adresses IP innocentes ou échapper à des interdictions.

Il existe cependant d'autres techniques qui tentent d'identifier de manière unique les utilisateurs indépendamment de l'adresse IP. Vous pouvez interroger un navigateur Web pour de nombreuses informations à son sujet et sur le système sur lequel il fonctionne, comme l'agent utilisateur, la résolution d'écran, la liste des plugins, etc. - voir https://github.com/carlo/jquery- empreinte digitale du navigateurpour un exemple de cela dans la pratique. Vous pouvez utiliser ces empreintes digitales pour contrôler l'accès, bien que, selon la conception du site, vous puissiez interagir avec celui-ci sans vous engager dans le processus de prise d'empreintes digitales, et même si vous ne le pouvez pas, un bot pourrait fournir des données parasites et randomisées afin d'éviter d'avoir un empreinte digitale cohérente si vous savez que ce type de protection est en place. Cette méthode de contrôle court également le risque de faux positifs, en particulier en ce qui concerne les appareils mobiles où il y aura probablement un grand nombre de clients exécutant des clients de stock identiques sur du matériel de stock identique (la plupart des gens sur un modèle spécifique d'iPhone exécutant une version spécifique d'iOS). , par exemple, obtiendrait probablement la même empreinte digitale).

Carcer
la source

Ce n'est pas du tout improbable; de nombreuses universités et au moins un pays entier utilisent des connexions Web proxy et ajoutent X-Forwarded-For.

Michael Hampton

Intéressant. Je serais personnellement surpris si une entreprise configurait ses proxys Web pour ce faire car elle expose certaines informations (certes triviales) sur votre réseau interne, mais je suppose que cela dépend de l'organisation.

Carcer

@Carcer, il n'est pas nécessaire que ce soit la véritable adresse IP interne, juste quelque chose de cohérent pour chaque utilisateur du proxy.

Ian Ringrose

Généralement, l'adresse IP n'est pas une information suffisante pour une interdiction correcte. Les réseaux avancés fonctionnent donc en haut de la pile réseau.

Une attaque par déni de service (DoS) (que vous craignez de créer) est généralement gérée en limitant le débit de la configuration de connexion TCP initiale. Cela signifie que les utilisateurs légitimes qui sont prêts à attendre passeront au travers tandis que ceux qui essaient simplement de consommer les ressources du serveur sont ralentis au point de devenir inoffensifs. C'est là que DoS a ensuite évolué vers une attaque DoS distribuée (DDoS).

Une fois que vous êtes connecté au serveur, vous pouvez effectuer autant de demandes que vous le souhaitez, l'administration du serveur Web peut configurer le nombre de demandes à traiter.

Le serveur Web peut probablement gérer plus de capacité que votre passerelle de réseau local de toute façon, c'est probablement le facteur limitant dans votre cas d'utilisation. Je parie que les administrateurs de votre réseau universitaire viendraient frapper à votre porte avant Wikipédia.

Il est important d'être un bon internaute, donc j'ajouterais un code de limitation de taux à un bot.

Il convient également de noter que Wikipédia propose des vidages de données afin que le chalutage du site ne soit pas vraiment nécessaire.

Phil Hannent
la source