Quel est l '«article de 2001» pour bloquer les «programmes de récupération automatisée» auxquels fait référence la page de manuel wget?

11

La wgetpage de manuel indique ceci, sous la section pour le --random-waitparamètre:

    Some web sites may perform log analysis to identify retrieval
    programs such as Wget by looking for statistically significant
    similarities in the time between requests. [...]

    A 2001 article in a publication devoted to development on a popular
    consumer platform provided code to perform this analysis on the
    fly.  Its author suggested blocking at the class C address level to
    ensure automated retrieval programs were blocked despite changing
    DHCP-supplied addresses.

Je souhaite obtenir une copie de cet article pour lecture, et j'ai essayé de nombreuses recherches sur Internet pour déterminer l'article. Cependant, tout ce que je peux trouver avec ces recherches est la page de manuel pour wgethébergée sur différents sites Web; et d'autres documents de recherche n'ayant aucun rapport avec ce sujet.

Quelqu'un sait-il à quel article il est fait référence et où je peux en obtenir une copie?

user2064000
la source
Je cherchais dans la liste de diffusion wget et j'ai
7171u

Réponses:

15

Même si ce n'est pas une réponse directe, git blameet git logrévéler que cette section a été introduite dans le commit 2c41d783 par un committer appelé hniksic, qui se révèle être Hrvoje Niksic. Son adresse e-mail se trouve dans le ChangeLogfichier de wget (je ne la publierai pas ici pour des raisons évidentes). Je suggère de lui demander directement, car il pourrait être le meilleur pour donner une réponse plus adéquate. Pendant que vous y êtes, vous pourriez envisager de lui demander s'il serait disposé à mettre à jour la page de manuel en conséquence. ;)

Andreas Wiese
la source
4

Je pense que ce pourrait être cet article:

Création de données significatives à partir de journaux Web à l'aide de SAS de base

Il y a un paragraphe sur le blocage des plages de classe C:

Une fois que l'adresse IP est séparée en ses composants, le filtrage des plages d'adresses IP est simple. Un filtre de classe B est effectué par rapport aux deux premiers octets, par exemple 168.126.xx.xx. Il s'agit de la variable Onetwo dans l'exemple de code ci-dessus. Les plages de classe C sont plus couramment utilisées car elles ciblent des serveurs entiers et utilisent trois des quatre octets, par exemple 168.126.56.xx. Dans l'exemple de code ci-dessus, il s'agit du champ Trois étant donné que Usrhost est la valeur d'adresse TCP / IP du journal Web.

Et l'un mentionne wgetdans le blocage basé sur les chaînes de l'agent utilisateur:

Notre méthode préférée pour l'identification des chaînes d'agent utilisateur utilise la fonction de correspondance de modèle d'index. Par exemple:

if index(lowcase(agentstr), 'keynote') or
index(lowcase(agentstr), 'sureseeker') or
index(lowcase(agentstr), 'wget') or

C'était le cinquième résultat dans Google pour "l'analyse de journal wget" pour l'année 2001 .

muru
la source