trafic illégitime de l'agent utilisateur Mozilla / 5.0 (Windows; U; Windows NT 5.1; en-US; rv: 1.9.0.10) Gecko / 2009042316 Firefox / 3.0.10 (.NET CLR 3.5.30729)

31

Il s'agit d'un événement en évolution rapide qui n'a pas encore de réponse.

Veuillez ne pas publier vos résultats ou hypothèses comme réponses; réserver le champ de réponse lorsque vous avez réellement une réponse.

Si vous avez quelque chose de nouveau à ajouter, veuillez le modifier directement dans la question.


Depuis le début de l'année, je reçois beaucoup de trafic avec l'agent utilisateur:

Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.9.0.10) Gecko/2009042316 Firefox/3.0.10 (.NET CLR 3.5.30729).

Mes journaux d'accès affichent 40 à 60% de cet agent utilisateur. C'est étrange parce que l'agent utilisateur indique un navigateur Firefox 3.0.10 (est-ce que quelqu'un utilise ce navigateur en 2012? Certainement pas 40% à 60% des visiteurs sur un site Web normal).

De plus, les journaux montrent que cet agent utilisateur n'a demandé que le document HTML et aucun actif référencé comme les images, les fichiers css et js.

J'ai vérifié les IP de ces demandes (avec cet UA). Ça vient du monde entier. J'ai reconnu que ces IP ont parfois un agent d'utilisateur mobile.

Donc mon soupçon est une application mobile qui fait beaucoup de "demandes d'araignées". Il serait bon de connaître la cause première du trafic provenant de cet agent utilisateur.

Quelqu'un peut-il identifier la cause profonde?

Au cours des deux dernières semaines, nous avons reconnu que le trafic en provenance de cet UA a diminué et que le trafic a augmenté. Il semble que le robot / robot utilise maintenant un UA plus commun et est donc plus difficile à bloquer. J'ai vu quelqu'un d'autre dire cela dans une réponse à cette question, mais cela a été supprimé lorsque serverfault a décidé de réorganiser cette question.

ANCIENNES réponses comme référence


Mise à jour de Dee

Je gère mon propre site Web très fréquenté et je vois exactement la même chose dans nos journaux apache du mois dernier (je n'ai pas encore eu l'occasion de vérifier plus en arrière). 40% de toutes les demandes est le pourcentage que je vois, ce qui est fou, évidemment.

Et j'ai également remarqué que les demandes semblent toujours dire que le navigateur demandeur ne prend pas en charge la compression gzip - ce qui entraîne l'envoi de toutes les demandes de pages Web non compressées et l'augmentation de notre utilisation de la bande passante!

Mais jusqu'à présent, je n'ai pas pu déterminer ce qui se passe réellement - tout ce que je soupçonne jusqu'à présent, c'est qu'il peut s'agir d'une sorte de serveur proxy ou d'un appareil mobile qui envoie une fausse chaîne d'agent utilisateur.

MODIFIÉ POUR AJOUTER: Je viens de faire plus de recherches et il semble que ce pourrait être un logiciel antivirus: http://www.webmasterworld.com/search_engine_spiders/4428772.htm


Mise à jour de jamur21

Oui, nous avons remarqué un trafic similaire sur plusieurs sites.

Nous recherchons toujours la cause profonde, mais certaines de nos conclusions incluent:

  • Si c'est une araignée, elle fait un très mauvais travail. Il semble ne marteler qu'une ou deux URL par domaine pendant un certain temps (peut-être quelques heures), jusqu'à ce qu'il passe à une autre URL. Cependant, le contenu est toujours relativement "actuel", ce qui donne de l'importance à Google News, comme le montre le lien publié par Dee dans sa réponse (tous nos sites sont des sites d'actualités).

  • Bien que les adresses IP soient réparties géographiquement, la plupart d'entre elles semblent situées près du site d'origine (la plupart de nos sites sont des médias locaux, donc ils ne reçoivent pas beaucoup de trafic national). Presque aucune des demandes ne provient de l'extérieur des États-Unis. Encore une fois, cela donne foi aux URL récupérées de Google Actualités (je suppose que les personnes qui ont localisé Google Actualités par code postal verront notre contenu).

  • La plupart du temps, les demandes peuvent être annulées en tant que bruit de fond (bien que particulièrement bruyant), mais quelques fois par jour, nous augmenterons et cet UA à lui seul représentera environ 100 Mbps de trafic pendant environ 15-30 minutes.

  • Malheureusement, alors que Google Actualités semble être un vecteur possible pour ces URL à découvrir, tout ce que nous avons vu est circonstanciel et nous n'avons toujours pas de pistolet fumant pour savoir exactement comment ou pourquoi ces URL sont martelées.


Mise à jour de Bannow Bay

Nous avons un grand site d'actualités - nos articles sont repris par Google Actualités plusieurs fois par semaine. Nous recevons du trafic de cette source depuis fin novembre - et il augmente de semaine en semaine - peut-être 30 millions d'imps en février.

L'apparition sur la première page de Google News US est un déclencheur de ce trafic - environ 75% est censé provenir d'IP américaines. Mais quoi que ce soit, il fait de gros efforts pour s’obscurcir. Et ce n'est pas amical.

Nous n'avons pas non plus trouvé d'arme à feu, mais un important fournisseur de produits de sécurité a aimablement accepté d'enquêter davantage en notre nom.


Mise à jour d' Artem Russakovskii

La même chose est arrivée pour la première fois à un site d'actualités (AndroidPolice.com). Environ 10 minutes de ces demandes aléatoires qui ont dopé QPS plus de 5000% de notre moyenne (5000qps, qui est la limite de NodeBalancer de Linode). Le processeur a commencé à tourner au ralenti alors que les demandes consommaient des E / S et du réseau - c'était un vrai DDOS.

J'aimerais vraiment aller au fond des choses, mais pour le moment, cela semble complètement déroutant.


Mise à jour de Mark

Il suffit d'ajouter un +1. Nous constatons le même comportement sur notre site. Pas une tonne de nouvelles informations à ajouter ici, mais voici la forme générale de notre trafic:

  1. Le trafic est fortement distribué. Le trafic provient de plus de 60 000 adresses IP uniques.
  2. La grande majorité du trafic atteint une seule URL, généralement une URL récente répertoriée sur Google Actualités (bien que Google Actualités ne semble pas toujours être le vecteur)
  3. Tout ce trafic provient du même agent utilisateur Firefox / 3.0.10 comme indiqué dans ce fil, bien que nous ayons vu quelques agents mobiles bizarres ici et là.
  4. Tout le trafic provenant de cet agent ne contient aucune donnée de référence.
  5. L'éclatement se produit une ou deux fois par semaine pendant 30 à 60 minutes, puis disparaît.

Mise à jour de Don Ireland

Le dernier message était le 13 avril mais le trafic n'est certainement pas terminé. La partie la plus étrange de cela peut être le fait que tout auteur de malware digne de ce nom pourrait sûrement (serait sûrement) utiliser une chaîne d'agent utilisateur à partir d'un navigateur moderne, ce qui rend la défense bloc-utilisateur-agent sans valeur. Ce fait donne l'impression qu'un agrégateur de nouvelles «inoffensif» ou une autre application en est la source. Jusqu'à présent, cependant, je n'ai pas été en mesure de parvenir à une véritable conclusion et j'espère que quiconque ayant des informations le publiera ici.

Nous observons le même schéma, avec une histoire reprise par Google News suivie de pics de trafic très élevés demandant l'histoire (mais pas de fichiers accessoires tels que des images). Le trafic de réponse sortant provoque des pics qui peuvent saturer le réseau (ou l'ont fait, jusqu'à ce que nous commencions à répondre avec seulement une erreur 503). Ces attaques (comment pouvons-nous les appeler autrement?) Durent environ 30 minutes en moyenne, mais les histoires très populaires peuvent avoir un trafic élevé pendant une heure ou plus (je parle du trafic firefox 3.0.10, bien sûr, le trafic normal reste également élevé pour un moment).

En une heure (pour un seul serveur dans un groupe à charge équilibrée), nous avons vu 200 000 requêtes dont 97 000 étaient des requêtes firefox 3.0.10, soit près de 50% de toutes les requêtes. Et lorsque l'on considère que normalement une page génère 10 demandes ou plus pour le fichier principal et les fichiers accessoires, les 97 000 occupent une place beaucoup plus importante. Je note que sur les 97 000, il y avait 51 000 adresses IP uniques. Et je parle d'une seule heure (en fait c'était plus proche de 45 minutes). Quelle que soit la cause, cela est assez répandu.


Mise à jour de l' utilisateur119708

Nous avons le même problème sur un immense site d'actualités high-tech français.

Chaque fois qu'une actualité est publiée et consultable sur Google Actualités, le trafic augmente considérablement avec environ 50 à 100 visites par IP et agent utilisateur "Mozilla / 5.0 (Windows; U; Windows NT 5.1; en-US; rv: 1.9.0.10 ) Gecko / 2009042316 Firefox / 3.0.10 (.NET CLR 3.5.30729) ".

Toutes les adresses IP semblent être situées en France ou dans les pays français et n'ont pas de référent. Il semble que ce soit un bot mais pourquoi une seule adresse distante doit revenir 50 ou 100 fois sur la même news pendant quelques minutes? Pourrait-il s'agir d'ordinateurs infectés? Pourquoi le phénomène apparaît lorsque les nouvelles sont visibles sur Google Actualités? Google est-il responsable de ce trafic étrange?

Si quelqu'un dans ce sujet a trouvé l'explication, je pense que cela aiderait de nombreux sites Web de taille moyenne ou grande à contrôler leur trafic!

EDIT: http://2bits.com/botnet/botnet-hammering-web-site-causing-outages.html S'il s'agit bien d'ordinateurs infectés, c'est très inquiétant compte tenu du nombre d'adresses concernées. Nous allons implémenter ce script pour Apache pour bloquer tout le trafic:

# Referer is empty
RewriteCond %{HTTP_REFERER} ^$

# User agent is bogus old browser
RewriteCond %{HTTP_USER_AGENT} "Gecko/2009042316 Firefox/3.0.10"

# Forbid the request
RewriteRule ^(.*)$ - [F,L]

Mise à jour d' Ernesto

Site de nouvelles générales espagnol moyen, a remarqué un trafic élevé dans certaines nouvelles non pertinentes depuis quelques jours.

Qui que ce soit, il charge le HTML complet, comme nous le remarquons en raison du nombre de "pages vues" que nous incrémentons via les mises à jour de la base de données une fois la page chargée.

Nous ne remarquons qu'une ou deux URL ciblées chaque jour.

Beaucoup de requêtes (7000-12000) sur la même URL en quelques secondes, réparties sur la journée à partir de différentes IP. Les prochains jours, d'autres URL sont ciblées.

Pas de référent.

Les articles ciblés sont apparus sur Google Actualités, mais nous ne pouvons pas garantir qu'il est lié.

Google Analytics ne le reconnaît pas comme du trafic légitimé. Nous avons des articles avec plus de 8000 visites et GA n'en rapporte que 25 environ (je suppose que javascript n'est pas interprété).


Mise à jour depuis Old Pro

Ajout de quelques points de données pour vous.

Bots vs. Browsers ne considère pas cet UA comme un bot (pour l'instant).

Sur le site le plus fréquenté pour lequel j'ai des journaux, l'utilisation de mai 2012 à ce jour montre que cet UA représente moins de 1% du trafic. Une partie importante des demandes UA semble légitime (chargement de toutes les ressources attendues, par exemple). C'est essentiellement le même que pour février 2012.

La page d'accueil de ce site est rarement mise à jour et tout le contenu dynamique est bloqué par robots.txt.


Cela vient probablement de Genieo. Ils ont mis à jour leur application pour utiliser un nouvel agent utilisateur: Mozilla / 5.0 + (compatible; + Genieo / 1.0 + http://www.genieo.com/webfilter.html ). Il frappe avec le même modèle que l'agent utilisateur d'origine, mais maintenant ils semblent s'identifier. Si vous regardez l'URL dans leur agent utilisateur, ils reconnaissent même qu'ils ont pu ou peuvent toujours générer trop de trafic vers certains sites Web. - dflaw


Mise à jour de Mike Fagan

Nous combattons ce que nous pensions être des attaques DDOS depuis des semaines maintenant. Nous venons de commencer à voir Genieo comme l'agent utilisateur de ces attaques. Auparavant, nous avons vu "Mozilla / 5.0 (Windows; U; Windows NT 5.1; en-US; rv: 1.9.0.10) Gecko / 2009042316 Firefox / 3.0.10 (.NET CLR 3.5.30729)" et une tonne de demandes de " Mozilla / 5.0 (Windows NT 6.1; rv: 11.0) Gecko / 20100101 Firefox / 11.0 ". Plus de 10 000 adresses IP différentes, plus d'un million de demandes par jour sur seulement 3 ou 4 pages où la même adresse IP demandait des pages plus de 100 fois et ne tirait aucun actif ou annonce supplémentaire. Ma conclusion est qu'aucune de ces adresses IP n'est réellement allée à d'autres pages de notre site.

J'ai contacté Genieo et voici leur réponse:

"Merci de nous contacter.

L'ancienne version de Genieo pourrait avoir causé les charges de trafic que vous décrivez. Nous nous excusons pour la gêne occasionnée. Hier, nous avons publié et mis à jour ce problème, la charge de données de notre application devrait disparaître dans les prochaines 24 heures. Nous pensions que nous rendions un bon service à votre site en le présentant aux nouveaux utilisateurs. Nous n'avons pas évalué correctement que, comme notre base d'installation augmente, cela peut avoir induit une surcharge sur certains postes.

Genieo est un journal personnel ou un lecteur RSS intelligent. Il s'agit d'un lecteur RSS côté client avec un filtrage de personnalisation sémantique intelligent. L'application Genieo suit les données RSS des sites préférés de l'utilisateur pour «lire» les articles en effectuant une analyse sémantique et les filtrer par rapport aux domaines d'intérêt des utilisateurs. Si l'article correspond aux intérêts de l'utilisateur, l'application affiche le titre et l'extrait de l'article dans la page d'accueil de l'utilisateur. En cliquant sur le titre, vous accédez au site de l'article - votre site. L'agent Genieo est autonome (pour des raisons de confidentialité); il s'exécute sur la machine des utilisateurs finaux, c'est pourquoi vous voyez l'agent accéder à votre site à partir de nombreuses adresses IP différentes.

La plupart des données de Genieo proviennent des flux RSS normaux de l'utilisateur, mais Genieo ajoute également du contenu provenant de nouveaux sites d'actualités qui n'ont pas été précédemment enregistrés par les utilisateurs (par sérendipité et diversité). Les algorithmes de Genieo recherchent les articles «chauds», les meilleurs succès sur Twitter, YouTube les plus consultés et les actualités de Google et vérifient s'ils correspondent à l'intérêt de l'utilisateur

Nous ne savions pas que cela causait un problème de charge pour certains sites. Une fois que cela a été porté à notre attention, nous mettons à jour les utilisateurs actuels avec une nouvelle version qui empêche les pics de charge.

Meilleures salutations,

-Dotan

PS: Nous avons utilisé "Mozilla / 5.0 (Windows NT 6.1; rv: 11.0) Gecko / 20100101 Firefox / 11.0" dans le passé (en raison d'un bug technique) mais tous les utilisateurs Genieo actuels devraient utiliser les agents utilisateurs Genieo (pour le dernières semaines) "

Mark Henderson
la source
Pourriez-vous ajouter à la question certaines des adresses IP qui apparaissent dans les journaux?
ricmarques
Je ne sais pas s'il s'agit du logiciel antivirus AVG - car AVG a résolu le problème. De plus, je pense toujours qu'il y a de fortes chances qu'une application mobile soit à l'origine de ce trafic - une application d'agrégation de nouvelles (quelque chose comme skygrid.com - mais ce n'est pas skygrid car ils utilisent un UA approprié).
user114293
Voici quelques exemples d'adresses IP: 196.202.255.1 59.164.38.248 67.4.252.169 24.224.194.26 67.4.39.99 49.123.100.148
user114293
Oui, nous avons remarqué un trafic similaire sur plusieurs sites. Nous cherchons toujours la cause profonde, mais certaines de nos conclusions incluent: - Si c'est une araignée, elle fait un travail assez médiocre. Il semble ne marteler qu'une ou deux URL par domaine pendant un certain temps (peut-être quelques heures), jusqu'à ce qu'il passe à une autre URL. Cependant, le contenu est toujours relativement "actuel", ce qui donne de l'importance à Google News, comme le montre le lien publié par Dee dans sa réponse (tous nos sites sont des sites d'actualités). - Alors que les IP sont réparties géographiquement, la plupart d'entre elles semblent situées près du site d'origine (la plupart
jamur2
Nous avons un grand site d'actualités - nos articles sont repris par Google Actualités plusieurs fois par semaine. Nous recevons du trafic de cette source depuis fin novembre - et il augmente de semaine en semaine - peut-être 30 millions d'imps en février. L'apparition sur la première page de Google News US est un déclencheur de ce trafic - environ 75% est censé provenir d'IP américaines. Mais quoi qu'il en soit, il fait de gros efforts pour s'obscurcir. Et ce n'est pas amical. Nous n'avons pas non plus trouvé d'arme à feu, mais un important fournisseur de produits de sécurité a aimablement accepté d'enquêter davantage en notre nom.
Bannow Bay

Réponses:

1

Je pense que l'utilisateur dflaw l'a trouvé. C'est le logiciel de Genieo. Nous avons fait quelques tests et les avons contactés. Tous les résultats sont publiés ici .

user114293
la source