L'agent utilisateur dans un navigateur ordinaire contient-il «bot» ou «crawl»?

11

L'agent utilisateur dans un navigateur ordinaire contient-il «bot» ou «crawl»?

Je vérifie l'agent utilisateur sur mon site pour voir s'il provient d'un bot ou non. Si c'est le cas, je peux faire quelques petites optimisations car ils ne se connectent pas. (Je ne change pas du tout le contenu)

Après avoir ajouté des chèques pour 30-40 + bots, je suis fatigué de les ajouter. Je me demandais donc si je vérifiais s'il ne contenait que «bot» ou «crawl». Je sais que cela n'obtiendra pas tous les bots, mais il en obtiendrait beaucoup. Mais si cela pouvait provoquer des faux positifs, cela gâcherait totalement la possibilité d'ajouter au panier, de passer une commande et de vous connecter.

Echo dit de réintégrer Monica
la source

Réponses:

13

Selon la liste à http://www.useragentstring.com/pages/useragentstring.php?typ=Browser avec plus de 9000 chaînes d'agent utilisateur provenant de divers navigateurs:

  • 0 chaîne d'agent utilisateur de navigateurs contient le mot "bot"
  • 2 chaînes d'agent utilisateur de navigateurs contiennent le mot "crawl"
  • 0 chaîne d'agent utilisateur de navigateurs contient le mot "araignée"

(Le 2 qui contient "crawl" est le suivant: "Mozilla / 4.0 (compatible; MSIE 5.01; Windows NT 5.0; YComp 5.0.2.6; MSIECrawler)" et "Mozilla / 4.0 (compatible; MSIE 5.01; Windows NT 5.0; MSIECrawler ) "Je pense qu'il est prudent de ne pas les considérer.)

Selon la liste à http://www.useragentstring.com/pages/useragentstring.php?typ=Crawler avec 442 chaînes d'agent utilisateur répertoriées comme bots:

  • 208 chaînes d'agents utilisateurs de bots contiennent le mot "bot"
  • 63 chaînes d'agents utilisateurs de bots contiennent le mot "crawl"
  • 37 chaînes d'agents utilisateurs de bots contiennent le mot "araignée"
  • 282 chaînes de bots d'agent utilisateur contiennent "bot", "crawl" ou "spider"

Ma conclusion: il est sûr de filtrer les bots par chaînes d'agent utilisateur par les mots "bot", "crawl" et "spider". Ce n'est pas à l'épreuve des balles, mais c'est certainement mieux que rien.

Remarque: lors de la recherche des mots clés, j'ai utilisé une recherche insensible à la casse.

Jonas Äppelgran
la source
Merci beaucoup pour votre réponse. Je l' ai fait aujourd'hui un chèque, et toujours pas de navigateur ou le navigateur mobile chaîne de l' agent utilisateur contient l' un bot, crawl, spideret même search.
Oliver
2

Une meilleure solution IMO serait de détecter si l'utilisateur est connecté. Si ce n'est pas le cas, afficher la page standard (cela pourrait être mis en cache). N'importe quel web spider ne sera jamais connecté mais si vous optimisez pour eux, pourquoi pas pour les nouveaux utilisateurs de votre site?

Chèvre mécontente
la source