Est-il possible de ralentir la fréquence d'exploration de Baiduspider?

18

On a beaucoup parlé de la fréquence d'exploration des araignées Baidu. C'est vrai: "Baiduspider rampe comme un fou."

J'ai vécu ce phénomène sur des sites avec lesquels je travaille. Dans au moins un cas, j'ai constaté que Baiduspider rampe à peu près à la même fréquence que Googlebot, malgré le fait que Baidu génère environ 0,1% de trafic en plus que Google.

J'aimerais garder ces visites sur mon site, aussi peu qu'elles soient (peut-être qu'un jour elles vont grandir?), Mais je ne peux pas justifier d'autoriser une charge aussi lourde sur mon serveur.

La réponse acceptée à la question liée ci-dessus suggère que Baidu Webmaster Tools offre la possibilité de limiter le taux d'exploration, mais j'hésite à ouvrir cette boîte (uniquement chinoise) de vers.

Quelqu'un a-t-il une expérience de la limitation du taux d'exploration de Baiduspider avec BWT? Existe-t-il un autre moyen de limiter cette charge?

samthebrand
la source

Réponses:

11

Grande question, et de nombreux webmasters pourraient être intéressés, car l'araignée Baidu est notoirement agressive et peut zapper les ressources des serveurs ...

Comme indiqué dans les actualités de recherche sur le Web de Baidu, l' araignée Baidu ne prend pas en charge le paramètre de notification de retard d'exploration , et vous oblige à la place à vous inscrire et à vérifier votre site avec sa plateforme Baidu Webmaster Tools, comme indiqué ici sur son site. Cela semble être la seule option pour contrôler la fréquence d'exploration directement avec Baidu.

Le problème est que d'autres robots de spam utilisent les agents utilisateurs de Baidu (répertoriés ici sous le numéro 2) pour diriger votre site, comme indiqué dans leur FAQ ici sous le numéro 4. Donc, demander un taux d'exploration plus lent avec Baidu peut ne pas tout résoudre.

Par conséquent, si vous décidez d'utiliser les outils pour les webmasters de Baidu, il peut être judicieux de comparer également ses agents utilisateurs avec les adresses IP connues pour leur être associées en utilisant une ressource comme la base de données Bots vs Browsers , ou en utilisant une recherche DNS inversée.

Les seules autres options consistent à bloquer tous les agents utilisateurs Baidu et à sacrifier ainsi le trafic potentiel de Baidu, ou à tenter de limiter les demandes excessives en utilisant quelque chose comme mod_qos pour Apache, qui prétend gérer:

  • Nombre maximal de demandes simultanées vers un emplacement / ressource (URL) ou un hôte virtuel.
  • Limitation de la bande passante telle que le nombre maximum autorisé de requêtes par seconde à une URL ou le maximum / minimum de kilo-octets téléchargés par seconde.
  • Limite le nombre d'événements de demande par seconde (conditions de demande spéciales).
  • Il peut également «détecter» des personnes très importantes (VIP) qui peuvent accéder au serveur Web sans ou avec moins de restrictions.
  • Filtre de ligne de requête et d'en-tête générique pour refuser les opérations non autorisées. Demander la limitation et le filtrage des données du corps (nécessite mod_parp).
  • Limitations du niveau de connexion TCP, par exemple, le nombre maximal de connexions autorisées à partir d'une seule adresse source IP ou d'un contrôle dynamique de maintien en vie.
  • Préfère les adresses IP connues lorsque le serveur manque de connexions TCP gratuites.

Je n'ai pas trouvé d'expérience signalée avec Baidu Webmaster Tools, qui est lent à charger et a des problèmes de traduction (pas de version anglaise non plus). Cela pourrait être utile, mais basé sur des opinions, bien sûr.

dan
la source
1
C'est vraiment utile @Dan. Essayer quelques-unes de ces solutions (Baidu Webmaster Tools est une vraie douleur.)
samthebrand du
1
Merci! Super - je mettrai à jour cela si je trouve aussi d'autres options. Cette question reflète la frustration de nombreux webmasters vis-à-vis des bots agressifs et leurs préoccupations d'interagir avec eux (par exemple, Baidu Webmaster Tools). Espérons que les robots légitimes en tiendront compte et que de meilleurs outils / options seront disponibles.
dan
@samthebrand et dan - veuillez faire rapport! Avez-vous trouvé d'autres solutions que vous pouvez recommander?
lazysoundsystem
5

Après beaucoup de recherches et d'expérimentation avec cela, j'ai finalement mordu la balle et créé un compte Baidu Webmaster Tools. Son assez simple à utiliser lorsqu'il est armé de Google Translate dans une autre fenêtre. Vous devrez peut-être activer Firebug pour pouvoir copier-coller du texte chinois à partir de boutons que vous ne pouvez pas capturer à partir du mode de navigation normal.

Une fois la configuration terminée, vous devez attendre quelques jours pour que les données d'exploration s'affichent, puis vous pouvez personnaliser le taux d'exploration. Il apparaît dans une section intitulée "Pression" à laquelle vous devriez pouvoir accéder avec cette URL:
http://zhanzhang.baidu.com/pressure/adjust?site=http%3A%2F%2Fwww.yourURL.com%2F
Notez que vous ne pourrez utiliser cette URL que si vous disposez d'une configuration de compte Baidu Webmaster Tools et que vous avez associé l'URL de votre site Web à votre compte pour le site Web en question). Ici, vous verrez un curseur avec votre taux d'exploration actuel au centre (dans mon cas, 12676 demandes par jour. Faites-le glisser vers la gauche afin de réduire le taux d'exploration.

Je ne sais pas encore si elle respecte réellement votre demande. Il vous donne un avertissement qui dit quelque chose comme ça. "Nous vous recommandons d'utiliser le taux d'exploration par défaut du site Baidu. Uniquement si votre site Web rencontre des problèmes avec notre exploration, utilisez cet outil pour l'ajuster. Pour maintenir l'exploration normale de votre site, Baidu prendra en compte votre ajustement du taux d'exploration conditions du site et ne peut donc pas garantir d'ajuster en fonction de votre demande. "

user35703
la source
1
Je suis sûr que je ne suis pas le seul à apprécier une mise à jour à ce sujet - respecte-t-il la demande? Conseilleriez-vous de créer un compte?
lazysoundsystem
Nous venons de mettre à jour l'URL directe vers la page d'ajustement de la fréquence d'exploration, car elle est désormais plus profondément enfouie dans les outils pour les webmasters (plus dans le menu). Google translate est très difficile à trouver en raison de traductions déroutantes ;-)
odony
-1

Oui, vous pouvez utiliser le Crawl-delayparamètre dans robots.txt pour définir le nombre de secondes à attendre entre les requêtes successives sur le même serveur.

User-agent: Baiduspider
Crawl-delay: 100

La première ligne indique uniquement au robot d'exploration Baidu Web d'honorer la commande. La 2ème ligne est le temps d'attente en secondes entre les requêtes au serveur. Vous pouvez ajouter le délai que vous souhaitez pour vos besoins.

Vous devrez ajouter ces commandes à votre fichier robots.txt existant . Si vous ne disposez pas déjà d'un fichier robots.txt , ajoutez le code ci-dessus à un fichier texte, enregistrez le fichier sous robots.txt et téléchargez-le dans le dossier racine de votre site Web, afin qu'il apparaisse à l'adresse ci-dessous:

www.examplesite.com/robots.txt
Max
la source
2
Baiduspider ne prend pas en charge le délai d'exploration. Voyez ici .
samthebrand
Oups, l'aviez vu dans quelques fichiers robots.txt de sites, alors supposé que c'était le cas! Comment ça se passe?!
Max