Grande question, et de nombreux webmasters pourraient être intéressés, car l'araignée Baidu est notoirement agressive et peut zapper les ressources des serveurs ...
Comme indiqué dans les actualités de recherche sur le Web de Baidu, l' araignée Baidu ne prend pas en charge le paramètre de notification de retard d'exploration , et vous oblige à la place à vous inscrire et à vérifier votre site avec sa plateforme Baidu Webmaster Tools, comme indiqué ici sur son site. Cela semble être la seule option pour contrôler la fréquence d'exploration directement avec Baidu.
Le problème est que d'autres robots de spam utilisent les agents utilisateurs de Baidu (répertoriés ici sous le numéro 2) pour diriger votre site, comme indiqué dans leur FAQ ici sous le numéro 4. Donc, demander un taux d'exploration plus lent avec Baidu peut ne pas tout résoudre.
Par conséquent, si vous décidez d'utiliser les outils pour les webmasters de Baidu, il peut être judicieux de comparer également ses agents utilisateurs avec les adresses IP connues pour leur être associées en utilisant une ressource comme la base de données Bots vs Browsers , ou en utilisant une recherche DNS inversée.
Les seules autres options consistent à bloquer tous les agents utilisateurs Baidu et à sacrifier ainsi le trafic potentiel de Baidu, ou à tenter de limiter les demandes excessives en utilisant quelque chose comme mod_qos pour Apache, qui prétend gérer:
- Nombre maximal de demandes simultanées vers un emplacement / ressource (URL) ou un hôte virtuel.
- Limitation de la bande passante telle que le nombre maximum autorisé de requêtes par seconde à une URL ou le maximum / minimum de kilo-octets téléchargés par seconde.
- Limite le nombre d'événements de demande par seconde (conditions de demande spéciales).
- Il peut également «détecter» des personnes très importantes (VIP) qui peuvent accéder au serveur Web sans ou avec moins de restrictions.
- Filtre de ligne de requête et d'en-tête générique pour refuser les opérations non autorisées. Demander la limitation et le filtrage des données du corps (nécessite mod_parp).
- Limitations du niveau de connexion TCP, par exemple, le nombre maximal de connexions autorisées à partir d'une seule adresse source IP ou d'un contrôle dynamique de maintien en vie.
- Préfère les adresses IP connues lorsque le serveur manque de connexions TCP gratuites.
Je n'ai pas trouvé d'expérience signalée avec Baidu Webmaster Tools, qui est lent à charger et a des problèmes de traduction (pas de version anglaise non plus). Cela pourrait être utile, mais basé sur des opinions, bien sûr.
Après beaucoup de recherches et d'expérimentation avec cela, j'ai finalement mordu la balle et créé un compte Baidu Webmaster Tools. Son assez simple à utiliser lorsqu'il est armé de Google Translate dans une autre fenêtre. Vous devrez peut-être activer Firebug pour pouvoir copier-coller du texte chinois à partir de boutons que vous ne pouvez pas capturer à partir du mode de navigation normal.
Une fois la configuration terminée, vous devez attendre quelques jours pour que les données d'exploration s'affichent, puis vous pouvez personnaliser le taux d'exploration. Il apparaît dans une section intitulée "Pression" à laquelle vous devriez pouvoir accéder avec cette URL:
http://zhanzhang.baidu.com/pressure/adjust?site=http%3A%2F%2Fwww.yourURL.com%2F
Notez que vous ne pourrez utiliser cette URL que si vous disposez d'une configuration de compte Baidu Webmaster Tools et que vous avez associé l'URL de votre site Web à votre compte pour le site Web en question). Ici, vous verrez un curseur avec votre taux d'exploration actuel au centre (dans mon cas, 12676 demandes par jour. Faites-le glisser vers la gauche afin de réduire le taux d'exploration.
Je ne sais pas encore si elle respecte réellement votre demande. Il vous donne un avertissement qui dit quelque chose comme ça. "Nous vous recommandons d'utiliser le taux d'exploration par défaut du site Baidu. Uniquement si votre site Web rencontre des problèmes avec notre exploration, utilisez cet outil pour l'ajuster. Pour maintenir l'exploration normale de votre site, Baidu prendra en compte votre ajustement du taux d'exploration conditions du site et ne peut donc pas garantir d'ajuster en fonction de votre demande. "
la source
Oui, vous pouvez utiliser le
Crawl-delay
paramètre dans robots.txt pour définir le nombre de secondes à attendre entre les requêtes successives sur le même serveur.La première ligne indique uniquement au robot d'exploration Baidu Web d'honorer la commande. La 2ème ligne est le temps d'attente en secondes entre les requêtes au serveur. Vous pouvez ajouter le délai que vous souhaitez pour vos besoins.
Vous devrez ajouter ces commandes à votre fichier robots.txt existant . Si vous ne disposez pas déjà d'un fichier robots.txt , ajoutez le code ci-dessus à un fichier texte, enregistrez le fichier sous robots.txt et téléchargez-le dans le dossier racine de votre site Web, afin qu'il apparaisse à l'adresse ci-dessous:
la source