J'utilise le fichier robots.txt suivant pour un site: l'objectif est de permettre à googlebot et bingbot d'accéder au site à l'exception de la page /bedven/bedrijf/*
et d'empêcher tous les autres bots d'explorer le site.
User-agent: googlebot
Disallow: /bedven/bedrijf/*
Crawl-delay: 10
User-agent: google
Disallow: /bedven/bedrijf/*
Crawl-delay: 10
User-agent: bingbot
Disallow: /bedven/bedrijf/*
Crawl-delay: 10
User-agent: bing
Disallow: /bedven/bedrijf/*
Crawl-delay: 10
User-agent: *
Disallow: /
La dernière règle User-agent: * Disallow: /
interdit-elle à tous les robots d'explorer toutes les pages du site?
web-crawlers
robots.txt
Konsole
la source
la source
robots.txt
façonrobots.txt
, ou du moins laDisallow: /
règle. Si votre site Web personnel est enfoncé dans le sol parce qu'un programmeur de robots n'a jamais considéré que le serveur pourrait être un Raspberry Pi à la mauvaise extrémité d'une connexion à 256 kbit, une exclusion globale comme celle-ci est utile.Réponses:
Le dernier enregistrement (commencé par
User-agent: *
) sera suivi par tous les bots polis qui ne s'identifient pas comme "googlebot", "google", "bingbot" ou "bing".Et oui, cela signifie qu'ils ne sont pas autorisés à ramper quoi que ce soit.
Vous pouvez omettre le
*
dans/bedven/bedrijf/*
.Dans la spécification robots.txt d'origine,
*
n'a pas de signification particulière, c'est juste un personnage comme les autres. Donc, cela ne permettrait que l'exploration des pages qui ont littéralement le caractère*
dans leur URL.Bien que Google ne respecte pas la spécification robots.txt à cet égard, car ils utilisent
*
comme caractère générique pour "toute séquence de caractères", ce n'est pas nécessaire pour eux dans ce cas:/bedven/bedrijf/*
et/bedven/bedrijf/
signifierait exactement la même chose: bloquer toutes les URL dont le chemin commence par/bedven/bedrijf/
.Et enfin, vous pouvez réduire votre robots.txt à deux enregistrements, car un enregistrement peut avoir plusieurs
User-agent
lignes :la source
Les bots, en particulier les mauvais, peuvent ignorer le fichier robots.txt. Donc, peu importe ce qui y est écrit, certains robots peuvent explorer votre site.
la source