Je voudrais explorer les liens sous www.website.com/XYZ et télécharger uniquement les liens qui se trouvent sous www.website.com/ABC.
J'utilise la commande wget suivante pour obtenir les fichiers que je veux:
wget -I ABC -r -e robots=off --wait 0.25 http://www.website.com/XYZ
Cela fonctionne parfaitement lorsque j'utilise wget 1.13.4. Mais le problème est que je dois utiliser cette commande sur un serveur qui a wget 1.11 et quand j'utilise la même commande, cela finit par télécharger des domaines supplémentaires tels que:
www.website.de
www.website.it
...
Comment puis-je éviter ce problème? J'ai essayé d'utiliser
--exclude domains=www.website.de,www.website.it
cependant, il a continué à télécharger ces domaines.
Notez également que je ne peux pas utiliser --no-parent
car les fichiers que je veux sont au niveau supérieur (je veux des fichiers sous website.com/ABC en explorant les liens sous website.com/XYZ).
Des indices?
la source
wget
ne doit pas traverser les hôtes par défaut, et vous avez besoin de l' option-H
/--span-hosts
pour traverser les hôtes lors d'un wget récursif. "www.website.com" est un hôte complètement différent de "www.website.de".-H
a toujours été nécessaire de récurser en dehors de l'hôte d'origine. Ça-D www.website.com
aide?Réponses:
C'est faux:
La bonne façon est:
Depuis la page de manuel wget:
la source
Vous pouvez essayer
--max-redirect 0
ou utiliser--domains example.com
à l'opposé de--exclude-domains example.com
.Voir:
la source