Miroir un blog avec wget

9

J'essaie de refléter un blog, par exemple www.example.comavec wget.

J'utilise wget avec les options suivantes (les variables shell sont remplacées correctement):

wget -m -p -H -k -E -np \
    -w 1 \
    --random-wait \
    --restrict-file-names=windows \
    -P $folder \
    -Q${quota}m \
    -t 3 \
    --referer=$url \
    -U 'Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.8.1.6) Gecko/20070802 SeaMonkey/1.1.4' \
    -e robots=off \
    -D $domains
    -- $url

Le blog contient des images qui résident sur d'autres domaines.

Même si j'ai spécifié l' -poption (télécharger les ressources des pages liées), ces images ne sont pas téléchargées, sauf si je spécifie explicitement chaque domaine dans l' -Doption.

Si j'omet cette -Doption, wget suivra chaque lien à l'extérieur www.example.comet téléchargera tout Internet.

Est-il possible wgetde simplement suivre chaque lien sous www.example.comet de télécharger les actifs requis de chaque page, qu'ils résident sur le même domaine ou non sans que je doive spécifier explicitement chaque domaine?

Kostas Andrianopoulos
la source
J'aimerais aussi trouver une bonne réponse à celle-ci. J'ai rencontré la même situation et je n'ai pas pu trouver une seule invocation wget qui l'ait fait. J'ai fini par utiliser le wget -N -E -H -k -K -ppremier et j'ai trouvé un script pour récupérer les images liées manquantes.
lemonsqueeze
5
Selon celui-ci , httrack est un tueur pour cela. Je vais essayer la prochaine fois au lieu de wget.
lemonsqueeze
En supposant que votre blog (moins les actifs de la page) ne couvre pas plusieurs domaines, essayez de supprimer les deux -D $domainsainsi que -H. Sans -Hcela, il doit rester dans votre domaine mais toujours récupérer les actifs de la page directe, même lorsqu'ils se trouvent sur un domaine différent.
blubberdiblub

Réponses:

1

Non, la seule façon est de spécifier les domaines que wget doit suivre en utilisant -D ou --domains = [liste de domaines] (sous la forme d'une liste séparée par des virgules)

des étincelles
la source