Comment utilisez-vous wget pour télécharger un site entier (domaine A) lorsque ses ressources se trouvent sur un autre domaine (domaine B)?
J'ai essayé:
wget -r --level=inf -p -k -E --domains=domainA,domainB http://www.domainA
16
--domains
seule ne s'active pas--span-hosts
. L'ajout--span-hosts
aurait résolu le problème. : |Réponses:
MISE À JOUR: Je me souviens que la commande ci-dessus a fonctionné pour moi dans le passé (c'était en 2010 et j'utilisais alors les outils GNU pour Windows ); cependant, j'ai dû le changer comme suit lorsque je voulais l'utiliser aujourd'hui:
Le raccourci pour cela serait:
wget -rEDpkH -l inf domainA,domainB domainA
-r
=--recursive
-l <depth>
=--level=<depth>
-E
=--adjust-extension
-p
=--page-requisites
-K
=--backup-converted
-k
=--convert-links
-D <domain-list>
=--domain-list=<domain-list>
-H
=--span-hosts
-np
=--no-parent
-U <agent-string>
=--user-agent=<agent-string>
la source
domainA,domainB'; use
ou désactivé. Après avoir activé, cela ne fonctionne pas.wget --recursive --level=inf --page-requisites --convert-links --html-extension --span-hosts=example.org,iana.org example.org
j'utilise GNU Wget 1.13.4 sur Debian.--span-hosts --domains=example.org,iana.org
- je pense que--span-hosts
doit être un booléen, puis vous utilisez--domains
pour spécifier les hôtes à couvrir.wget --recursive --level = inf - page-requisites --convert-links --html-extension -rH -DdomainA, domainB domainA
la source
Vous devrez peut-être ignorer le fichier robots.txt (notez que cela peut être une violation de certaines conditions de service et que vous devez télécharger le minimum requis). Voir https://www.gnu.org/software/wget/manual/wget.html#Robot-Exclusion .
la source
Pensez à utiliser HTTrack . Il a plus d'options lors de l'exploration de contenu sur d'autres domaines que wget. Utiliser wget avec --span-hosts, --domains et --accept lorsque cela ne suffisait pas à mes besoins mais HTTrack a fait le travail. Je me souviens que la définition d'une limite de redirection sur d'autres domaines a beaucoup aidé.
la source