J'utilise Wget et j'ai rencontré un problème. J'ai un site qui contient plusieurs dossiers et sous-dossiers au sein du site. J'ai besoin de télécharger tout le contenu de chaque dossier et sous-dossier. J'ai essayé plusieurs méthodes en utilisant Wget, et quand je vérifie l'achèvement, tout ce que je peux voir dans les dossiers est un fichier "index". Je peux cliquer sur le fichier d'index, et cela m'amènera aux fichiers, mais j'ai besoin des fichiers réels.
Quelqu'un a-t-il une commande pour Wget que j'ai négligée, ou existe-t-il un autre programme que je pourrais utiliser pour obtenir toutes ces informations?
exemple de site:
www.mysite.com/Pictures/ dans le DIr Images, il y a plusieurs dossiers .....
www.mysite.com/Pictures/Accounting/
www.mysite.com/Pictures/Managers/North America / California / JoeUser.jpg
J'ai besoin de tous les fichiers, dossiers, etc .....
wget
, spécifiquement pour l' utiliser récursivement ?Réponses:
Je veux supposer que vous n'avez pas essayé ceci:
ou pour récupérer le contenu, sans télécharger les fichiers "index.html":
Référence: utilisation de wget pour récupérer récursivement un répertoire contenant des fichiers arbitraires
la source
j'utilise
wget -rkpN -e robots=off http://www.example.com/
-r
signifie récursivement-k
signifie convertir des liens. Les liens sur la page Web seront donc localhost au lieu de example.com/bla-p
signifie obtenir toutes les ressources de la page Web afin d'obtenir des images et des fichiers javascript pour que le site Web fonctionne correctement.-N
consiste à récupérer les horodatages, donc si les fichiers locaux sont plus récents que les fichiers sur un site Web distant, ignorez-les.-e
est une option de drapeau dont elle a besoin pour être opérationnellerobots=off
.robots=off
signifie ignorer le fichier robots.J'ai également eu
-c
dans cette commande, donc si la connexion a chuté, elle continuerait là où elle s'était arrêtée lorsque j'ai réexécuté la commande. Je pensais-N
que ça irait bien avec-c
la source
-e
exécutera la commande comme si elle faisait partie de .wgetrc Je l'ai ajoutée là carrobots=off
elle ne semblait pas fonctionner sans elle.wget -m -A * -pk -e robots = off www.mysite.com/ cela téléchargera tous les types de fichiers localement et les pointera du fichier html
et il ignorera le fichier robots
la source