Wget - Télécharger toutes les images du serveur Web

1

Je souhaite donc télécharger toutes les images d'un serveur Web, en particulier les JPEG. La commande que je lance a l'air légitime et je sais que le site Web contient des jpegs. Donc par exemple

wget -r -PC: / -A.jpg http://somesitewithjpegs.com

Si j'ai bien compris, cette commande va scanner l'ensemble du serveur de manière récursive en ne cherchant consciencieusement que des images au format JPEG, puis en téléchargeant ces images sur mon lecteur C: /. Pour une raison quelconque, cela ne fonctionne pas.

En regardant le code source, je constate que les images ne sont pas directement intégrées à la page, mais sont plutôt hébergées dans un autre répertoire du serveur. Est-ce pour cela que wget ne parvient pas à télécharger ces images?

Scandaliste
la source
Cela peut uniquement analyser la page de démarrage pour rechercher des liens vers JPEGS.
Basilevs

Réponses:

2

Pour répondre à ma propre question, il est vrai que wget ne peut suivre que les liens et télécharger les fichiers directement. Voyant que la plupart des images sont liées à un répertoire qui ne prend pas en charge les listes de répertoires ou est soumis à des restrictions, wget n’a aucun moyen d’analyser le contenu de ce répertoire.

Un bon exemple de ceci est un site wordpress qui stocke des images dans le dossier wp-content. Tenter de parcourir ce dossier génère une erreur 403 interdite. Même si nous pouvons voir cette image dans notre navigateur sous forme d'image liée, wget n'y a pas accès, car l'image est stockée dans un répertoire sans accès direct.

Quelqu'un peut ajouter quelque chose à cette réponse s'il me manque des détails ou si je n'explique pas correctement le processus.

Scandaliste
la source
0

Est-ce pour cela que wget ne parvient pas à télécharger ces images?

Ans: Peut-être / Très probablement.

Essayez d'ajouter ces options:

-l1 -H

Le -H indique à l'application d'étendre les domaines, ce qui signifie qu'elle doit suivre les liens qui pointent vers le site (les images sont peut-être diffusées à partir d'un autre serveur) . Et -l1 signifie ne franchir qu'un seul niveau: c'est-à-dire, ne suivez pas les liens du site lié. De cette manière, vous pourrez peut-être télécharger le contenu d'un autre serveur hébergeant des fichiers images.

iirc, tout en reflétant un site wordpress complet, vous pouvez cependant accéder aux images du dossier wp-content.

Ashildr
la source