J'ai utilisé wget pour télécharger des fichiers html, où sont stockées les images dans le fichier?

15

Firefox se chargeait très lentement, j'ai donc décidé d'utiliser wgetpour enregistrer des fichiers HTML. J'ai utilisé la commande suivante,

wget http://textbook.s-anand.net/ncert/class-xii/chemistry/hello-this-first-chapter

Les fichiers ont été enregistrés dans mon dossier personnel, mais je ne sais pas où les images sont stockées, j'en ai besoin pour les utiliser Anki.

Alors, où sont stockées les images?

Utilisateur enregistré
la source
Cet article explique les options et leur utilité.
Wilf

Réponses:

34

Je préfère utiliser --page-requisites( -ppour faire court) plutôt -rqu'ici car il télécharge tout ce que la page doit afficher, mais pas d'autres pages, et je n'ai pas à penser au type de fichiers que je veux.

En fait, j'utilise généralement quelque chose comme

wget -E -H -k -p http://textbook.s-anand.net/ncert/class-xii/chemistry/hello-this-first-chapter

Ça signifie:

  • -E: Ajouter .htmlau nom du fichier s'il s'agit d'un fichier HTML mais ne se termine pas par .htmlou similaire
  • -H: Téléchargez également des fichiers à partir d'autres hôtes
  • -k: Après le téléchargement, convertissez n'importe quel lien afin qu'il pointe vers les fichiers téléchargés
  • -p: Téléchargez tout ce dont la page a besoin pour une visualisation hors ligne appropriée
Florian Diesch
la source
Je suis venu ici à la recherche -Het j'étais heureux d'en savoir plus -Eet -kaussi. Merci!
Charles Clayton
2

l'utilisation du paramètre -r devrait permettre à wget de télécharger l'intégralité du dossier, y compris vos images.

wget -r http://textbook.s-anand.net/ncert/class-xii/chemistry/hello-this-first-chapter
vegard torvund
la source
2

Téléchargement des fichiers image séparément également

Je pense que cette commande pourrait vous aider à démarrer.

 wget -r -P /save/location -A jpeg,jpg,bmp,gif,png http://textbook.s-anand.net/ncert/class-xii/chemistry/hello-this-first-chapter

Il vous permet de spécifier l'emplacement pour enregistrer les images et les types de fichiers que vous souhaitez. Peut-être que le téléchargement des images en tant que telles est plus facile.

Source :

-r active la récupération récursive. Voir Téléchargement récursif pour plus d'informations.

-P définit le préfixe du répertoire dans lequel tous les fichiers et répertoires sont enregistrés.

-A définit une liste blanche pour récupérer uniquement certains types de fichiers. Les chaînes et les modèles sont acceptés, et les deux peuvent être utilisés dans une liste séparée par des virgules (comme vu ci-dessus). Voir Types de fichiers pour plus d'informations.

Copie des fichiers image de votre dossier

J'ai remarqué que le site Web utilise des fichiers image PNG. Vous pouvez simplement les copier de votre dossier. Cela doit être exécuté dans le dossier où vous avez stocké la page Web.

find . -name "*.png" -exec cp '{}' ./some_dir/somewhere/ \;
don.joey
la source
1

Wget télécharge simplement le fichier HTML de la page, pas les images de la page, car les images du fichier HTML de la page sont écrites sous forme d'URL. Pour faire ce que vous voulez, utilisez le -R(récursif), l' -Aoption avec les suffixes du fichier image, l' --no-parentoption, pour qu'elle ne monte pas, et l' --leveloption avec 1.

Plus précisément wget -R -A .jpg,.png,.gif --no-parent --level <url>

Encore mieux, la plupart des navigateurs ont des méthodes pour enregistrer des pages pour une consultation hors ligne .

Ramchandra Apte
la source