Je veux télécharger le classique «À partir de FORTH» livre, qui semble être épuisé, mais disponible ici gratuitement. C’est-à-dire que je veux utiliser un site-ripper pour télécharger toutes les pages html du forth.com/starting-forth/
sous-répertoire (et seulement là) qui sont liés à partir de l'index et aussi tout les images utilisées dans ces pages, quel que soit leur emplacement.
J'ai essayé de le faire avec HTML, mais il semble être tout à fait compliqué , car je devrais ajouter manuellement tous les sous-répertoires de forth.com/starting-forth/
.
Comment dois-je procéder? Les solutions Windows ou Linux sont bonnes, bien que je préfère ce dernier.
wget
? BTW lu tout les options et recherchez des exemples de ligne de commande en ligne. Il semble qu'il n'y ait pas de règles robot.txt sur ce site. `wget -p -k exemple.com/sub-dir 'Cochez l'option de rester sur le site et d'éviter de monter dans ce répertoire de départ.Réponses:
Vous pouvez utiliser
wget
.-r
récursif-np
ne pas suivre les liens vers les répertoires parents-k
faire des liens dans HTML ou CSS téléchargé pointent vers des fichiers locaux(De cette réponse )
(Edit) Les dernières commandes:
--domains
est utilisé pour définir les domaines où le contenu sera téléchargé. Ce sera normalement juste le site Web et un cdn.-H
permet de télécharger du contenu à partir d'autres hôtes (ceux que vous avez mis en--domain
).find . -name "*.html" -type f -exec sed -i 's/\?ver=/_ver=/g' {} +
Ceci recherche tous les fichiers html et remplace les références à
?ver
avec_ver
parce que quand wget télécharge tous les fichiers dont l’url contient quelque chose comme:jquery.colorbox.js?ver=1.1.0
il doit remplacer le?
avec_
pour l'enregistrer en tant que fichier.la source
wget -r -np -k -p --domains forth.com,netdna-ssl.com -H https://www.forth.com/starting-forth/
genre de travaux. Au moins, il télécharge les fichiers image. Il y a encore quelque chose qui ne va pas avec la mise en page du site en miroir :-( :-( mais ça va, au moins utilisable maintenant si vous êtes vraiment déconnecté. Si vous savez comment le réparer complètement, s'il vous plaît faites le moi savoir. Merci jusqu'ici pour votre aide.find . -name "*.html" -type f -exec sed -i 's/\?ver=/_ver=/g' {} +