Comment puis-je faire en sorte que wget télécharge uniquement les pages, pas les images css, etc.?

10

Je veux télécharger un site Web entier en utilisant wget mais je ne veux pas que wget télécharge des images, des vidéos, etc.

j'ai essayé

wget -bqre robots=off -A.html example.com –user-agent=”Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.8.1.6) Gecko/20070725 Firefox/2.0.0.6″

mais quand je le fais, il ne télécharge pas les fichiers .php, télécharge simplement les fichiers statiques .html.

Existe-t-il une solution à ce problème avec wget?

user1126446
la source

Réponses:

6

Vous avez explicitement dit à wget de n'accepter que les fichiers ayant .htmlcomme suffixe.

En supposant que les pages php ont .php, vous pouvez le faire:

wget -bqre robots=off -A.html,.php example.com –user-agent=”Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.8.1.6) Gecko/20070725 Firefox/2.0.0.6″

Notez que cela va télécharger le HTML rendu, pas la source du php. Si la page est suffisamment dynamique, vous n'obtiendrez peut-être pas le résultat attendu.

Cependant, je suggère qu'un autre outil tel que httrack puisse faire un meilleur travail - cela dépend exactement de ce que vous devez faire.

James Polley
la source
3

-A prend une liste, donc -A.html, .php devrait convenir. Vous devriez également regarder dans -R (cela prend également une liste de rejet).

Forme de vie extraterrestre
la source