Essentiellement, je veux explorer un site entier avec Wget, mais j'en ai besoin pour ne JAMAIS télécharger d'autres ressources (par exemple, images, CSS, JS, etc.). Je veux seulement les fichiers HTML.
Les recherches Google sont complètement inutiles.
Voici une commande que j'ai essayée:
wget --limit-rate=200k --no-clobber --convert-links --random-wait -r -E -e robots=off -U "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/32.0.1700.102 Safari/537.36" -A html --domain=www.example.com http://www.example.com
Notre site est hybride flat-PHP et CMS. Ainsi, "fichiers" HTML pourrait être /path/to/page
, /path/to/page/
, /path/to/page.php
ou /path/to/page.html
.
J'ai même inclus, -R js,css
mais il télécharge toujours les fichiers, puis les rejette (gaspillage inutile de bande passante, de CPU et de charge du serveur!).
wget
web-crawler
Nathan JB
la source
la source
Length: 558 [text/css]
sur les fichiers que je ne veux pas. Si je pouvais arrêter la demande si l'en-tête ne revient pastext/html
, je serais ravi.Réponses:
@ Le commentaire d'ernie à propos de
--ignore-tags
me conduire sur la bonne voie! Quand je levais les yeux--ignore-tags
dansman
, j'ai remarqué--follow-tags
.Réglage
--follow-tags=a
m'a permis de sauterimg
,link
,script
, etc.C'est probablement trop limité pour certaines personnes qui recherchent la même réponse, mais cela fonctionne bien dans mon cas (c'est correct si je manque quelques pages).
Si quelqu'un trouve un moyen d'autoriser l'analyse de TOUTES les balises, mais empêche
wget
de rejeter les fichiers uniquement après leur téléchargement (ils doivent rejeter en fonction du nom de fichier ou de l'en-tête Type de contenu avant le téléchargement), j'accepterai très volontiers leur réponse!la source
qu'en est-il de l'ajout des options:
la source