Je suis tombé sur ce site qui en parle.
Donc, lorsque vous téléchargez un site Web entier en obtenant la version gzippée, quelle est la bonne commande?
J'ai testé cette commande, mais je ne sais pas si wget obtient vraiment la version gzippée:
wget --header="accept-encoding: gzip" -m -Dlinux.about.com -r -q -R gif,png,jpg,jpeg,GIF,PNG,JPG,JPEG,js,rss,xml,feed,.tar.gz,.zip,rar,.rar,.php,.txt -t 1 http://linux.about.com/
Réponses:
Si vous demandez du contenu gzip (en utilisant l'en-tête accept-encoding: gzip, ce qui est correct), alors je comprends que wget ne peut pas lire le contenu. Vous vous retrouverez donc avec un seul fichier compressé sur le disque, pour la première page que vous atteignez, mais pas d'autre contenu.
c'est-à-dire que vous ne pouvez pas utiliser wget pour demander du contenu gzippé et récurrer tout le site en même temps.
Je pense qu'il y a un patch qui permet à wget de supporter cette fonction mais ce n'est pas dans la version de distribution par défaut.
Si vous incluez l'indicateur -S, vous pouvez savoir si le serveur Web répond avec le type de contenu correct. Par exemple,
Le codage du contenu indique clairement gzip, cependant pour linux.about.com (actuellement),
Il renvoie du texte / html.
Étant donné que certains navigateurs plus anciens ont toujours des problèmes avec le contenu encodé gzip, de nombreux sites ne l'activent que sur la base de l'identification du navigateur. Ils le désactivent souvent par défaut et ne le désactivent que lorsqu'ils savent que le navigateur peut le prendre en charge - et ils n'incluent généralement pas wget dans cette liste. Cela signifie que vous pouvez trouver que wget ne retourne jamais de contenu gzip même si le site semble le faire pour votre navigateur.
la source
Content-Type: text/html; charset=UTF-8
, mais il y en a aussiContent-Encoding: gzip
. Ce ne serait pas une compression transparente si son utilisation obligeait le type MIME de tout à gzip ... J'ai courustrace -s 128 wget ...
pour voir certains des octets lus depuis le socket / écrits sur le disque. Ils ne sont pas ASCII. Donc, même si je pense qu'en 2011, votre commande n'a pas reçu de version compressée, en 2015, la même commande en a reçu. (wget 1.15).commande simple pour obtenir la page html et la compresser ou obtenir n'importe quel fichier et compressé.
pour plus d'informations sur l'option. utilisez la commande man.
la source