Je dois télécharger tous les ebooks de Gutenberg, au format texte brut (pas html) et uniquement en langue anglaise.
Quelqu'un a des suggestions sur la façon de les télécharger toutes à partir du serveur Gutenberg?
J'ai besoin d'eux pour faire une recherche linguistique.
la source
--level=0
. Mais je suppose que vous feriez mieux de permettre d'interrompre et de redémarrer: essayez--level 9999 --no-clobber
, qui ignorera les fichiers que vous avez déjà (en supposant que vous êtes toujours dans le même dossier sur le disque).--input-file
dans le manuel .-c
option, mais quand même. J'ai donnéoffset=xxx
l'URL à refléter, mais elle est toujours téléchargée à partir de la première page.Vous pouvez télécharger l' intégralité de la collection Gutenberg de livres en anglais et d'autres langues dans un seul fichier ZIM, qui est hautement compressé et peut ensuite être ouvert avec Kiwix à la fois sur le bureau et Android. Les livres en anglais font 40 Go.
la source
Bien que la réponse sélectionnée soit correcte, elle entraînera potentiellement deux problèmes:
wget
commande échouera, c'est des contrôles récursifs lors du téléchargement des fichiers à partir d'un miroir externe.La solution ci-dessous résout ces problèmes:
Vous souhaiterez peut-être modifier le référent et les chaînes d'agent utilisateur pour fournir un peu d'aléatoire.
la source
ftp://mirrors.pglaf.org/mirrors/gutenberg-iso a quelques bonnes options.
ftp://mirrors.pglaf.org/mirrors/gutenberg-iso/pgdvd042010.iso est un fichier de 8 Go qui devrait être suffisant pour vos besoins.
Il y a plus d'informations ici:
https://www.gutenberg.org/wiki/Gutenberg:The_CD_and_DVD_Project#Downloading_Via_FTP , il donne toutes les options de téléchargement de l'archive, y compris FTP et BitTorrent.
la source
Une autre option est le grand outil sur http://pgiso.pglaf.org/ .
la source
Pourquoi ne pas utiliser toutes vos compétences et connaissances de programmation trop compliquées et illustrées ci-dessus pour créer un simple bouton qui relie toutes ces actions et dit "Télécharger tous les livres actuels" - avec un onglet d'option de langue lorsque vous cliquez dessus.
Je suis sûr que la plupart des utilisateurs qui viennent sur le site sont des collectionneurs de livres électroniques, et le téléchargement manuel de certains livres sur des sujets qui les intéressent est OK pour 1 ou 2 livres. Mais faire une plus grande collection manuellement est un frein. Néanmoins, s'ils en ont besoin pour la recherche ou s'ils souhaitent simplement posséder une énorme bibliothèque numérique de livres sur leur propre PC. La plupart des gens sont désactivés et se dispersent loin du site lorsqu'ils se rendent compte qu'ils doivent être un assistant informatique pour ce faire. encore plus de visiteurs sur le site. Ainsi, tout le monde est content.
la source