Même si vous souhaitez télécharger php, il n'est pas possible d'utiliser wget. Nous ne pouvons obtenir que du HTML brut en utilisant wget. Je suppose que vous connaissez la raison
Venkateshwaran Selvaraj
NB: Vérifiez toujours avec d' wget --spiderabord, et ajoutez toujours -w 1(ou plus -w 5) pour ne pas inonder le serveur de l'autre personne.
+1 pour -e robots=off! Cela a finalement résolu mon problème! :) Merci
NHDaly
12
L' --random-waitoption est géniale;)
poitroae
2
@izilotti Le propriétaire du site peut-il savoir si vous WGET leurs fichiers de site avec cette méthode?
Elias7
1
@whatIsperfect C'est certainement possible.
Jack
1
@JackNicholsonn Comment le propriétaire du site le saura-t-il? L'agent utilisé était Mozilla, ce qui signifie que tous les en-têtes entreront en tant que navigateur Mozilla, il ne serait donc pas possible de détecter wget comme utilisé? Veuillez corriger si je me trompe. merci
KhoPhi
63
wget -m -p -E -k -K -np http://site/path/
La page de manuel vous dira ce que font ces options.
wgetne suivra que les liens, s'il n'y a pas de lien vers un fichier à partir de la page d'index, alors wgetne connaîtra pas son existence et ne le téléchargera donc pas. c'est à dire. cela aide si tous les fichiers sont liés dans des pages Web ou dans des index de répertoires.
Merci pour la réponse :) Il copie le site entier et je n'ai besoin que de fichiers (c'est-à-dire txt, pdf, image, etc.) dans le site Web
Aniruddhsinh
25
J'essayais de télécharger des fichiers zip liés à la page de thèmes d' Omeka - tâche assez similaire. Cela a fonctionné pour moi:
wget -A zip -r -l 1 -nd http://omeka.org/add-ons/themes/
-A: n'accepte que les fichiers zip
-r: recurse
-l 1: un niveau de profondeur (c'est-à-dire, uniquement les fichiers directement liés à cette page)
-nd: ne créez pas de structure de répertoires, téléchargez simplement tous les fichiers dans ce répertoire.
Toutes les réponses avec -k, -K, -Eetc options ont probablement pas vraiment compris la question, comme ceux que pour la réécriture des pages HTML pour faire une structure locale, renommer les .phpfichiers et ainsi de suite. Non pertinent.
Pour obtenir littéralement tous les fichiers sauf.html etc:
wget --spider
abord, et ajoutez toujours-w 1
(ou plus-w 5
) pour ne pas inonder le serveur de l'autre personne.Réponses:
Pour filtrer des extensions de fichier spécifiques:
Ou, si vous préférez les noms d'options longs:
Cela reflétera le site, mais les fichiers sans extension
jpg
ou sanspdf
extension seront automatiquement supprimés.la source
--accept
c'est sensible à la casse, vous devriez donc le faire--accept pdf,jpg,PDF,JPG
wget
mais vous devez spécifier un--progress
type, par exemple--progress=dot
--ignore-case
indicateur pour rendre--accept
insensible à la casse.Cela a téléchargé l' intégralité du site Web pour moi:
la source
-e robots=off
! Cela a finalement résolu mon problème! :) Merci--random-wait
option est géniale;)La page de manuel vous dira ce que font ces options.
wget
ne suivra que les liens, s'il n'y a pas de lien vers un fichier à partir de la page d'index, alorswget
ne connaîtra pas son existence et ne le téléchargera donc pas. c'est à dire. cela aide si tous les fichiers sont liés dans des pages Web ou dans des index de répertoires.la source
J'essayais de télécharger des fichiers zip liés à la page de thèmes d' Omeka - tâche assez similaire. Cela a fonctionné pour moi:
-A
: n'accepte que les fichiers zip-r
: recurse-l 1
: un niveau de profondeur (c'est-à-dire, uniquement les fichiers directement liés à cette page)-nd
: ne créez pas de structure de répertoires, téléchargez simplement tous les fichiers dans ce répertoire.Toutes les réponses avec
-k
,-K
,-E
etc options ont probablement pas vraiment compris la question, comme ceux que pour la réécriture des pages HTML pour faire une structure locale, renommer les.php
fichiers et ainsi de suite. Non pertinent.Pour obtenir littéralement tous les fichiers sauf
.html
etc:la source
-A
est sensible à la casse, je pense, donc vous devriez le faire-A zip,ZIP
Vous pouvez essayer:
Vous pouvez également ajouter:
pour accepter les extensions spécifiques ou pour refuser uniquement des extensions spécifiques:
ou pour exclure les zones spécifiques:
Si les fichiers sont ignorés pour les robots (par exemple les moteurs de recherche), vous devez également ajouter:
-e robots=off
la source
Essaye ça. Ça marche toujours pour moi
la source
cela téléchargera tous les types de fichiers localement et pointera vers eux à partir du fichier html et il ignorera le fichier robots
la source
Sur les systèmes Windows, pour obtenir wget, vous pouvez
la source