J'essaie de faire une copie complète d'un site Web; par exemple.,
http://vfilesarchive.bgmod.com/files/
je suis entrain de courir
wget -r -level=inf -R "index.html*" --debug http://vfilesarchive.bgmod.com/files/
et obtenir, par exemple
Deciding whether to enqueue "http://vfilesarchive.bgmod.com/files/Half-Life%D0%92%D0%86/".
Already on the black list.
Decided NOT to load it.
Qu'est-ce qui se passe?
Qu'est-ce que wget
dire par "liste noire",
pourquoi télécharge-t-il seulement une partie de ce qui existe,
et que dois-je faire pour obtenir le site Web entier?
La version de wget est
GNU Wget 1.20 built on mingw32
(sous Windows 10 x64).
P.S. Je pense avoir réussi à résoudre ça avec
wget -m --restrict-file-names=nocontrol --no-iri -R "index.html*" <target url>
même si les noms de fichiers sont légèrement paralysés en raison de caractères spéciaux dans les URL. Y a-t-il une meilleure solution?
download
wget
web-crawler
McUrgd
la source
la source
Réponses:
Je pense avoir réussi à résoudre ça avec
bien que les noms de fichiers soient légèrement endommagés en raison de caractères spéciaux dans les URL.
la source