Alternatives à wget

13

J'ai un site sur un serveur qui est essentiellement un tas de pages HTML, d'images et de sons.

J'ai perdu mon mot de passe sur ce serveur et je dois récupérer tout ce qui y est stocké. Je peux aller page par page et tout enregistrer mais le site compte plus de 100 pages.

J'utilise OSX. J'ai essayé d'utiliser wgetmais je pense que le serveur bloque cela.

Existe-t-il une alternative que je peux utiliser pour récupérer ce contenu?

SpaceDog
la source
Si vous avez un accès physique au serveur, démarrez en mode mono-utilisateur et récupérez votre mot de passe. debuntu.org/…
spuder

Réponses:

15

Si le serveur bloque wget, il le fait très probablement sur la base du champ "User-agent:" de l'en-tête http, car c'est le seul moyen pour lui de le savoir en premier lieu. Cela peut également bloquer votre adresse IP, auquel cas l'utilisation de différents logiciels ne vous aidera pas, ou un schéma qui identifie l'automatisation en fonction de la rapidité d'un ensemble de demandes (car les vraies personnes ne parcourent pas 100 pages en 3,2 secondes) . Je n'ai entendu parler de personne faisant cela, mais c'est possible.

Je n'ai pas non plus entendu parler d'un moyen de ralentir wget, mais il existe un moyen d'usurper le champ user-agent:

wget --user-agent=""

Selon la page de manuel, "User-agent:" sera complètement supprimé, car il n'est pas obligatoire. Si le serveur n'aime pas ça, essayez --user-agent="Mozilla/5.0"ce qui devrait être assez bon.

Bien sûr, il serait utile que vous expliquiez mieux pourquoi vous "pensez que le serveur bloque cela". Est-ce que wget dit quelque chose ou s'arrête juste?

boucle d'or
la source
Oh oui! Merci. Je l'ai manqué sur l'aide wget. Il fonctionne maintenant!!!!!!!!!!!!!!!!!!!!!!!!
SpaceDog
5
wgetdispose d'un certain nombre d'options pour attendre entre les requêtes, limiter le taux ou le montant téléchargé. Consultez la infopage pour plus de détails.
Stéphane Chazelas
6

J'utilise habituellement httrackpour télécharger / mettre en miroir du contenu Web à partir d'un site.

$ httrack http://2011.example.com -K -w -O . -%v --robots=0 -c1 %e0

Après son exécution, vous vous retrouvez avec une structure de répertoires locale et consultable. Par exemple:

$ ls -l
total 304
-rw-r--r--  1 saml saml   4243 Aug 17 10:20 backblue.gif
-rw-r--r--  1 saml saml    828 Aug 17 10:20 fade.gif
drwx------  3 saml saml   4096 Aug 17 10:20 hts-cache
-rw-rw-r--  1 saml saml    233 Aug 17 10:20 hts-in_progress.lock
-rw-rw-r--  1 saml saml   1517 Aug 17 10:20 hts-log.txt
-rw-------  1 saml saml 271920 Aug 17 10:22 hts-nohup.out
-rw-r--r--  1 saml saml   5141 Aug 17 10:20 index.html
drwxr-xr-x 10 saml saml   4096 Aug 17 10:21 2011.example.com

Pendant le téléchargement, vous verrez le type de sortie suivant:

Bytes saved:    21,89KiB           Links scanned:   12/45 (+4)
Time:   2s                         Files written:   4
Transfer rate:  2,65KiB/s (2,65KiB/s)  Files updated:   1
Active connections:     1          Errors:  7

Current job: parsing HTML file (57%)
 request -  2011.example.com/cgi-bin/hostnames.pl   0B /    8,00KiB

Il peut être mis en arrière-plan et / ou abandonné et repris plus tard. Ce n'est que la pointe de l'iceberg en termes de fonctionnalités. Il existe également une interface graphique pour la configuration d'un téléchargement et sa surveillance au fur et à mesure de sa progression.

Il existe une documentation complète sur le httracksite Web et sur Google.

slm
la source