J'ai un site sur un serveur qui est essentiellement un tas de pages HTML, d'images et de sons.
J'ai perdu mon mot de passe sur ce serveur et je dois récupérer tout ce qui y est stocké. Je peux aller page par page et tout enregistrer mais le site compte plus de 100 pages.
J'utilise OSX. J'ai essayé d'utiliser wget
mais je pense que le serveur bloque cela.
Existe-t-il une alternative que je peux utiliser pour récupérer ce contenu?
Réponses:
Si le serveur bloque wget, il le fait très probablement sur la base du champ "User-agent:" de l'en-tête http, car c'est le seul moyen pour lui de le savoir en premier lieu. Cela peut également bloquer votre adresse IP, auquel cas l'utilisation de différents logiciels ne vous aidera pas, ou un schéma qui identifie l'automatisation en fonction de la rapidité d'un ensemble de demandes (car les vraies personnes ne parcourent pas 100 pages en 3,2 secondes) . Je n'ai entendu parler de personne faisant cela, mais c'est possible.
Je n'ai pas non plus entendu parler d'un moyen de ralentir wget, mais il existe un moyen d'usurper le champ user-agent:
Selon la page de manuel, "User-agent:" sera complètement supprimé, car il n'est pas obligatoire. Si le serveur n'aime pas ça, essayez
--user-agent="Mozilla/5.0"
ce qui devrait être assez bon.Bien sûr, il serait utile que vous expliquiez mieux pourquoi vous "pensez que le serveur bloque cela". Est-ce que wget dit quelque chose ou s'arrête juste?
la source
wget
dispose d'un certain nombre d'options pour attendre entre les requêtes, limiter le taux ou le montant téléchargé. Consultez lainfo
page pour plus de détails.J'utilise habituellement
httrack
pour télécharger / mettre en miroir du contenu Web à partir d'un site.Après son exécution, vous vous retrouvez avec une structure de répertoires locale et consultable. Par exemple:
Pendant le téléchargement, vous verrez le type de sortie suivant:
Il peut être mis en arrière-plan et / ou abandonné et repris plus tard. Ce n'est que la pointe de l'iceberg en termes de fonctionnalités. Il existe également une interface graphique pour la configuration d'un téléchargement et sa surveillance au fur et à mesure de sa progression.
Il existe une documentation complète sur le
httrack
site Web et sur Google.la source