Je veux obtenir tous les fichiers d'un site Web donné sur archive.org. Les raisons pourraient inclure:
- l'auteur original n'a pas archivé son propre site Web et il est maintenant hors ligne, je souhaite en faire une mémoire cache publique
- Je suis l'auteur original d'un site Web et j'ai perdu du contenu. Je veux le récupérer
- ...
Comment je fais ça ?
Considérant que la machine de retour archive.org est très spéciale: les liens de page Web ne pointent pas vers l'archive elle-même, mais vers une page Web qui pourrait ne plus être là. JavaScript est utilisé côté client pour mettre à jour les liens, mais une astuce telle qu'un wget récursif ne fonctionnera pas.
gem install wayback_machine_downloader
. Exécutez wayback_machine_downloader avec l'URL de base du site Web que vous souhaitez récupérer en tant que paramètre:wayback_machine_downloader http://example.com
Plus d'informations: github.com/hartator/wayback_machine_downloaderRéponses:
J'ai essayé différentes façons de télécharger un site et j'ai finalement trouvé le téléchargeur de machine à remonter le chemin - qui avait déjà été mentionné par Hartator (donc tout le mérite lui revient, s'il vous plaît), mais je n'ai tout simplement pas remarqué son commentaire à la question. Pour vous faire gagner du temps, j'ai décidé d'ajouter la gem wayback_machine_downloader en tant que réponse séparée ici.
Le site http://www.archiveteam.org/index.php?title=Restoring répertorie ces méthodes de téléchargement à partir de archive.org:
la source
Cela peut être fait en utilisant un script shell bash combiné avec
wget
.L'idée est d'utiliser certaines des fonctionnalités d'URL de la machine wayback:
http://web.archive.org/web/*/http://domain/*
listera toutes les pages enregistrées dehttp://domain/
manière récursive. Il peut être utilisé pour construire un index de pages à télécharger et éviter les heuristiques pour détecter les liens dans les pages Web. Pour chaque lien, il y a aussi la date de la première version et la dernière version.http://web.archive.org/web/YYYYMMDDhhmmss*/http://domain/page
listera toutes les versions de l'http://domain/page
année AAAA. Dans cette page, des liens spécifiques vers les versions peuvent être trouvés (avec l'horodatage exact)http://web.archive.org/web/YYYYMMDDhhmmssid_/http://domain/page
renverra la page non modifiéehttp://domain/page
à l’horodatage donné. Notez le jeton id_ .Ce sont les bases pour construire un script pour tout télécharger d'un domaine donné.
la source
http://web.archive.org/web/19981202230410/http://www.google.com/
) et d’ajouterid_
à la fin des "chiffres de la date". Ensuite, vous obtiendrez quelque chose commehttp://web.archive.org/web/19981202230410id_/http://www.google.com/
.Il existe un outil spécialement conçu à cet effet, Warrick: https://code.google.com/p/warrick/
Il est basé sur le protocole Memento.
la source
Vous pouvez le faire facilement avec
wget
.Où se
ROOT
trouve l'URL racine du site Web etSTART
l'URL de départ. Par exemple:Notez que vous devez ignorer le cadre d'habillage de l'archive Web pour l'
START
URL. Dans la plupart des navigateurs, vous pouvez cliquer avec le bouton droit de la souris sur la page et sélectionner "Afficher uniquement ce cadre".la source