Comment télécharger un site web à partir de la archive archive.org Wayback Machine?

84

Je veux obtenir tous les fichiers d'un site Web donné sur archive.org. Les raisons pourraient inclure:

  • l'auteur original n'a pas archivé son propre site Web et il est maintenant hors ligne, je souhaite en faire une mémoire cache publique
  • Je suis l'auteur original d'un site Web et j'ai perdu du contenu. Je veux le récupérer
  • ...

Comment je fais ça ?

Considérant que la machine de retour archive.org est très spéciale: les liens de page Web ne pointent pas vers l'archive elle-même, mais vers une page Web qui pourrait ne plus être là. JavaScript est utilisé côté client pour mettre à jour les liens, mais une astuce telle qu'un wget récursif ne fonctionnera pas.

utilisateur36520
la source
14
Je suis tombé sur le même problème et j'ai codé une gemme. Pour installer: gem install wayback_machine_downloader. Exécutez wayback_machine_downloader avec l'URL de base du site Web que vous souhaitez récupérer en tant que paramètre: wayback_machine_downloader http://example.comPlus d'informations: github.com/hartator/wayback_machine_downloader
Hartator
3
Une aide étape par étape pour les utilisateurs de Windows (win8.1 64 bits pour moi), une nouveauté de Ruby, voici ce que j'ai fait pour que cela fonctionne: 1) J'ai installé rubyinstaller.org/downloads puis j'exécute le programme "rubyinstaller-2.2.3-x64 .exe "2) a téléchargé le fichier zip github.com/hartator/wayback-machine-downloader/archive/… 3) décompressez le zip dans mon ordinateur 4) recherchez" Démarrer l’invite de commande avec Ruby "(à suite)
Erb
3
5) suivez les instructions de github.com/hartator/wayback_machine_downloader (e; .g: copiez-collez cette "installation gem wayback_machine_downloader" dans l'invite. Appuyez sur Entrée pour installer le programme ... puis suivez les instructions "Utilisation"). 6) une fois votre site Web capturé, vous trouverez les fichiers dans C: \ Utilisateurs \ VOTREnom_utilisateur \ sites Web
Erb

Réponses:

64

J'ai essayé différentes façons de télécharger un site et j'ai finalement trouvé le téléchargeur de machine à remonter le chemin - qui avait déjà été mentionné par Hartator (donc tout le mérite lui revient, s'il vous plaît), mais je n'ai tout simplement pas remarqué son commentaire à la question. Pour vous faire gagner du temps, j'ai décidé d'ajouter la gem wayback_machine_downloader en tant que réponse séparée ici.

Le site http://www.archiveteam.org/index.php?title=Restoring répertorie ces méthodes de téléchargement à partir de archive.org:

  • Wayback Machine Downloader , petit outil en Ruby permettant de télécharger n’importe quel site Web depuis Wayback Machine. Gratuit et open-source. Mon choix!
  • Warrick - Le site principal semble en panne.
  • Wayback downloader , un service qui téléchargera votre site à partir de la Wayback Machine et ajoutera même un plugin pour Wordpress. Pas libre.
Comic Sans
la source
J'ai aussi écrit un « téléchargeur Wayback », en php, télécharger les ressources, les liens de réglage, etc: gist.github.com/divinity76/85c01de416c541578342580997fa6acf
hanshenrik
@ComicSans, sur la page que vous avez liée, qu'est-ce qu'une capture d'une équipe d'archives ?
Pacerier
1
Octobre 2018, le Wayback Machine Downloader fonctionne toujours.
Ce Guy brésilien
@Pacerier cela signifie (des ensembles de) fichiers WARC générés par Archive Team (et généralement introduits dans la machine de remontée d'Internet Archive), voir archive.org/details/archiveteam
Nemo
13

Cela peut être fait en utilisant un script shell bash combiné avecwget .

L'idée est d'utiliser certaines des fonctionnalités d'URL de la machine wayback:

  • http://web.archive.org/web/*/http://domain/*listera toutes les pages enregistrées de http://domain/manière récursive. Il peut être utilisé pour construire un index de pages à télécharger et éviter les heuristiques pour détecter les liens dans les pages Web. Pour chaque lien, il y a aussi la date de la première version et la dernière version.
  • http://web.archive.org/web/YYYYMMDDhhmmss*/http://domain/pagelistera toutes les versions de l' http://domain/pageannée AAAA. Dans cette page, des liens spécifiques vers les versions peuvent être trouvés (avec l'horodatage exact)
  • http://web.archive.org/web/YYYYMMDDhhmmssid_/http://domain/pagerenverra la page non modifiée http://domain/pageà l’horodatage donné. Notez le jeton id_ .

Ce sont les bases pour construire un script pour tout télécharger d'un domaine donné.

utilisateur36520
la source
7
Vous devriez vraiment utiliser l'API à la place archive.org/help/wayback_api.php Les pages d'aide de Wikipedia sont destinées aux éditeurs, pas au grand public. Cette page est donc centrée sur l'interface graphique, à la fois remplacée et inadéquate pour cette tâche.
Nemo
Il serait probablement plus facile de simplement prendre l’URL (comme http://web.archive.org/web/19981202230410/http://www.google.com/) et d’ajouter id_à la fin des "chiffres de la date". Ensuite, vous obtiendrez quelque chose comme http://web.archive.org/web/19981202230410id_/http://www.google.com/.
haykam
1
Un script en python peut également être trouvé ici: gist.github.com/ingamedeo/…
Amedeo Baragiola
4

Il existe un outil spécialement conçu à cet effet, Warrick: https://code.google.com/p/warrick/

Il est basé sur le protocole Memento.

Nemo
la source
3
Dans la mesure où j'ai réussi à l'utiliser (en mai 2017), il récupère simplement ce que archive.is contient, et ignore quasiment ce qui se trouve sur archive.org; il essaie également d'obtenir des documents et des images à partir des caches Google / Yahoo mais échoue complètement. Warrick a été cloné à plusieurs reprises sur GitHub depuis la fermeture de Google Code. Il existe peut-être de meilleures versions.
Gwyneth Llewelyn
0

Vous pouvez le faire facilement avec wget.

wget -rc --accept-regex '.*ROOT.*' START

Où se ROOTtrouve l'URL racine du site Web et STARTl'URL de départ. Par exemple:

wget -rc --accept-regex '.*http://www.math.niu.edu/~rusin/known-math/.*' http://web.archive.org/web/20150415082949fw_/http://www.math.niu.edu/~rusin/known-math/

Notez que vous devez ignorer le cadre d'habillage de l'archive Web pour l' STARTURL. Dans la plupart des navigateurs, vous pouvez cliquer avec le bouton droit de la souris sur la page et sélectionner "Afficher uniquement ce cadre".

Jcoffland
la source