Ce que je veux dire, c'est de télécharger chaque page disponible à partir de la Wayback Machine sur une période et un intervalle de temps spécifiés. Par exemple, je veux télécharger chaque page disponible de chaque jour sur nature.com de janvier 2012 à décembre 2012. (Pas précisément ce que je veux faire, mais c'est assez proche - et fournit un bon exemple.)
Malheureusement, wget ne fonctionnera pas en raison de la nature unique du fonctionnement de la machine Wayback.
Des outils comme Wayback Machine downloader ne téléchargent que la version la plus récente de la page, semble-t-il.
Interagir avec l'API IA semble être une voie viable, mais je ne sais pas comment cela fonctionnerait.
Merci!
Réponses:
Les
wayback
URL sont formatées comme suit:Voici
BASEURL
généralementhttp://web.archive.org/web
(je dis généralement car je ne sais pas si c'est le seul BASEURL)TARGET
est explicite (dans votre cashttp://nature.com
, ou une URL similaire)TIMESTAMP
c'estYYYYmmddHHMMss
quand la capture a été faite (en UTC):YYYY
: Annéemm
: Mois (2 chiffres - 01 à 12)dd
: Jour du mois (2 chiffres - 01 à 31)HH
: Heure (2 chiffres - 00 à 23)MM
: Minute (2 chiffres - 00 à 59)ss
: Deuxième (2 chiffres - 00 à 59)Si vous demandez une heure de capture qui n'existe pas, la machine de renvoi redirige vers la capture la plus proche pour cette URL, que ce soit dans le futur ou dans le passé.
Vous pouvez utiliser cette fonctionnalité pour obtenir chaque URL quotidienne à l'aide de
curl -I
(HTTPHEAD
) pour obtenir l'ensemble d'URL:Cela vous donne les URL les plus proches de midi chaque jour de 2012. Supprimez simplement les doublons et téléchargez les pages.
Remarque: Le script ci-dessus peut probablement être considérablement amélioré pour avancer dans le cas où il
REDIRECT
s'agit d'une URL plus d'un jour à l'avenir, mais cela nécessite ensuite de déconstruire l'URL retournée et de l'ajusterSTART
à la valeur de date correcte.la source
wget
ou toute autrepage-getter
avec les options correctes (notez l'-I
option pourcurl
).Il y a un joyau rubis sur Github: https://github.com/hartator/wayback-machine-downloader
la source