J'essaie de télécharger deux sites à inclure sur un CD:
http://boinc.berkeley.edu/trac/wiki
http://www.boinc-wiki.info
Le problème que j'ai, c'est que ce sont deux wikis. Ainsi, lors du téléchargement avec par exemple:
wget -r -k -np -nv -R jpg,jpeg,gif,png,tif http://www.boinc-wiki.info/
J'obtiens beaucoup de fichiers car il suit également des liens comme ...? Action = edit ...? Action = diff & version = ...
Quelqu'un connaît-il un moyen de contourner cela?
Je veux juste les pages actuelles, sans images, sans différences etc.
PS:
wget -r -k -np -nv -l 1 -R jpg,jpeg,png,gif,tif,pdf,ppt http://boinc.berkeley.edu/trac/wiki/TitleIndex
Cela a fonctionné pour berkeley mais boinc-wiki.info me pose toujours des problèmes: /
PPS:
J'ai obtenu ce qui semble être les pages les plus pertinentes avec:
wget -r -k -nv -l 2 -R jpg,jpeg,png,gif,tif,pdf,ppt http://www.boinc-wiki.info
Réponses:
La nouvelle version de wget (v.1.14) résout tous ces problèmes.
Vous devez utiliser la nouvelle option
--reject-regex=....
pour gérer les chaînes de requête.Notez que je n'ai pas trouvé le nouveau manuel qui inclut ces nouvelles options, vous devez donc utiliser la commande d'aide
wget --help > help.txt
la source
(
--reject-type posix
par défaut). Fonctionne uniquement pour les versions récentes (> = 1.14) dewget
cependant, selon d'autres commentaires.Attention, il semble que vous ne puissiez l'utiliser
--reject-regex
qu'une seule fois parwget
appel. Autrement dit, vous devez utiliser|
dans une seule expression régulière si vous souhaitez sélectionner plusieurs expressions régulières:la source
|
symbole ("pipe") ne fonctionne pas pour moi avec GNU Wget 1.16.Cela exclura tout ce qui contient
?action=
son nom.la source
Je dirais que leeching d'un site wiki public est une mauvaise pratique, car il met une charge supplémentaire sur lui.
Si un wiki est public et que les propriétaires du site ne se soucient pas de partager le contenu, ils fournissent généralement un vidage téléchargeable (base de données ou autre). Il vous suffit donc de télécharger le pack de données, de configurer une instance locale du même moteur wiki, d'y importer les données et d'en avoir une copie locale. Après cela, si vous le souhaitez, vous pouvez faire la sangsue localement.
la source