J'essaie de télécharger deux sites à inclure sur un CD:
http://boinc.berkeley.edu/trac/wiki
http://www.boinc-wiki.info
Le problème que j'ai, c'est que ce sont deux wikis. Ainsi, lors du téléchargement avec par exemple:
wget -r -k -np -nv -R jpg,jpeg,gif,png,tif http://www.boinc-wiki.info/
J'obtiens beaucoup de fichiers car il suit également des liens comme ...? Action = edit ...? Action = diff & version = ...
Quelqu'un connaît-il un moyen de contourner cela?
Je veux juste les pages actuelles, sans images, sans différences etc.
PS:
wget -r -k -np -nv -l 1 -R jpg,jpeg,png,gif,tif,pdf,ppt http://boinc.berkeley.edu/trac/wiki/TitleIndex
Cela a fonctionné pour berkeley mais boinc-wiki.info me donne toujours des ennuis: /
PPS:
J'ai obtenu ce qui semble être les pages les plus pertinentes avec:
wget -r -k -nv -l 2 -R jpg,jpeg,png,gif,tif,pdf,ppt http://www.boinc-wiki.info
Réponses:
(
--reject-type posix
par défaut). Fonctionne uniquement pour les versions récentes (> = 1.14) dewget
cependant, selon d'autres commentaires.Attention, il semble que vous ne puissiez l'utiliser
--reject-regex
qu'une seule fois parwget
appel. Autrement dit, vous devez utiliser|
dans une seule expression régulière si vous souhaitez sélectionner sur plusieurs expressions régulières:la source
wget --reject-regex '\?' http://example.com
est suffisant.La documentation de wget indique:
Il semble que cette fonctionnalité soit sur la table depuis un certain temps et que rien n'a été fait avec.
Je ne l'ai pas utilisé, mais httrack semble avoir un ensemble de fonctionnalités de filtrage plus robuste que wget et peut être mieux adapté à ce que vous recherchez (lisez les filtres ici http://www.httrack.com/html /fcguide.html ).
la source
La nouvelle version de wget (v.1.14) résout tous ces problèmes.
Vous devez utiliser la nouvelle option
--reject-regex=....
pour gérer les chaînes de requête.Notez que je n'ai pas trouvé le nouveau manuel qui inclut ces nouvelles options, vous devez donc utiliser la commande d'aide
wget --help > help.txt
la source
Pavuk devrait pouvoir le faire:
http://pavuk.sourceforge.net/man.html#sect39
Exemple Mediawiki:
la source
Il semble que vous essayez d'éviter de télécharger des pages spéciales de MediaWiki. J'ai résolu ce problème une fois en évitant la
index.php
page:Cependant, le wiki a utilisé les URL comme vu dans Wikipedia (
http://<wiki>/en/Theme
) et non le modèle que j'ai vu dans d'autres endroits (http://<wiki>/index.php?title=Theme
). Étant donné que le lien que vous avez donné utilise des URL dans le modèle Wikipedia, je pense que cette solution peut également fonctionner pour vous.la source
'-R rejlist --reject rejlist' Spécifiez des listes séparées par des virgules de suffixes ou de modèles de nom de fichier à accepter ou à rejeter (voir Types de fichiers). Notez que si l'un des caractères génériques, '*', '?', '[' Ou ']', apparaît dans un élément de acclist ou rejlist, il sera traité comme un modèle plutôt que comme un suffixe.
Les motifs sont probablement ce que vous voulez. Je ne sais pas à quel point les modèles sont sophistiqués mais vous pouvez soit essayer d'accepter uniquement certains fichiers, soit bloquer:
J'accepte:
Edit: nvm à la lumière de l'autre post.
la source