Je voudrais pouvoir faire une version hors ligne d'un site MediaWiki sur une base hebdomadaire.
L' extension DumpHTML fait en fait ce que je veux, car elle vide tous les articles et fichiers multimédias, mais je ne peux voir aucun index de tous les articles qu'elle a vidés, donc je ne peux pas naviguer dans le vidage.
En lisant la fonctionnalité de vidage XML de MediaWiki, je me demande s'il serait possible d'utiliser un programme pour afficher ces fichiers ou peut-être les convertir en html?
Ou existe-t-il d'autres façons de créer une version hors ligne d'un site MediaWiki?
Main Page
suivre les liens à partir de là.Réponses:
Vous pouvez utiliser un outil Webcrawler qui enregistrera le site sous forme de fichiers HTML. Tous les liens seront convertis, vous pouvez donc ouvrir la page principale, par exemple, puis cliquer sur les liens et accéder à tout le site.
Plusieurs de ces outils sont disponibles. J'utilise wget , qui est basé sur la ligne de commande et a des milliers d'options, donc pas très convivial. Cependant, il est assez puissant.
Par exemple, voici la ligne de commande que j'ai utilisée pour vider mon propre site mediawiki. Je vous suggère de comprendre chaque option avant de l'utiliser vous-même:
la source
Vous pouvez prendre le
-pages-articles.xml.bz2
sur le site de décharges de Wikimedia et les traiter avec WikiTaxi (télécharger dans le coin supérieur gauche). L'outil d'importation Wikitaxi créera un.taxi
fichier (environ 15 Go pour Wikipedia) à partir du.bz2
fichier. Ce fichier sera utilisé par le programme WikiTaxi pour rechercher des articles. L'expérience est très similaire à l'expérience du navigateur.Ou vous pouvez utiliser Kiwix , plus rapide à configurer car il fournit également les vidages (
.zim
fichiers) déjà traités . Comme le commentaire le spécifie afin de pouvoir utiliser d'autres sites MediaWiki pour kiwixmwoffliner
, cela peut ne pas fonctionner avec tous car ils peuvent avoir des différences personnalisées mais c'est la seule variante que j'ai rencontrée.Prendre des trucs Wikimedia
wget
n'est pas une bonne pratique. Si trop de gens le font, cela peut inonder les sites de demandes.Modifier plus tard pour le cas où vous souhaitez également les images hors ligne:
Projet XOWA
Si vous voulez un miroir complet de Wikipédia (y compris les images), le formatage HTML complet sera téléchargé en 30 heures environ , vous devez utiliser:
Wikipedia anglais a beaucoup de données. Il y a 13,9+ millions de pages avec 20,0+ Go de texte, ainsi que 3,7+ millions de miniatures.
XOWA :
Mais la version hors ligne ressemble beaucoup à la version en ligne, comprend des photos, etc.: (J'ai testé l'article ci-dessous complètement hors ligne)
Modification ultérieure si aucune des conditions ci-dessus ne s'applique:
Si le wiki ne fait pas partie de Wikimedia ou n'a pas de vidage, il y a un projet sur github qui télécharge ce wiki en utilisant son API:
WikiTeam - Nous archivons les wikis, de Wikipédia aux plus petits wikis
la source