Zip, Rar, 7z, Gzip, BZip2, Tar etc. J'entends que 7z est la saveur du mois, pourquoi? Est-il préférable pour toutes les situations ou existe-t-il de meilleurs choix pour des situations spécifiques?
Ou peut-être que l'archiveur de fichiers réel, c'est-à-dire WinZip, WinRar, 7Zip, etc. (par opposition au format) a un effet plus important?
Dans votre réponse, pourriez-vous décrire le type de compromis vitesse / compression utilisé par votre format mentionné.
Veuillez fournir des liens vers tous les tests empiriques qui corroborent votre réponse.
Contexte: je dois sauvegarder un index de recherche personnalisé qui crée environ 3000 fichiers relativement petits (moins de 10 Mo), chacun contenant un grand nombre de données répétitives.
(Comme d'habitude, Wikipedia a un article pertinent, mais la section sur la comparaison des performances est brève.)
Merci
la source
Lecture recommandée:
Compression de fichiers à l'ère multicœur (Jeff Atwood aka CodingHorror, février 2009)
Et concernant les algorithmes:
la source
Ce n'est pas une question d'efficacité et de vitesse. Bien sûr, ils sont importants et vous pouvez regarder les repères pour ceux-ci et choisir judicieusement parmi les options (bien que je vous recommande une simple analyse comparative avec vos propres données sur votre propre serveur). Mais l'archivage conduit inévitablement à un moment donné à accéder à nouveau à vos données (sinon pourquoi ne pas simplement les supprimer?). Ou peut-être des années plus tard, ce ne sera pas du tout vous qui accéderez aux données, mais quelqu'un de tiers. Choisissez quelque chose qui existera lorsque vous aurez besoin d'accéder aux données et quelque chose que les gens reconnaîtront. J'utilise personnellement 7zip, mais lorsque j'archive des fichiers, d'autres peuvent en avoir besoin, j'utilise zip. Ils le savent, beaucoup d'outils peuvent le gérer. Ce n'est peut-être pas aussi rapide ou aussi petit, mais cela contribue au facteur humain.
la source
lzma semble très bien fonctionner en termes de taux de compression et de vitesse.
Dans les http://tukaani.org/lzma/benchmarks suivants, le paramètre le plus rapide pour lzma a donné des temps de compression considérablement plus rapides que l'option bzip2 la plus rapide, tout en offrant une compression meilleure que l'option bzip2 la plus lente:
Il fonctionne particulièrement bien avec les données binaires, mais je pense que j'ai lu certains repères de texte brut où bzip2 l'a surpassé.
La page de manuel lzma mérite d'être lue:
la source
Jetez un oeil à cette entrée Wikipedia . Vers le bas, "Comparaison de l'efficacité". Il vous donnera approximativement le pourcentage de compression et le temps nécessaire. Tous ces nombres varient (en fonction de la vitesse) en fonction de la vitesse de la machine utilisée, de la quantité de mémoire, etc.
Plus de repères de compression:
la source
Comparaison du zip, 7z, rar avec deux étuis
Cela dépend de ce que vous compressez exactement, mais en général 7z utilise mieux plusieurs processeurs, et le format de compression 7z lui-même donne une compression plus élevée que zip, et parfois plus élevée que rar (bien que rar et 7z soient presque équivalents, mais rar isn pas gratuit ...)
Mes tests d'il y a quelques mois ont donné ces résultats:
Compression d'un seul fichier de base de données d'accès de 10 Mo:
Compression d'un dossier contenant plus de neuf mille fichiers de types différents (903 488 Ko) et obtenu les éléments suivants (il s'agit d'une combinaison de code source et de tous les outils qui l'entourent pour les logiciels en cours de développement):
Pour des raisons de temps, c'était sur un Core2 Duo, 2 GHz, 1 Go de RAM et un disque dur bon marché.
Donc, 7z a donné une amélioration substantielle du taux de compression dans les deux cas que j'ai testés au-dessus et au-delà de zip, et même amélioré sur rar, mais 7z était certainement plus lent. Pas vraiment, mais assez pour être noté.
-Adam
la source
Je viens d'installer Dar (mais je n'ai pas encore eu l'occasion de jouer avec). Il est similaire à tar avec compression gzip ou bzip2, avec la possibilité supplémentaire de diviser l'archive en plusieurs parties et de calculer la parité de sorte que si une ou plusieurs parties sont corrompues, elle puisse être reconstruite à partir des fichiers de parité.
la source