J'essaie de mesurer maintenant beaucoup d'informations non redondantes (réelles) que contient mon fichier. Certains appellent cela la quantité d'entropie.
Bien sûr, il existe le journal standard p (x) {p (x)}, mais je pense que Shannon ne le considérait que du point de vue de la transmission via un canal. Par conséquent, la formule nécessite une taille de bloc (disons en bits, 8 généralement). Pour un fichier volumineux, ce calcul est assez inutile, ignorant les corrélations de courte à longue distance entre les symboles.
Il existe des méthodes d'arbre binaire et de Ziv-Lempel, mais elles semblent de nature très académique.
La compressibilité est également considérée comme une mesure de l'entropie, mais il ne semble pas y avoir de limite inférieure quant au degré de compression. Pour mon fichier hiss.wav,
- hiss.wav d'origine = 5,2 Mo
- entropie via la formule de Shannon = 4,6 Mo
- hiss.zip = 4,6 Mo
- sifflement.7z = 4,2 Mo
- hiss.wav.fp8 = 3,3 Mo
Existe-t-il une méthode raisonnablement praticable pour mesurer la quantité d'entropie qui existe dans hiss.wav?
Réponses:
L'entropie est une caractéristique d'une variable aléatoire . Un fichier donné a une entropie nulle, car il est constant. L'entropie est logique dans de nombreuses situations où il n'y a pas de canal, et vous pouvez l'appliquer à un ensemble aléatoire de fichiers WAV, par exemple, généré à partir d'une source donnée. Dans ce cas, votre est l' intégralité du fichier WAV.X
gzip
En raison de ce résultat de Lempel et Ziv, l'entropie d'une source peut être approximée en compressant une longue séquence d'échantillons à l'aide de l'algorithme Lempel – Ziv. Cela n'évalue pas l'entropie des échantillons spécifiques, ce qui n'est pas un concept bien défini (une séquence constante a une entropie nulle), mais plutôt l'entropie de la source qui la génère.
Un concept connexe est l' entropie algorithmique , également connue sous le nom de complexité de Kolmogorov . Il s'agit de la longueur du programme le plus court générant votre fichier. Cette quantité a du sens pour un fichier individuel. Dans le cas d'un fichier généré par une source aléatoire, le théorème de Lempel-Ziv montre que l'entropie algorithmique d'un fichier est limitée, avec une forte probabilité, par son entropie de Shannon. Malheureusement, l'entropie algorithmique n'est pas calculable, il s'agit donc davantage d'un concept théorique.
Pour compléter l'image, je suggère de lire l'article de Shannon sur la prédiction et l'entropie de l'anglais imprimé pour une approche différente de l'estimation de l'entropie d'une source.
la source