Je vais essayer, même si c'est un peu au-dessus de ma tête, alors traitez avec une pincée de sel ...
Tu n'as pas vraiment tort. Je pense que là où votre expérience de pensée tombe, c'est que l'entropie différentielle n'est pas le cas limite de l'entropie. Je suppose qu'à cause de cela, les parallèles entre cela et la complexité de Kolmogorov sont perdus.
Disons que nous avons une variable aléatoire discrète . Nous pouvons calculer son entropie de Shannon comme suit en additionnant toutes ses valeurs possibles ,
Xxi
H(X)=−∑iP(X=xi)log(P(X=xi)).
Jusqu'ici si ennuyeux. Supposons maintenant que est une version quantifiée d'une variable aléatoire continue - disons, nous avons la fonction de densité qui génère des échantillons à partir de l'ensemble des nombres réels, et nous transformons cela en un histogramme. Nous aurons un histogramme suffisamment fin pour que la fonction de densité soit essentiellement linéaire. Dans ce cas, nous allons avoir une entropie quelque chose comme ça,
où est la largeur de nos cases d'histogramme et est le milieu de chacun. Nous avons un produit à l'intérieur de ce logarithme - séparons cela et utilisons la propriété des distributions de probabilités sommant à 1 pour le déplacer en dehors de la sommation, nous donnant
Xp()
H(X)≈−∑ip(X=xi)δxlog(p(X=xi)δx),
δxxiH(X)≈−log(δx)−∑ip(X=xi)δxlog(p(X=xi)).
Si nous prenons la limite, en laissant et en transformant la sommation en une intégration, notre approximation devient exacte et nous obtenons ce qui suit,
δx→dx
H(X)=−log(dx)−∫xp(X=x)log(p(X=x))dx.
Le terme sur le côté droit est l'entropie différentielle. Mais regardez ce terme horrible . Nous devons l'ignorer pour éviter que toutes nos réponses soient NaN. Je crains que cela signifie que l'entropie différentielle n'est pas le cas limite de l'entropie de Shannon.log(dx)
Donc, nous perdons certaines propriétés. Oui, le redimensionnement de vos données modifie l'entropie différentielle - l'entropie différentielle est en quelque sorte une mesure de la façon dont le fichier PDF est `` étroitement emballé ''. Si vous le redimensionnez, cela change. Une autre propriété amusante est qu'elle peut devenir négative, contrairement à l'entropie de Shannon - essayez de définir vraiment très petit et voyez ce qui se passe. Perdre le lien avec la complexité de Kolmogorov, je pense que ce n'est qu'une autre victime.σ
Heureusement, nous ne sommes pas entièrement perdus. Les divergences Kullback – Leibler, et par extension les informations mutuelles, se comportent assez bien car tous les s'annulent. Par exemple, vous pouvez calculer
où est une distribution de référence - disons, uniforme. C'est toujours positif, et lorsque vous redimensionnez la variable cela change à la fois et , donc les résultats sont beaucoup moins graves.δ
∫xp(X=x)log(p(X=x)q(X=x))dx
q(X)Xp(X)q(X)