Entropie différentielle

13

L'entropie différentielle du RV gaussien est . Cela dépend de , qui est l'écart-type.log2(σ2πe)σ

Si nous normalisons la variable aléatoire pour qu'elle ait une variance unitaire, son entropie différentielle diminue. Pour moi, cela est contre-intuitif car la complexité de Kolmogorov de la constante de normalisation devrait être très faible par rapport à la réduction de l'entropie. On peut simplement concevoir un décodeur d'encodeur qui divise / multiple avec la constante de normalisation pour récupérer tout ensemble de données généré par cette variable aléatoire.

Ma compréhension est probablement fausse. Pourriez-vous s'il vous plaît signaler mon défaut?

Cagdas Ozgenc
la source

Réponses:

17

Je vais essayer, même si c'est un peu au-dessus de ma tête, alors traitez avec une pincée de sel ...

Tu n'as pas vraiment tort. Je pense que là où votre expérience de pensée tombe, c'est que l'entropie différentielle n'est pas le cas limite de l'entropie. Je suppose qu'à cause de cela, les parallèles entre cela et la complexité de Kolmogorov sont perdus.

Disons que nous avons une variable aléatoire discrète . Nous pouvons calculer son entropie de Shannon comme suit en additionnant toutes ses valeurs possibles , Xxi

H(X)=iP(X=xi)log(P(X=xi)).

Jusqu'ici si ennuyeux. Supposons maintenant que est une version quantifiée d'une variable aléatoire continue - disons, nous avons la fonction de densité qui génère des échantillons à partir de l'ensemble des nombres réels, et nous transformons cela en un histogramme. Nous aurons un histogramme suffisamment fin pour que la fonction de densité soit essentiellement linéaire. Dans ce cas, nous allons avoir une entropie quelque chose comme ça, où est la largeur de nos cases d'histogramme et est le milieu de chacun. Nous avons un produit à l'intérieur de ce logarithme - séparons cela et utilisons la propriété des distributions de probabilités sommant à 1 pour le déplacer en dehors de la sommation, nous donnant Xp()

H(X)ip(X=xi)δxlog(p(X=xi)δx),
δxxi
H(X)log(δx)ip(X=xi)δxlog(p(X=xi)).

Si nous prenons la limite, en laissant et en transformant la sommation en une intégration, notre approximation devient exacte et nous obtenons ce qui suit, δxdx

H(X)=log(dx)xp(X=x)log(p(X=x))dx.

Le terme sur le côté droit est l'entropie différentielle. Mais regardez ce terme horrible . Nous devons l'ignorer pour éviter que toutes nos réponses soient NaN. Je crains que cela signifie que l'entropie différentielle n'est pas le cas limite de l'entropie de Shannon.log(dx)

Donc, nous perdons certaines propriétés. Oui, le redimensionnement de vos données modifie l'entropie différentielle - l'entropie différentielle est en quelque sorte une mesure de la façon dont le fichier PDF est `` étroitement emballé ''. Si vous le redimensionnez, cela change. Une autre propriété amusante est qu'elle peut devenir négative, contrairement à l'entropie de Shannon - essayez de définir vraiment très petit et voyez ce qui se passe. Perdre le lien avec la complexité de Kolmogorov, je pense que ce n'est qu'une autre victime.σ

Heureusement, nous ne sommes pas entièrement perdus. Les divergences Kullback – Leibler, et par extension les informations mutuelles, se comportent assez bien car tous les s'annulent. Par exemple, vous pouvez calculer où est une distribution de référence - disons, uniforme. C'est toujours positif, et lorsque vous redimensionnez la variable cela change à la fois et , donc les résultats sont beaucoup moins graves.δ

xp(X=x)log(p(X=x)q(X=x))dx
q(X)Xp(X)q(X)
Tapoter
la source
Merci. C'est très intéressant. Je ne savais pas qu'il y avait un tel gadget dans la théorie.
Cagdas Ozgenc
1
La notation n'est pas vraiment très significative, mais nous pouvons transformer une partie de votre exposition en quelque chose d'un peu plus précis. En effet, si la densité est Riemann intégrable, alors as . Une interprétation de cela que vous verrez souvent est qu'une quantification à bits d'une variable aléatoire continue a une entropie d'environ . p ( x ) - i p ( x i ) δ x log p ( x i ) h ( X ) δ x 0 n h ( X ) + nlog(dx)p(x)ip(xi)δxlogp(xi)h(X)δx0nh(X)+n
cardinal
1
@Cardinal. Ouais, je savais que était une chose horriblement étrange à parler quand je l'écrivais. Cependant, je pense que procéder de cette manière aide vraiment à comprendre pourquoi l'entropie différentielle n'est vraiment pas l'entropie. log(dx)
Pat
@Cagdas - Je ne sais pas si je l'appellerais un gadget. Il s'agit simplement de mesurer une chose différente. Et comme le souligne le cardinal, il a certaines utilisations. Quant à savoir s'il cassera lorsqu'il sera appliqué à la distribution binominale, eh bien, cela dépend de la façon dont vous allez l'appliquer :). Il vaut probablement la peine de commencer un nouveau sujet si vous n'êtes pas sûr.
Pat
Je pensais que l'entropie est évidemment différente de la complexité de Kolmogorov quand on considère les générateurs de nombres pseudo-aléatoires.
James Bowery