Comment interpréter l'entropie différentielle?

15

J'ai récemment lu cet article sur l'entropie d'une distribution de probabilité discrète. Il décrit une belle façon de penser à l'entropie comme les bits numériques attendus (au moins lors de l'utilisation de log2 dans votre définition d'entropie) nécessaires pour coder un message lorsque votre codage est optimal, compte tenu de la distribution de probabilité des mots que vous utilisez.

Cependant, en étendant au cas continu comme ici, je crois que cette façon de penser tombe en panne, car pour toute distribution de probabilité continue (veuillez me corriger si c'est faux), donc je se demandait s'il y avait une belle façon de penser à ce que signifie l'entropie continue, tout comme avec le cas discret.xp(x)=p(x)

dippynark
la source
Avez-vous essayé de lire des articles Wikipedia sur l'entropie et l'entropie différentielle?
ttnphns
Une distribution continue n'a pas de fonction de masse de probabilité. L'analogue dans le cas continu est l'intégrale d'une densité de probabilité et l'intégrale sur toute la plage de x est égale à 1.
Michael R. Chernick
@MichaelChernick Je n'ai pas dit qu'il en avait un, mais la façon de penser à l'affaire discrète repose sur le fait que la somme est égale à 1.
dippynark
@ttnphns non, je n'ai pas, mais je vais les vérifier maintenant, merci.
dippynark
Voir aussi stats.stackexchange.com/questions/66186/… pour l'interprétation de l'entropie de Shannon. Certaines idées peuvent être transférées.
kjetil b halvorsen

Réponses:

15

Il n'y a pas d'interprétation de l'entropie différentielle qui serait aussi significative ou utile que celle de l'entropie. Le problème avec les variables aléatoires continues est que leurs valeurs ont généralement une probabilité de 0 et nécessiteraient donc un nombre infini de bits pour être codées.

Si vous regardez la limite de l'entropie discrète en mesurant la probabilité des intervalles [nε,(n+1)ε[ , vous vous retrouvez avec

p(x)log2p(x)dxlog2ε

et non l'entropie différentielle. Cette quantité est en un sens plus significative, mais divergent à l'infini lorsque nous prenons des intervalles de plus en plus petits. Cela a du sens, car nous aurons besoin de plus en plus de bits pour coder dans lequel des nombreux intervalles la valeur de notre valeur aléatoire tombe.

Une quantité plus utile pour examiner les distributions continues est l'entropie relative (également divergence de Kullback-Leibler). Pour les distributions discrètes:

DKL[P||Q]=xP(x)log2P(x)Q(x).

PlogQ2(x)x

DKL[p∣∣q]=p(x)log2p(x)q(x)dx,

log2ε

p(x)λ(x)=1

p(x)log2p(x)dx=DKL[p∣∣λ].

log2nε(n+1)εp(x)dxnlogελ

Voir l'exposé de Sergio Verdu pour une excellente introduction à l'entropie relative.

Lucas
la source