Pourquoi la divergence KL n'est pas négative?

18

Pourquoi la divergence KL n'est-elle pas négative?

Du point de vue de la théorie de l'information, j'ai une telle compréhension intuitive:

Disons qu'il y a deux ensembles UNE et B qui sont composés du même ensemble d'éléments étiquetés par X . p(X) et q(X) sont des distributions de probabilité différentes sur l'ensemble UNE et B respectivement.

Du point de vue de la théorie de l' information, Journal2(P(X)) est la plus petite quantité de bits nécessaires pour enregistrer un élément X pour ensemble UNE . Pour que l'attente puisse être interprétée comme au moins le nombre de bits dont nous avons besoin pour enregistrer un élément dans en moyenne.

Xensemble-p(X)ln(p(X))
UNE

Étant donné que cette formule met une borne inférieure sur les bits dont nous avons besoin en moyenne, de sorte que pour un ensemble différent qui entraîne une distribution de probabilité différente , la borne qu'elle donne pour chaque élément ne sera certainement pas le bit qui est donné par , ce qui signifie prendre l'espérance, cette longueur moyenne sera sûrement supérieure à la précédente, ce qui conduit à Je ne mets pas ici puisque p (x) et q (x) sont différents.q ( x ) x p ( x ) x e n s e m b l e - p ( x ) ln ( q ( x ) ) x e n s e m b l e p ( x ) ln ( p ( x )Bq(X)Xp(X)

xensemblep(x)ln(q(x))

p(x)q(x)
Xensemblep(X)ln(p(X))ln(q(X))>0
p(X)q(X)

Ceci est ma compréhension intuitive, existe-t-il un moyen purement mathématique de prouver que la divergence KL est non négative? Le problème peut être déclaré comme suit:

Étant donné que et sont tous deux positifs sur la ligne réelle, et , . Prouver n'est pas négatif.q ( x ) + - p ( x ) d x = 1 + - q ( x ) d x = 1 + - p ( x ) ln p ( x )p(X)q(X)-+p(X)X=1-+q(X)X=1

-+p(X)lnp(X)q(X)

Comment cela peut-il être prouvé? Ou cela peut-il être prouvé sans conditions supplémentaires?

meTchaikovsky
la source
1
Si vous comprenez la preuve de l' inégalité de Fano, il est facile de déduire la non négativité de l'entropie relative.
Lerner Zhang

Réponses:

30

Preuve 1:

Notons tout d'abord que pour tout a > 0 .lnuneune-1une>0

-KL(p||q)0KL(p||q)0

-(p||q)=-Xp(X)lnp(X)q(X)=Xp(X)lnq(X)p(X)(une)Xp(X)(q(X)p(X)-1)=Xq(X)-Xp(X)=1-1=0

ln

-Xp(X)Journal2p(X)-Xp(X)Journal2q(X)

Xp(X)Journal2p(X)-Xp(X)Journal2q(X)0Xp(X)Journal2p(X)q(X)0

La raison pour laquelle je n'inclus pas cela en tant que preuve distincte est que si vous me demandiez de prouver l'inégalité de Gibbs, je devrais partir de la non-négativité de la divergence KL et faire la même preuve par le haut.


je=1nunejeJournal2unejebje(je=1nuneje)Journal2je=1nunejeje=1nbje

KL(p||q)0

(p||q)=Xp(X)Journal2p(X)q(X)b)(Xp(X))Journal2Xp(X)Xq(X)=1Journal211=0

où nous avons utilisé l'inégalité de la somme Log en (b).


Preuve 3:

(Tiré du livre "Elements of Information Theory" de Thomas M. Cover et Joy A. Thomas)

-(p||q)=-Xp(X)Journal2p(X)q(X)=Xp(X)Journal2q(X)p(X)(c)Journal2Xp(X)q(X)p(X)=Journal21=0

où en (c) nous avons utilisé l'inégalité de Jensen et le fait queJournal est une fonction concave.

Andreas G.
la source