Pourquoi la divergence KL n'est-elle pas négative?
Du point de vue de la théorie de l'information, j'ai une telle compréhension intuitive:
Disons qu'il y a deux ensembles et qui sont composés du même ensemble d'éléments étiquetés par . et sont des distributions de probabilité différentes sur l'ensemble et respectivement.
Du point de vue de la théorie de l' information, est la plus petite quantité de bits nécessaires pour enregistrer un élément pour ensemble . Pour que l'attente puisse être interprétée comme au moins le nombre de bits dont nous avons besoin pour enregistrer un élément dans en moyenne.
Étant donné que cette formule met une borne inférieure sur les bits dont nous avons besoin en moyenne, de sorte que pour un ensemble différent qui entraîne une distribution de probabilité différente , la borne qu'elle donne pour chaque élément ne sera certainement pas le bit qui est donné par , ce qui signifie prendre l'espérance,
cette longueur moyenne sera sûrement supérieure à la précédente, ce qui conduit à
Je ne mets pas ici puisque p (x) et q (x) sont différents.q ( x ) x p ( x ) ∑ x ∈ e n s e m b l e - p ( x ) ln ( q ( x ) ) ∑ x ∈ e n s e m b l e p ( x ) ln ( p ( x )
≥p(x)q(x)
Ceci est ma compréhension intuitive, existe-t-il un moyen purement mathématique de prouver que la divergence KL est non négative? Le problème peut être déclaré comme suit:
Étant donné que et sont tous deux positifs sur la ligne réelle, et , . Prouver n'est pas négatif.q ( x ) ∫ + ∞ - ∞ p ( x ) d x = 1 ∫ + ∞ - ∞ q ( x ) d x = 1 ∫ + ∞ - ∞ p ( x ) ln p ( x )
Comment cela peut-il être prouvé? Ou cela peut-il être prouvé sans conditions supplémentaires?
la source
Réponses:
Preuve 1:
Notons tout d'abord que pour tout a > 0 .lna ≤ a - 1 a > 0
La raison pour laquelle je n'inclus pas cela en tant que preuve distincte est que si vous me demandiez de prouver l'inégalité de Gibbs, je devrais partir de la non-négativité de la divergence KL et faire la même preuve par le haut.
où nous avons utilisé l'inégalité de la somme Log en (b).
Preuve 3:
(Tiré du livre "Elements of Information Theory" de Thomas M. Cover et Joy A. Thomas)
où en (c) nous avons utilisé l'inégalité de Jensen et le fait queJournal est une fonction concave.
la source