Divergence de Kullback-Leibler SANS théorie de l'information

23

Après beaucoup de chalutage de Cross Validated, je n'ai toujours pas l'impression d'être plus proche de la compréhension de la divergence KL en dehors du domaine de la théorie de l'information. Il est plutôt étrange que quelqu'un ayant une formation en mathématiques trouve beaucoup plus facile de comprendre l'explication de la théorie de l'information.

Pour décrire ma compréhension dans un contexte de théorie de l'information: si nous avons une variable aléatoire avec un nombre fini de résultats, il existe un encodage optimal qui nous permet de communiquer le résultat avec quelqu'un d'autre avec en moyenne le message le plus court (je trouve cela le plus facile à image en termes de bits). La longueur attendue du message dont on aurait besoin pour communiquer le résultat est donnée par si le codage optimal est utilisé. Si vous deviez utiliser un codage sous-optimal, alors la divergence KL nous indique en moyenne combien de temps notre message serait.

-αpαbûche2(pα)

J'aime cette explication, car elle traite de manière assez intuitive de l'asymétrie de la divergence KL. Si nous avons deux systèmes différents, c'est-à-dire deux pièces chargées différemment, elles auront des codages optimaux différents. Je ne pense pas instinctivement que l'utilisation de l'encodage du deuxième système pour le premier soit "tout aussi mauvaise" que l'utilisation de l'encodage du premier système pour le second. Sans passer par le processus de réflexion sur la façon dont je me suis convaincu, je suis maintenant assez heureux que vous donne cette "longueur de message supplémentaire attendue", lorsque vous utilisez l'encodage de pour .

αpα(bûche2qα-bûche2pα)
qp

Cependant, la plupart des définitions de la divergence KL, y compris Wikipédia, font alors la déclaration (en gardant cela en termes discrets afin qu'elle puisse être comparée à l'interprétation de la théorie de l'information qui fonctionne beaucoup mieux en termes discrets car les bits sont discrets) que si nous avons deux probabilités discrètes distributions, puis KL fournit une mesure de "comment ils sont différents". Je n'ai pas encore vu une seule explication de la façon dont ces deux concepts sont même liés. Il me semble que dans son livre sur l'inférence, Dave Mackay souligne que la compression et l'inférence des données sont fondamentalement la même chose, et je soupçonne que ma question est vraiment liée à cela.

Peu importe si c'est le cas ou non, le genre de question que j'ai à l'esprit concerne les problèmes d'inférence. (Garder les choses discrètes), si nous avons deux échantillons radioactifs, et nous savons que l'un d'eux est un certain matériau avec une radioactivité connue (c'est une physique douteuse mais supposons que l'univers fonctionne comme ça) et ainsi nous connaissons la "vraie" distribution des clics radioactifs que nous devrions mesurer devrait être poissonien avec un connu , est-il juste de construire une distribution empirique pour les deux échantillons et de comparer leurs divergences KL à la distribution connue et dire que le plus faible est plus susceptible d'être ce matériau?λ

S'éloigner de la physique douteuse, si je sais que deux échantillons sont tirés de la même distribution, mais je sais qu'ils ne sont pas sélectionnés au hasard, comparerait leurs divergences KL à la distribution mondiale connue, me donnerait une idée de la façon dont les échantillons sont biaisés. , par rapport à l'un et à l'autre de toute façon?

Et enfin, si la réponse aux questions précédentes est oui, alors pourquoi? Est-il possible de comprendre ces choses d'un seul point de vue statistique sans établir de liens (éventuellement ténus) avec la théorie de l'information?

gazza89
la source
1
Voir ma réponse ici: stats.stackexchange.com/questions/188903/… qui ne fait pas référence à la théorie de l'information
kjetil b halvorsen
1
La divergence KL n'est-elle pas purement un concept de théorie de l'information? Je sais que cela donne l'information mutuelle entre un avant et un postérieur bayésien ou quelque chose comme ça, et je me souviens l'avoir vu une fois dans le contexte des transformations / conjugués de Fenchel (théorie des grandes déviations), mais en tout cas je pensais que c'était un concept de théorie de l'information .
Chill2Macht

Réponses:

23

Il existe une approche purement statistique de la divergence de Kullback-Leibler: prendre un échantillon iid d'une distribution inconnue et considérer l'ajustement potentiel par une famille de distributions, La probabilité correspondante est définie comme et son le logarithme est Par conséquent, qui est la partie intéressante de la divergence Kullback-Leibler entre etp F = { p θX1,,XnpL ( θ | x 1 , , x n ) = n i = 1 p θ ( x i ) ( θ | x 1 , , x n ) = n i = 1 log p θ ( x i ) 1

F={pθ, θΘ}
L(θ|X1,,Xn)=je=1npθ(Xje)
(θ|X1,,Xn)=je=1nbûchepθ(Xje)
p θ p H ( p θ | p ) def = log { p ( x ) / p θ ( x ) }
1n(θ|X1,,Xn)E[bûchepθ(X)]=bûchepθ(X)p(X)X
pθp log { p ( x ) }
H(pθ|p)=defbûche{p(X)/pθ(X)}p(X)X
l'autre partie étant là pour avoir le minimum [in ] de égal à zéro.θ H ( p θ | p )
bûche{p(X)}p(X)X
θH(pθ|p)

Un livre qui relie la divergence, la théorie de l'information et l'inférence statistique est l' estimation optimale des paramètres de Rissanen , que j'ai passée en revue ici .

Xi'an
la source
Une possibilité de voir un exemple numérique de cela?
Paul Uszak
Eh bien, je veux dire voir des chiffres réels. La théorie est mignonne mais le monde fonctionne avec des nombres. Il n'y a aucun exemple de divergence KL qui utilise des nombres réels, donc je suis amené à la conclusion que c'est une théorie sans application possible. L'OP a discuté de la longueur des messages en bits et de la compression des données. Je faisais référence à tout exemple qui
contenait
2
@PaulUszak: si je vous dis que la distance de Kullaback-Leibler entre une distribution N (0,1) et N (1,1) est 1/2, comment cela aide-t-il?
Xi'an
2
@ Xi'an: Il doit y avoir un lien entre ce nombre 1/2 et la puissance du test de rapport de vraisemblance correspondant?
kjetil b halvorsen
7
+1 Concernant le fil de commentaires: L'esprit s'embrouille à l'idée que tout concept qui ne peut pas être réduit à un "nombre de bits" est inutile.
whuber
8

Voici une interprétation statistique de la divergence Kullback-Leibler, extraite de IJ Good ( poids de la preuve: une brève enquête , Bayesian Statistics 2, 1985).

Le poids des preuves.

Supposons que vous observiez les points de données qui, selon vous, sont des échantillons indépendants d'une distribution inconnue ayant une densité . Dans le cas le plus simple, vous avez deux hypothèses et sur ce qui est , disons et . Ainsi, vous avez modélisé l'inconnu comme étant l'un de ou .X1,X2,,XnF0H1H2F0H1={F1}H2={F2}F0F1F2

Le poids de la preuve de l'échantillon pour contre est défini comme C'est une grandeur facile à interpréter, surtout étant donné un antérieur sur les hypothèses et . En effet, dans ce cas, les cotes de log postérieures sont plus les cotes de log antérieures: Cette quantité possède également un certain nombre de propriétés pratiques, telles que l'additivité pour les échantillons indépendants: X=(X1,,Xn)H1H2

W(X)=bûcheF1(X)F2(X).
PH0H1W
bûcheP(H0|X)P(H1|X)=W(X)+bûcheP(H0)P(H1).
W(X1,,Xn)=W(X1)++W(Xn).
Good fournit une justification supplémentaire pour l'utilisation du poids de la preuve, et est également mentionné par Kullback et Leibler (dans l'article qui a introduit la divergence KL) comme "les informations en pour la discrimination entre et ".W(X)XH1H2

En résumé, étant donné un échantillon , le poids des preuves est un nombre concret destiné à vous aider à comprendre combien de preuves vous avez sous la main. Certaines personnes utilisent même des règles empiriques telles que " est une preuve solide " (je n'encourage pas l'utilisation aveugle de ces tableaux, remarquez).XW(X)W(X)>2

La divergence Kullback-Leibler

Maintenant, la divergence de Kullback-Leibler entre et est le poids de preuve attendu dans un échantillon . Autrement dit, f 2 x f 1 K L ( f 1 , f 2 ) = E x f 1 W ( x ) = f 1 log f 1F1F2XF1

KL(F1,F2)=EXF1W(X)=F1bûcheF1F2.

Nous devrions intuitivement nous attendre à ce qu'un échantillon fournisse des preuves positives en faveur de contre , et cela se reflète en effet par l'inégalité H 1 = { f 1 } H 2 E x f 1 W ( x ) 0.XF1H1={F1}H2

EXF1W(X)0.
Olivier
la source
1

Je n'ai pas encore vu une seule explication de la façon dont ces deux concepts sont même liés.

Je ne connais pas grand-chose à la théorie de l'information, mais voici ce que j'en pense: quand j'entends une personne de la théorie de l'information dire «longueur du message», mon cerveau dit «surprise». La surprise est 1.) aléatoire et 2.) subjective.

Xq(X)-bûcheq(X)

qXppEp[-bûchep(X)]qpEp[-bûcheq(X)]

Au lieu de penser à «leur différence», je pense à «l'augmentation de la surprise attendue de l'utilisation d'une mauvaise distribution». Tout cela provient des propriétés du logarithme.

Ep[bûche(p(X)q(X))]=Ep[-bûcheq(X)]-Ep[-bûchep(X)]0.

modifier

-bûche(q(X))q

XqX0-bûche(0)=10

-bûche

q(X)>1

XqX(X)Oui=uneX+bqX((y-b)/une)|1/une|X-bûcheqX(X)-bûcheqOui(Oui)

(X-EX)2

Edit 2: on dirait que je ne suis pas le seul à penser à cela comme "surprise". D' ici :

yθ-2bûche{p(yθ)}

Taylor
la source
1
-bûche(q(X))q
1
TT(X)=uneXune0TT(X)XT(X)X-bûcheqT(X)(T(X))>-bûcheqX(X)
(X-E[X])2