Après beaucoup de chalutage de Cross Validated, je n'ai toujours pas l'impression d'être plus proche de la compréhension de la divergence KL en dehors du domaine de la théorie de l'information. Il est plutôt étrange que quelqu'un ayant une formation en mathématiques trouve beaucoup plus facile de comprendre l'explication de la théorie de l'information.
Pour décrire ma compréhension dans un contexte de théorie de l'information: si nous avons une variable aléatoire avec un nombre fini de résultats, il existe un encodage optimal qui nous permet de communiquer le résultat avec quelqu'un d'autre avec en moyenne le message le plus court (je trouve cela le plus facile à image en termes de bits). La longueur attendue du message dont on aurait besoin pour communiquer le résultat est donnée par si le codage optimal est utilisé. Si vous deviez utiliser un codage sous-optimal, alors la divergence KL nous indique en moyenne combien de temps notre message serait.
J'aime cette explication, car elle traite de manière assez intuitive de l'asymétrie de la divergence KL. Si nous avons deux systèmes différents, c'est-à-dire deux pièces chargées différemment, elles auront des codages optimaux différents. Je ne pense pas instinctivement que l'utilisation de l'encodage du deuxième système pour le premier soit "tout aussi mauvaise" que l'utilisation de l'encodage du premier système pour le second. Sans passer par le processus de réflexion sur la façon dont je me suis convaincu, je suis maintenant assez heureux que vous donne cette "longueur de message supplémentaire attendue", lorsque vous utilisez l'encodage de pour .
Cependant, la plupart des définitions de la divergence KL, y compris Wikipédia, font alors la déclaration (en gardant cela en termes discrets afin qu'elle puisse être comparée à l'interprétation de la théorie de l'information qui fonctionne beaucoup mieux en termes discrets car les bits sont discrets) que si nous avons deux probabilités discrètes distributions, puis KL fournit une mesure de "comment ils sont différents". Je n'ai pas encore vu une seule explication de la façon dont ces deux concepts sont même liés. Il me semble que dans son livre sur l'inférence, Dave Mackay souligne que la compression et l'inférence des données sont fondamentalement la même chose, et je soupçonne que ma question est vraiment liée à cela.
Peu importe si c'est le cas ou non, le genre de question que j'ai à l'esprit concerne les problèmes d'inférence. (Garder les choses discrètes), si nous avons deux échantillons radioactifs, et nous savons que l'un d'eux est un certain matériau avec une radioactivité connue (c'est une physique douteuse mais supposons que l'univers fonctionne comme ça) et ainsi nous connaissons la "vraie" distribution des clics radioactifs que nous devrions mesurer devrait être poissonien avec un connu , est-il juste de construire une distribution empirique pour les deux échantillons et de comparer leurs divergences KL à la distribution connue et dire que le plus faible est plus susceptible d'être ce matériau?
S'éloigner de la physique douteuse, si je sais que deux échantillons sont tirés de la même distribution, mais je sais qu'ils ne sont pas sélectionnés au hasard, comparerait leurs divergences KL à la distribution mondiale connue, me donnerait une idée de la façon dont les échantillons sont biaisés. , par rapport à l'un et à l'autre de toute façon?
Et enfin, si la réponse aux questions précédentes est oui, alors pourquoi? Est-il possible de comprendre ces choses d'un seul point de vue statistique sans établir de liens (éventuellement ténus) avec la théorie de l'information?
Réponses:
Il existe une approche purement statistique de la divergence de Kullback-Leibler: prendre un échantillon iid d'une distribution inconnue et considérer l'ajustement potentiel par une famille de distributions, La probabilité correspondante est définie comme et son le logarithme est Par conséquent, qui est la partie intéressante de la divergence Kullback-Leibler entre etp ⋆ F = { p θX1, … , Xn p⋆ L ( θ | x 1 , … , x n ) = n ∏ i = 1 p θ ( x i ) ℓ ( θ | x 1 , … , x n ) = n ∑ i = 1 log p θ ( x i ) 1
Un livre qui relie la divergence, la théorie de l'information et l'inférence statistique est l' estimation optimale des paramètres de Rissanen , que j'ai passée en revue ici .
la source
Voici une interprétation statistique de la divergence Kullback-Leibler, extraite de IJ Good ( poids de la preuve: une brève enquête , Bayesian Statistics 2, 1985).
Le poids des preuves.
Supposons que vous observiez les points de données qui, selon vous, sont des échantillons indépendants d'une distribution inconnue ayant une densité . Dans le cas le plus simple, vous avez deux hypothèses et sur ce qui est , disons et . Ainsi, vous avez modélisé l'inconnu comme étant l'un de ou .X1, x2, … , Xn F0 H1 H2 F0 H1= { f1} H2= { f2} F0 F1 F2
Le poids de la preuve de l'échantillon pour contre est défini comme C'est une grandeur facile à interpréter, surtout étant donné un antérieur sur les hypothèses et . En effet, dans ce cas, les cotes de log postérieures sont plus les cotes de log antérieures: Cette quantité possède également un certain nombre de propriétés pratiques, telles que l'additivité pour les échantillons indépendants:x = ( x1, … , Xn) H1 H2
En résumé, étant donné un échantillon , le poids des preuves est un nombre concret destiné à vous aider à comprendre combien de preuves vous avez sous la main. Certaines personnes utilisent même des règles empiriques telles que " est une preuve solide " (je n'encourage pas l'utilisation aveugle de ces tableaux, remarquez).X W( x ) W( x ) > 2
La divergence Kullback-Leibler
Maintenant, la divergence de Kullback-Leibler entre et est le poids de preuve attendu dans un échantillon . Autrement dit, f 2 x ∼ f 1 K L ( f 1 , f 2 ) = E x ∼ f 1 W ( x ) = ∫ f 1 log f 1F1 F2 x ∼ f1
Nous devrions intuitivement nous attendre à ce qu'un échantillon fournisse des preuves positives en faveur de contre , et cela se reflète en effet par l'inégalité H 1 = { f 1 } H 2 E x ∼ f 1 W ( x ) ≥ 0.x ∼ f1 H1= { f1} H2
la source
Je ne connais pas grand-chose à la théorie de l'information, mais voici ce que j'en pense: quand j'entends une personne de la théorie de l'information dire «longueur du message», mon cerveau dit «surprise». La surprise est 1.) aléatoire et 2.) subjective.
Au lieu de penser à «leur différence», je pense à «l'augmentation de la surprise attendue de l'utilisation d'une mauvaise distribution». Tout cela provient des propriétés du logarithme.
modifier
Edit 2: on dirait que je ne suis pas le seul à penser à cela comme "surprise". D' ici :
la source