Je compare deux distributions avec une divergence KL qui me renvoie un nombre non standardisé qui, selon ce que j'ai lu sur cette mesure, est la quantité d'informations nécessaires pour transformer une hypothèse en l'autre. J'ai deux questions:
a) Existe-t-il un moyen de quantifier une divergence KL afin qu'elle ait une interprétation plus significative, par exemple comme une taille d'effet ou un R ^ 2? Toute forme de normalisation?
b) Dans R, lorsque vous utilisez KLdiv (package flexmix), vous pouvez définir la valeur 'esp' (standard esp = 1e-4) qui définit tous les points plus petits que esp sur une certaine norme afin de fournir une stabilité numérique. J'ai joué avec différentes valeurs esp et, pour mon ensemble de données, j'obtiens une divergence KL de plus en plus grande, plus un nombre est petit. Que se passe-t-il? Je m'attends à ce que plus l'esp est petite, plus les résultats devraient être fiables car ils laissent plus de «valeurs réelles» faire partie de la statistique. Non? Je dois changer l'esp car sinon il ne calcule pas la statistique mais apparaît simplement comme NA dans le tableau des résultats ...
KL a une signification profonde lorsque vous visualisez un ensemble de dentités comme un collecteur dans le tenseur métrique de Fisher , il donne la distance géodésique entre deux distributions "proches". Officiellement:
Les lignes suivantes sont ici pour expliquer en détail ce que l'on entend par ces formules mathématiques las.
Définition de la métrique de Fisher.
Considérons une famille paramétrée de distributions de probabilité (donnée par les densités dans R n ), où x est une variable aléatoire et thêta est un paramètre dans R p . Vous savez tous que la matrice d’information du pêcheur F = ( F i j ) estD=(f(x,θ)) Rn x Rp F=(Fij)
Avec cette notation, est une variété riemannienne et F ( θ ) est un tenseur métrique riemannien. (L'intérêt de cette métrique est donné par le théorème de la borne inférieure du cramer Rao)D F(θ)
Vous pouvez dire ... OK abstraction mathématique mais où est KL?
and it is known to be twice the Kullback Leibler Divergence:
If you want to learn more about that I suggest reading the paper from Amari http://projecteuclid.org/DPubS?service=UI&version=1.0&verb=Display&handle=euclid.aos/1176345779 (I think there is also a book from Amari about riemannian geometry in statistic but I don't remember the name)
la source
The KL(p,q) divergence between distributions p(.) and q(.) has an intuitive information theoretic interpretation which you may find useful.
Suppose we observe data x generated by some probability distribution p(.). A lower bound on the average codelength in bits required to state the data generated by p(.) is given by the entropy of p(.).
Now, since we don't know p(.) we choose another distribution, say, q(.) to encode (or describe, state) the data. The average codelength of data generated by p(.) and encoded using q(.) will necessarily be longer than if the true distribution p(.) was used for the coding. The KL divergence tells us about the inefficiencies of this alternative code. In other words, the KL divergence between p(.) and q(.) is the average number of extra bits required to encode data generated by p(.) using coding distribution q(.). The KL divergence is non-negative and equal to zero iff the actual data generating distribution is used to encode the data.
la source
For part (b) of your question, you might be running into the problem that one of of your distributions has density in a region where the other does not.
This diverges if there exists ani where pi>0 and qi=0 .
The numerical epsilon in the R implementation "saves you" from this problem; but it means that the resulting value is dependent on this parameter (technically qi=0 is no required, just that qi is less than the numerical epsilon).
la source