Regarde cette image:
Si nous tirons un échantillon de la densité rouge, alors certaines valeurs devraient être inférieures à 0,25 alors qu'il est impossible de générer un tel échantillon à partir de la distribution bleue. Par conséquent, la distance de Kullback-Leibler de la densité rouge à la densité bleue est infinie. Cependant, les deux courbes ne sont pas si distinctes, dans un certain "sens naturel".
Voici ma question: existe-t-il une adaptation de la distance Kullback-Leibler qui permettrait une distance finie entre ces deux courbes?
kullback-leibler
ocram
la source
la source
Réponses:
Vous pouvez consulter le chapitre 3 de Devroye, Gyorfi et Lugosi, A Probabilistic Theory of Pattern Recognition , Springer, 1996. Voir, en particulier, la section sur les divergences.f
divergences peuvent être considérées comme une généralisation de Kullback - Leibler (ou, alternativement, KL peut être considéré comme un cas particulier d'une f- divergence).f f
La forme générale est
où est une mesure qui domine les mesures associées à p et q et f ( ⋅ ) est une fonction convexe satisfaisant f ( 1 ) = 0 . (Si p ( x ) et q ( x ) sont des densités par rapport à la mesure de Lebesgue, remplacez simplement la notation d x par λ ( d x ) et vous êtes prêt à partir.)λ p q f(⋅) f(1)=0 p(x) q(x) dx λ(dx)
On récupère KL en prenant . On peut obtenir la différence Hellinger via f ( x ) = ( 1 - √f(x)=xlogx et on obtient lavariation totaleoudistanceL1en prenantf(x)= 1f(x)=(1−x−−√)2 L1 . Ce dernier donneF( x ) = 12| x-1 |
Notez que ce dernier vous donne au moins une réponse finie.
Dans un autre petit livre intitulé Density Estimation: The ViewL1 , Devroye plaide fortement pour l'utilisation de cette dernière distance en raison de ses nombreuses propriétés d'invariance (entre autres). Ce dernier livre est probablement un peu plus difficile à obtenir que le premier et, comme son titre l'indique, un peu plus spécialisé.
Addendum : via cette question , j'ai pris conscience qu'il apparaît que la mesure proposée par @Didier est (jusqu'à une constante) connue sous le nom de divergence Jensen-Shannon. Si vous suivez le lien vers la réponse fournie dans cette question, vous verrez qu'il s'avère que la racine carrée de cette quantité est en fait une métrique et a été précédemment reconnue dans la littérature comme étant un cas spécial de divergence . J'ai trouvé intéressant que nous semblions avoir collectivement «réinventé» la roue (assez rapidement) via la discussion de cette question. L'interprétation que je lui ai donnée dans le commentaire ci-dessous @ la réponse de Didier a également été précédemment reconnue. Tout autour, plutôt bien, en fait.f
la source
La divergence Kullback-Leibler de P par rapport à Q est infinie lorsque P n'est pas absolument continue par rapport à Q , c'est-à-dire lorsqu'il existe un ensemble mesurable A tel que Q ( A ) = 0 et P ( A ) ≠ 0 . De plus la divergence KL n'est pas symétrique, en ce sens qu'en général κ ( P ∣ Q ) ≠ κ ( Q ∣κ(P|Q) P Q P Q A Q(A)=0 P(A)≠0 . Rappelons que
κ ( P ∣ Q ) = ∫ P log ( Pκ(P∣Q)≠κ(Q∣P)
Un moyen de sortir de ces deux inconvénients, toujours basé sur la divergence KL, est d'introduire le point milieu
R=1
Une formulation équivalente est
Addendum 1 L'introduction du point milieu de et Q n'est pas arbitraire dans le sens où η ( P , Q ) = min [ κ ( P ∣ ⋅ ) + κ ( Q ∣ ⋅ ) ] , où le minimum est supérieur à l'ensemble de mesures de probabilité.P Q
Addendum 2 @cardinal remarque que est également une divergence f , pour la fonction convexe f ( x ) = x log ( x ) - ( 1 + x ) log ( 1 + x ) + ( 1 + x ) log ( 2 ) .η f
la source
Il est difficile de caractériser cela comme une "adaptation" de la distance KL, mais cela répond aux autres exigences d'être "naturel" et fini.
la source
La recherche de divergence intrinsèque (ou critère de référence bayésien) vous donnera quelques articles sur cette mesure.
Dans votre cas, vous prendrez simplement la divergence KL qui est finie.
Une autre mesure alternative à KL est la distance de Hellinger
la source