Une adaptation de la distance Kullback-Leibler?

28

Regarde cette image: entrez la description de l'image ici

Si nous tirons un échantillon de la densité rouge, alors certaines valeurs devraient être inférieures à 0,25 alors qu'il est impossible de générer un tel échantillon à partir de la distribution bleue. Par conséquent, la distance de Kullback-Leibler de la densité rouge à la densité bleue est infinie. Cependant, les deux courbes ne sont pas si distinctes, dans un certain "sens naturel".

Voici ma question: existe-t-il une adaptation de la distance Kullback-Leibler qui permettrait une distance finie entre ces deux courbes?

ocram
la source
1
Dans quel "sens naturel" ces courbes "ne sont-elles pas si distinctes"? Comment cette proximité intuitive est-elle liée à une propriété statistique? (Je peux penser à plusieurs réponses mais je me demande ce que vous avez en tête.)
whuber
1
Eh bien ... ils sont assez proches les uns des autres dans le sens où les deux sont définis sur des valeurs positives; ils augmentent et diminuent tous les deux; les deux ont en fait la même attente; et la distance de Kullback Leibler est "petite" si nous nous limitons à une partie de l'axe des x ... Mais pour relier ces notions intuitives à toute propriété statistique, j'aurais besoin d'une définition rigoureuse de ces caractéristiques ...
ocram

Réponses:

18

Vous pouvez consulter le chapitre 3 de Devroye, Gyorfi et Lugosi, A Probabilistic Theory of Pattern Recognition , Springer, 1996. Voir, en particulier, la section sur les divergences.f

divergences peuvent être considérées comme une généralisation de Kullback - Leibler (ou, alternativement, KL peut être considéré comme un cas particulier d'une f- divergence).ff

La forme générale est

Df(p,q)=q(x)f(p(x)q(x))λ(dx),

est une mesure qui domine les mesures associées à p et q et f ( ) est une fonction convexe satisfaisant f ( 1 ) = 0 . (Si p ( x ) et q ( x ) sont des densités par rapport à la mesure de Lebesgue, remplacez simplement la notation d x par λ ( d x ) et vous êtes prêt à partir.)λpqf()F(1)=0p(X)q(X)Xλ(X)

On récupère KL en prenant . On peut obtenir la différence Hellinger via f ( x ) = ( 1 - f(x)=xlogxet on obtient lavariation totaleoudistanceL1en prenantf(x)= 1f(x)=(1x)2L1. Ce dernier donneF(X)=12|X-1|

DTV(p,q)=12|p(x)q(x)|dx

Notez que ce dernier vous donne au moins une réponse finie.

Dans un autre petit livre intitulé Density Estimation: The ViewL1 , Devroye plaide fortement pour l'utilisation de cette dernière distance en raison de ses nombreuses propriétés d'invariance (entre autres). Ce dernier livre est probablement un peu plus difficile à obtenir que le premier et, comme son titre l'indique, un peu plus spécialisé.


Addendum : via cette question , j'ai pris conscience qu'il apparaît que la mesure proposée par @Didier est (jusqu'à une constante) connue sous le nom de divergence Jensen-Shannon. Si vous suivez le lien vers la réponse fournie dans cette question, vous verrez qu'il s'avère que la racine carrée de cette quantité est en fait une métrique et a été précédemment reconnue dans la littérature comme étant un cas spécial de divergence . J'ai trouvé intéressant que nous semblions avoir collectivement «réinventé» la roue (assez rapidement) via la discussion de cette question. L'interprétation que je lui ai donnée dans le commentaire ci-dessous @ la réponse de Didier a également été précédemment reconnue. Tout autour, plutôt bien, en fait.f

cardinal
la source
1
Très agréable! Je vais essayer de trouver "Une théorie probabiliste de la reconnaissance des formes" et d'en comprendre le chapitre 3!
ocram
1
bonne réponse, notons que le plus souvent est défini d'une autre manière ce qui fait la moitié de la distance L 1 . DTVL1
robin girard
1
@robin, merci pour votre commentaire. Oui, je m'en rends compte. J'essayais juste d'éviter une constante étrangère désordonnée dans l'exposition. Mais à strictement parler, vous avez raison. Je l'ai mis à jour en conséquence.
Cardinal
3
Votre addendum est jusqu'à présent l'élément d'information le plus utile que j'ai rencontré sur stats.SE. Tous mes remerciements les plus chaleureux pour cela. Je reproduis simplement ici la référence que vous avez donnée: research-repository.st-andrews.ac.uk/bitstream/10023/1591/1/… Endres et Schindelin, Une nouvelle métrique pour les distributions de probabilité, IEEE Trans. sur Info. Tes. , vol. 49, non. 3, juil.2003, p. 1858-1860.
A fait
1
@Didier, eh bien, c'était plus un heureux accident qu'autre chose. Personne ne répondait à l'autre question, alors j'ai décidé d'essayer de comprendre quelle était la divergence Jensen-Shannon en premier lieu. Une fois que j'ai trouvé la définition, il m'a semblé raisonnable de relier les deux questions via mon addendum. Je suis content que vous l'ayez trouvé utile. Cordialement.
Cardinal
19

La divergence Kullback-Leibler de P par rapport à Q est infinie lorsque P n'est pas absolument continue par rapport à Q , c'est-à-dire lorsqu'il existe un ensemble mesurable A tel que Q ( A ) = 0 et P ( A ) 0 . De plus la divergence KL n'est pas symétrique, en ce sens qu'en général κ ( P Q ) κ ( Q κ(P|Q)PQPQAQ(A)=0P(A)0 . Rappelons que κ ( P Q ) = P log ( Pκ(PQ)κ(QP) Un moyen de sortir de ces deux inconvénients, toujours basé sur la divergence KL, est d'introduire le point milieu R=1

κ(PQ)=Plog(PQ).
AinsiRest une mesure de probabilité, etPetQsont toujours absolument continue par rapport àR. On peut donc considérer une "distance" entrePetQ, toujours basée sur la divergence KL mais en utilisantR, définie comme η(P,Q)=κ(PR)+κ(QR). Alorsη(P
R=12(P+Q).
RPQRPQR
η(P,Q)=κ(PR)+κ(QR).
est non négatif et fini pour tout P et Q , η est symétrique dans le sens où η ( P , Q ) = η ( Q , P ) pour chaque P et Q , et η ( P , Q ) = 0 siff P = Q .η(P,Q)PQηη(P,Q)=η(Q,P)PQη(P,Q)=0P=Q

Une formulation équivalente est

η(P,Q)=2log(2)+(Plog(P)+Qlog(Q)(P+Q)log(P+Q)).

Addendum 1 L'introduction du point milieu de et Q n'est pas arbitraire dans le sens où η ( P , Q ) = min [ κ ( P ) + κ ( Q ) ] , où le minimum est supérieur à l'ensemble de mesures de probabilité.PQ

η(P,Q)=min[κ(P)+κ(Q)],

Addendum 2 @cardinal remarque que est également une divergence f , pour la fonction convexe f ( x ) = x log ( x ) - ( 1 + x ) log ( 1 + x ) + ( 1 + x ) log ( 2 ) .ηf

f(x)=xlog(x)(1+x)log(1+x)+(1+x)log(2).
Fait
la source
2
@Marco, @Didier Piau, il convient de noter que @ la suggestion de Didier est un autre cas particulier d'un -divergence où f ( x ) = x log x - ( 1 + x ) log ( 1 + xf. f(x)=xlogx(1+x)log(1+x2)
Cardinal
1
@Marco, @Didier Piau, une formulation alternative qui a un certain caractère évocateur est et donc η ( P , Q ) = 2 ( H ( μη(P,Q)=PbûcheP+QbûcheQ-2RbûcheR=2H(R)-(H(P)+H(Q)) μ ( x , y ) = x + yη(P,Q)=2(H(μ(P,Q))-μ(H(P),H(Q)) . En d'autres termes,1μ(x,y)=x+y2est "la différence entre l'entropie de la mesure moyenne et l'entropie moyenne des mesures". 12η(P,Q)
cardinal
3
N'est-ce pas juste la divergence Jensen-Shannon?
Memming
"où le minimum est supérieur à l'ensemble des mesures de probabilité." J'aime cette caractérisation de la divergence Jensen – Shannon. Y en a-t-il une preuve quelque part?
user76284
10

PQPQ

Il est difficile de caractériser cela comme une "adaptation" de la distance KL, mais cela répond aux autres exigences d'être "naturel" et fini.

R+[0,C]C

whuber
la source
1
Merci pour votre suggestion sur la distance Kolmogorov. Pouvez-vous rendre votre commentaire sur la transformation monotone un peu plus explicite? Thx
ocram
1
arctan(KL(P,Q))f(KL(P,Q))f:R+[0,C]xyf(x)f(y)x,y0
1
Oui, c'est ce que je voulais dire :-) Je ne savais pas trop quoi appliquer la transformation. Maintenant, c'est clair, thx
ocram
1
arctanπ/2arctanπ/2+
A fait
@Didier Oui, la divergence KL transformée (lorsqu'elle est symétrisée, comme vous le décrivez) pourrait ne pas satisfaire l'inégalité du triangle et ne serait donc pas une distance, mais elle définirait toujours une topologie (qui serait probablement métrizable). Vous abandonneriez ainsi peu ou rien. Je reste agnostique sur le bien-fondé de faire tout cela: il me semble que ce n'est qu'un moyen de passer en revue les difficultés associées aux valeurs infinies de la divergence KL en premier lieu.
whuber
2

PQκ(PQ)

δ(P,Q)min[κ(PQ),κ(QP)]

La recherche de divergence intrinsèque (ou critère de référence bayésien) vous donnera quelques articles sur cette mesure.

Dans votre cas, vous prendrez simplement la divergence KL qui est finie.

Une autre mesure alternative à KL est la distance de Hellinger

Q0 P0 0

δ(P,Q)min[Plog(PQ),Qlog(QP)]

P00limz0zlog(z)=0PQQ

probabilitéislogique
la source
1
PQP et Qsont par ailleurs identiques.
whuber
1
Oui ... je crains que la divergence intrinsèque ne réponde pas à l'exigence. Mais merci pour la suggestion. Toute autre suggestion serait appréciée.
ocram
1
Il remplit l'exigence, si vous limitez le support de la densité du bleu pour qu'il soit là où il a un support strictement positif, tout comme vous l'avez pour le rouge (> 0)
probabilislogic
3
@probabilityislogic: Je ne comprends pas vos dernières remarques. Donnons d'abord leurs noms propres aux notions impliquées et disons queP est absolument continue en ce qui concerne Q (noté PQ) si, pour chaque mesurable UNE, Q(UNE)=0 implique P(UNE)=0. Maintenant, malgré vos considérations de limite quelque peu mystérieuses (pour moi), votreδ(P,Q) est fini ssi PQ ou QP. .../...
Did
2
.../... A way out of the conundrum you seem to be dug into might be to introduce the mid-point measure P+Q. Since PP+Q and QP+Q, the quantity η(P,Q):=κ(P|P+Q)+κ(Q|P+Q) is always finite. Furthermore η(P,Q)=0 iff P=Q and η is symmetric. Hence η(P,Q) indeed measures a kind of "distance" between P and Q.
Did