Jensen Shannon Divergence contre Kullback-Leibler Divergence?

14

Je sais que KL Divergence n'est pas symétrique et ne peut pas être strictement considéré comme une métrique. Si oui, pourquoi est-il utilisé lorsque JS Divergence satisfait les propriétés requises pour une métrique?

Y a-t-il des scénarios où la divergence KL peut être utilisée mais pas la divergence JS ou vice-versa?

user2761431
la source
Ils sont tous deux utilisés, mais cela dépend du contexte. Lorsqu'il est clair qu'il est nécessaire d'avoir une métrique stricte, par exemple lorsque le clustering est fait, alors JS est un choix plus préférable. D'un autre côté, dans la sélection des modèles, l'utilisation de l'AIC qui est basée sur KL est très répandue. Les poids Akaike ont une belle interprétation pour laquelle JS ne peut pas fournir d'homologue ou il n'est pas encore devenu populaire.
James

Réponses:

5

J'ai trouvé une réponse très mature sur le Quora et je l'ai simplement mise ici pour les personnes qui la recherchent ici:

La divergence Kullback-Leibler a quelques belles propriétés, l'une d'entre elles étant que abhorre les régions où ont une masse non nulle et a une masse nulle. Cela peut ressembler à un bogue, mais c'est en fait une fonctionnalité dans certaines situations.𝐾𝐿[𝑞;𝑝]𝑞(𝑥)𝑝(𝑥)

Si vous essayez de trouver des approximations pour une distribution complexe (intraitable) par une distribution approchée (tractable) vous voulez être absolument sûr que tout 𝑥 qui serait très improbable à tirer de serait également très improbable d'être tiré de . Le fait que KL ait cette propriété est facile à montrer: il y a un dans l'intégrande. Lorsque 𝑞 (𝑥) est petit mais que ne l'est pas, c'est ok. Mais lorsque est petit, cela croît très rapidement si n'est pas aussi petit. Donc, si vous choisissez pour minimiser𝑝(𝑥)𝑞(𝑥)𝑝(𝑥)𝑞(𝑥)𝑞(𝑥)𝑙𝑜𝑔[𝑞(𝑥)/𝑝(𝑥)]𝑝(𝑥)𝑝(𝑥)𝑞(𝑥)𝑞(𝑥)𝐾𝐿[𝑞;𝑝], il est très improbable que attribue beaucoup de masse aux régions où est proche de zéro.𝑞(𝑥)𝑝(𝑥)

La divergence Jensen-Shannon n'a pas cette propriété. Il se comporte bien lorsque et sont petits. Cela signifie qu'il ne pénalisera pas autant une distribution partir de laquelle vous pourrez échantillonner des valeurs impossibles dans .𝑝(𝑥)𝑞(𝑥)𝑞(𝑥)𝑝(𝑥)

moh
la source
1

La divergence KL a une interprétation théorique claire des informations et est bien connue; mais je suis la première fois à entendre que la symétrisation de la divergence KL est appelée divergence JS. La raison pour laquelle la divergence JS n'est pas si souvent utilisée est probablement qu'elle est moins connue et n'offre pas de propriétés incontournables.

James LI
la source