Quelle est la différence pratique entre la métrique de Wasserstein et la divergence de Kullback-Leibler ? La métrique de Wasserstein est également appelée distance du moteur de la Terre .
De Wikipédia:
La métrique de Wasserstein (ou Vaserstein) est une fonction de distance définie entre les distributions de probabilité sur un espace métrique donné M.
et
La divergence de Kullback – Leibler est une mesure de la façon dont une distribution de probabilité s'écarte d'une seconde distribution de probabilité attendue.
J'ai vu KL utilisé dans des implémentations d'apprentissage automatique, mais j'ai récemment rencontré la métrique Wasserstein. Existe-t-il une bonne directive pour savoir quand utiliser l'un ou l'autre?
(J'ai une réputation insuffisante pour créer un nouveau tag avec Wasserstein
ou Earth mover's distance
.)
la source
Réponses:
Lorsque l'on considère les avantages de la métrique de Wasserstein par rapport à la divergence de KL, alors le plus évident est que W est une métrique alors que la divergence de KL ne l'est pas, car KL n'est pas symétrique (c'est-à-dire en général) et ne satisfait pas l'inégalité du triangle (ie ne tient pas en général).D K L ( R | | P ) ≤ D K L ( Q | | P ) + D K L ( R | | Q )DKL(P||Q)≠DKL(Q||P) DKL(R||P)≤DKL(Q||P)+DKL(R||Q)
En ce qui concerne la différence pratique, l'une des plus importantes est que, contrairement à KL (et à de nombreuses autres mesures), Wasserstein prend en compte l'espace métrique et ce que cela signifie en termes moins abstraits est peut-être mieux expliqué par un exemple (n'hésitez pas à sauter à la figure, code juste pour la produire):
Ici, les mesures entre les distributions rouge et bleue sont les mêmes pour la divergence KL tandis que la distance de Wasserstein mesure le travail requis pour transporter la masse de probabilité de l'état rouge à l'état bleu en utilisant l'axe des x comme une «route». Cette mesure est évidemment d'autant plus grande que la masse de probabilité est éloignée (d'où la distance du pseudo-terrasseur). Ainsi, celui que vous souhaitez utiliser dépend de votre domaine d'application et de ce que vous souhaitez mesurer. À noter, au lieu de la divergence KL, il existe également d'autres options comme la distance Jensen-Shannon qui sont des mesures appropriées.
la source
La métrique de Wasserstein apparaît le plus souvent dans les problèmes de transport optimaux où le but est de déplacer des choses d'une configuration donnée à une configuration souhaitée dans le coût minimum ou la distance minimum. Le Kullback-Leibler (KL) est une divergence (pas une métrique) et apparaît très souvent dans les statistiques, l'apprentissage automatique et la théorie de l'information.
De plus, la métrique de Wasserstein n'exige pas que les deux mesures soient sur le même espace de probabilité, tandis que la divergence KL nécessite que les deux mesures soient définies sur le même espace de probabilité.
Peut-être l'endroit le plus facile pour voir la différence entre la distance de Wasserstein et la divergence KL est dans le cas gaussien multivarié où les deux ont des solutions de forme fermée. Supposons que ces distributions aient une dimension , des moyennes et des matrices de covariance , pour . Ces deux formules sont:k μje Σje i = 1 , 2
la source
La métrique de Wasserstein est utile dans la validation des modèles car ses unités sont celles de la réponse elle-même. Par exemple, si vous comparez deux représentations stochastiques du même système (par exemple un modèle d'ordre réduit), et , et que la réponse est des unités de déplacement, la métrique de Wasserstein est également en unités de déplacement. Si vous deviez réduire votre représentation stochastique à un déterministe, le CDF de la distribution de chacun est une fonction pas à pas. La métrique Wasserstein est la différence des valeurs.P Q
Je trouve que cette propriété est une extension très naturelle pour parler de la différence absolue entre deux variables aléatoires
la source