Pour deux distributions discrètes et , l'entropie croisée est définie comme
Je me demande pourquoi ce serait une mesure intuitive de la distance entre deux distributions de probabilité?
Je vois que est l'entropie de , qui mesure la "surprise" de . est la mesure qui remplace en partie par . Je ne comprends toujours pas le sens intuitif de la définition.
probability
distributions
cross-entropy
Kadistar
la source
la source
Réponses:
La minimisation de l'entropie croisée est souvent utilisée comme objectif d'apprentissage dans les modèles génératifs où p est la distribution vraie et q est la distribution apprise.
L'entropie croisée de p et q est égale à l'entropie de p plus la divergence KL entre p et q.
Vous pouvez considérer comme une constante car provient directement des données d'apprentissage et n'est pas appris par le modèle. Ainsi, seul le terme de divergence KL est important. La motivation de la divergence KL comme distance entre les distributions de probabilités est qu'elle vous indique combien de bits d'informations sont gagnés en utilisant la distribution p au lieu de l'approximation q.H( p ) p
Notez que la divergence KL n'est pas une métrique de distance appropriée. D'une part, il n'est pas symétrique en p et q. Si vous avez besoin d'une mesure de distance pour les distributions de probabilité, vous devrez utiliser autre chose. Mais, si vous utilisez le mot "distance" de manière informelle, vous pouvez utiliser la divergence KL.
la source