Intuitivement, pourquoi l'entropie croisée est-elle une mesure de la distance de deux distributions de probabilité?

11

Pour deux distributions discrètes et , l'entropie croisée est définie commepq

H(p,q)=-Xp(X)Journalq(X).

Je me demande pourquoi ce serait une mesure intuitive de la distance entre deux distributions de probabilité?

Je vois que est l'entropie de , qui mesure la "surprise" de . est la mesure qui remplace en partie par . Je ne comprends toujours pas le sens intuitif de la définition.H(p,p)ppH(p,q)pq

Kadistar
la source
1
Je vous recommande de rechercher la définition mathématique de la métrique (et de la distance). généralement, suivre ces propriétés est le minimum qu'une fonction doit suivre car il s'agit d'une distance. J'espère que cela aide. Bien qu'il semble que . Intuitivement, puisque c'est une fonction qui fait partie de la divergence KL, je suppose que c'est une sorte de divergence de p et q compensée par l'entropie p. Cependant, c'est juste une supposition. De plus, la divergence n'est pas une métrique / distance, donc je serais surpris si Cross Entropy l'est. H(p,q)=H(p)+KL(p||q)
Charlie Parker
Ensuite, comprendre la divergence de Kullback_leibler aide à comprendre l'entropie croisée: stats.stackexchange.com/questions/188903/…
kjetil b halvorsen
1
Voici une excellente vidéo expliquant KL Divergence de manière claire et simple: youtube.com/watch?v=ErfnhcEV1O8
Katherine Chen
Voir si cette "intuition derrière l'entropie croisée" aide: medium.com/@siddharth.4oct/…
Siddharth Roy

Réponses:

6

La minimisation de l'entropie croisée est souvent utilisée comme objectif d'apprentissage dans les modèles génératifs où p est la distribution vraie et q est la distribution apprise.

L'entropie croisée de p et q est égale à l'entropie de p plus la divergence KL entre p et q.

H(p,q)=H(p)+KL(p||q)

Vous pouvez considérer comme une constante car provient directement des données d'apprentissage et n'est pas appris par le modèle. Ainsi, seul le terme de divergence KL est important. La motivation de la divergence KL comme distance entre les distributions de probabilités est qu'elle vous indique combien de bits d'informations sont gagnés en utilisant la distribution p au lieu de l'approximation q.H(p)p

Notez que la divergence KL n'est pas une métrique de distance appropriée. D'une part, il n'est pas symétrique en p et q. Si vous avez besoin d'une mesure de distance pour les distributions de probabilité, vous devrez utiliser autre chose. Mais, si vous utilisez le mot "distance" de manière informelle, vous pouvez utiliser la divergence KL.

Aaron
la source
1
pourquoi pouvez-vous considérer p comme une constante? Qu'apprends-tu"? q? La question d'origine ne disait rien sur l'apprentissage, donc je serais intéressé à mieux comprendre ce que vous vouliez dire :)
Charlie Parker
2
édité pour le rendre plus clair. p est la distribution qui provient des données d'apprentissage et q est appris par le modèle.
Aaron