Sans citer de sources, Wikipedia définit l'entropie croisée des distributions discrètes et Q comme
Qui a été le premier à commencer à utiliser cette quantité? Et qui a inventé ce terme? J'ai regardé:
JE Shore et RW Johnson, «Dérivation axiomatique du principe de l'entropie maximale et du principe de l'entropie croisée minimale», Information Theory, IEEE Transactions on, vol. 26, non. 1, p. 26-37, janvier 1980.
J'ai suivi leur introduction à
A. Wehrl, «Propriétés générales de l'entropie», Reviews of Modern Physics, vol. 50, non. 2, p. 221-260, avril 1978.
qui n'utilise jamais le terme.
Pas plus
S. Kullback et R. Leibler, «On information and sufficiency», The Annals of Mathematical Statistics, vol. 22, non. 1, p. 79-86, 1951.
J'ai regardé dedans
TM Cover et JA Thomas, Elements of Information Theory (Série Wiley en télécommunications et traitement du signal). Wiley-Interscience, 2006.
et
I. Bon, "Entropie maximale pour la formulation d'hypothèses, en particulier pour les tableaux de contingence multidimensionnelle", The Annals of Mathematical Statistics, vol. 34, non. 3, p. 911-934, 1963.
mais les deux articles définissent l'entropie croisée comme synonyme de divergence KL.
Le papier d'origine
CE Shannon, «Une théorie mathématique de la communication», journal technique du système Bell, vol. 27, 1948.
Ne mentionne pas l'entropie croisée (et a une étrange définition d '"entropie relative": "Le rapport de l'entropie d'une source à la valeur maximale qu'elle pourrait avoir tout en restant limité aux mêmes symboles").
Enfin, j'ai regardé dans de vieux livres et papiers de Tribus.
Est-ce que quelqu'un sait comment s'appelle l'équation ci-dessus et qui l'a inventée ou en a une belle présentation?
la source
Grâce à la suggestion de @ Itamar, j'ai trouvé une mention dans:
IJ Good, "Quelques terminologies et notations dans la théorie de l'information", Actes de l'IEE - Partie C: Monographies, vol. 103, non. 3, p. 200-204, mars 1956.
Il serait encore très utile pour moi de trouver une belle présentation de l'entropie croisée.
la source
Merci pour cela - bon résumé de la documentation de base. L'article de Shore et Johnson de 1980 dans IEEE est un bon début, mais le pointeur de @ itamar vers la bonne monographie de 1956 est encore meilleur. Le concept semble provenir du travail de Shannon, la note AMS de Kullback & Leibler de 1951 étant à l'origine de l'utilisation actuelle du terme. Dans la mesure où l'origine du terme «entropie croisée» se rapporte aux réseaux de neurones artificiels, il existe un terme utilisé dans un article de Science, soumis en 1994, publié en 1995, par GE Hinton, P. Dayan, BJ Frey et RM Neal, dans qui utilise très tôt le terme "machine Hemholtz" - peut-être le premier. URL pour copie: http://elderlab.yorku.ca/~elder/teaching/cosc6390psyc6225/readings/hinton%201995.pdf Dans cet article, "L'algorithme de veille-sommeil pour les réseaux de neurones non supervisés", la note précédant l'équation # 5 dit: "Lorsqu'il existe de nombreuses autres façons de décrire un vecteur d'entrée, il est possible de concevoir un schéma de codage stochastique qui tire parti de la entropie entre les descriptions alternatives [1]. Le coût est alors: "(voir l'article pour l'équation # 5)" Le deuxième terme est alors l'entropie de la distribution que les poids de reconnaissance attribuent aux différentes représentations alternatives. " Plus loin dans l'article, l'eqn # 5 est réécrit en eqn # 8, le dernier terme étant décrit comme la divergence de Kullback-Leibler entre la distribution de probabilité initiale et la distribution de probabilité postérieure. L'article indique: "Donc, pour deux modèles génératifs qui attribuent une probabilité égale à d, ) Cet article décrit toujours le processus de minimisation pour cet algorithme spécifique comme minimisant la divergence de Kullback-Leibler, mais il semble que ce pourrait être là où le terme «entropie entre les descriptions alternatives» a été raccourci en «entropie croisée». Pour un exemple numérique d'entropie croisée, en utilisant TensorFlow, voir la publication ici, il est utile: ) Cet article décrit toujours le processus de minimisation pour cet algorithme spécifique comme minimisant la divergence de Kullback-Leibler, mais il semble que ce pourrait être là où le terme «entropie entre les descriptions alternatives» a été raccourci en «entropie croisée». Pour un exemple numérique d'entropie croisée, en utilisant TensorFlow, voir la publication ici, il est utile: /programming/41990250/what-is-cross-entropy Notez que la solution de CE = 0,47965 est dérivée simplement en prenant le logarithme naturel de la probabilité 0,619. Dans l'exemple ci-dessus, l'utilisation du codage "un à chaud" signifie que les deux autres probabilités initiales et postérieures sont ignorées en raison de la multiplication par la probabilité initiale à valeur nulle, dans la somme pour l'entropie croisée.
la source