Qualitativement ce qui est entropie croisée

15

Cette question donne une définition quantitative de l'entropie croisée, en termes de formule.

Je cherche une définition plus théorique, wikipedia dit:

En théorie de l'information, l'entropie croisée entre deux distributions de probabilité mesure le nombre moyen de bits nécessaires pour identifier un événement à partir d'un ensemble de possibilités, si un schéma de codage est utilisé sur la base d'une distribution de probabilité donnée q, plutôt que de la distribution "vraie" p .

J'ai souligné la partie qui me donne du mal à comprendre cela. Je voudrais une belle définition qui ne nécessite pas une compréhension séparée (préexistante) d'Entropie.

Lyndon White
la source
1
Vous demandez une définition de l' entropie croisée qui, en même temps, définira l' entropie elle-même. Et intuitivement donc ... Si vous avez du mal à comprendre le concept d'Entropie lui-même, ce serait une bonne idée de comprendre d'abord le concept de base puis n'importe laquelle de ses extensions.
Alecos Papadopoulos
1
Personnellement, j'avais une compréhension de base de l'entropie (même si cela fait presque 12 mois que je l'ai appliquée). Mais une expression quantitative de l'entropie, devrait tenir dans un court paragraphe, et l'entropie croisée ne devrait en prendre qu'un de plus. Je pense donc qu'une bonne réponse peut inclure les deux, de sorte que le lecteur n'a pas besoin de se référer ailleurs pour le comprendre.
Lyndon White

Réponses:

23

Pour coder un événement se produisant avec la probabilité vous avez besoin d'au moins log 2 ( 1 / p ) bits (pourquoi? Voir ma réponse sur "Quel est le rôle du logarithme dans l'entropie de Shannon?" ).pJournal2(1/p)

Donc, dans le codage optimal, la longueur moyenne du message codé est c'est-à-direl'entropiedeShannonde la distribution de probabilité d'origine.

jepjeJournal2(1pje),

Cependant, si pour la distribution de probabilité vous utilisez un codage qui est optimal pour une distribution de probabilité différente Q , alors la longueur moyenne du message codé est i p i code_length ( i ) = i p i log 2 ( 1PQ est l'entropie croisée, qui est supérieure àipilog2(1

jepjecode_length (je)=jepjeJournal2(1qje),
.jepjeJournal2(1pje)

P=(12,12,0,0)

Ensuite, si nous voulons le coder de manière optimale, nous codons A comme 0 et B comme 1, nous obtenons donc un bit de message codé par une lettre. (Et c'est exactement l'entropie de Shannon de notre distribution de probabilité.)

PQ=(14,14,14,14)

Piotr Migdal
la source
Belle explication, merci. Cependant, la définition de wikipedia est sum_i [p_i * log (q_i)]. Votre utilisation de 1 / q_i donne le nombre d'états possibles, donc log_2 le convertit en nombre de bits requis pour coder un seul symbole, mais la page wikipedia décrit quelque chose de subtilement différent.
redcalx
4
1/qjeJournal(1/qje)=-Journal(qje)