Intuition d'une entropie articulaire

9

J'ai du mal à construire une intuition sur l'entropie conjointe. = incertitude dans la distribution conjointe ; = incertitude dans ; = incertitude dans .H(X,Y)p(x,y)H(X)px(x)H(Y)py(y)

Si H (X) est élevé, alors la distribution est plus incertaine et si vous connaissez le résultat d'une telle distribution, alors vous avez plus d'informations! Donc H (X) quantifie également les informations.

Maintenant, nous pouvons montrerH(X,Y)H(X)+H(Y)

Mais si vous connaissez vous pouvez obtenir et donc dans un certain sens a plus d'informations que et , donc ne devrait pas t l'incertitude liée à p (x, y) est-elle supérieure à la somme des incertitudes individuelles?p(x,y)px(x)py(y)p(x,y)px(x)py(y)

user21455
la source

Réponses:

7

en règle générale, les informations supplémentaires n'augmentent jamais l'entropie, qui est officiellement formulée comme suit:

H(X|Y)H(X)

l'égalité est vraie si et sont indépendants, ce qui implique .XYH(X|Y)=H(X)

Ce résultat peut être utilisé pour prouver l'entropie conjointe . Pour le démontrer, considérons un cas simple . Selon la règle de chaîne, nous pouvons écrire l'entropie de jointure comme ci-dessousH(X1,X2,...,Xn)i=1nH(Xi)H(X,Y)

H(X,Y)=H(X|Y)+H(Y)

Compte tenu de l'inégalité , n'augmente jamais l'entropie de la variable , et donc . En utilisant l'induction, on peut généraliser ce résultat aux cas qui impliquent plus de deux variables.H(X|Y)XH(X,Y)H(X)+H(Y)

J'espère que cela a contribué à réduire l'ambiguïté (ou votre entropie) à propos de l'entropie conjointe!

omidi
la source
4

Il y a un autre point de vue sur l'entropie de Shannon. Imaginez que vous vouliez deviner par des questions quelle est la valeur concrète d'une variable. Pour simplifier, imaginez que la valeur ne peut prendre que huit valeurs différentes , et toutes sont également probables.(0,1,...,8)

Le moyen le plus efficace consiste à effectuer une recherche binaire. Vous demandez d'abord si elle est supérieure ou inférieure à 4. Ensuite, comparez-la avec 2 ou 6, et ainsi de suite. Au total, vous n'aurez pas besoin de plus de trois questions (qui est le nombre de bits de cette distribution concrète).

On peut poursuivre l'analogie pour le cas de deux variables. S'ils ne sont pas indépendants, alors connaître la valeur de l'un d'eux vous aide à faire de meilleures suppositions (en moyenne) pour la question suivante (cela se reflète dans les résultats signalés par omidi ). Par conséquent, l'entropie est inférieure, à moins qu'elles ne soient complètement indépendantes, où vous devez deviner leurs valeurs indépendamment. Dire que l'entropie est inférieure signifie (pour cet exemple concret) que vous devez poser moins de questions en moyenne (c'est-à-dire que plus souvent qu'autrement, vous ferez de bonnes suppositions).

jpmuc
la source
2

Il semble que vous pensiez "si plus d'informations lorsqu'elles sont connues, puis plus d'entropie lorsqu'elles sont inconnues". Ce n'est pas une intuition correcte, car si la distribution est inconnue, nous ne connaissons même pas son entropie. Si la distribution est connue, l' entropie quantifie la quantité d'informations nécessaires pour décrire l'incertitude sur la réalisation de la variable aléatoire, qui reste inconnue (nous ne connaissons la structure entourant cette incertitude qu'en connaissant la distribution). L'entropie ne quantifie pas les informations "présentes" dans la distribution. Au contraire: plus il y a d'informations "incluses" dans la distribution, moins il faut "d'informations" pour décrire l'incertitude, et donc moinsl'entropie est. Considérez la distribution uniforme: elle contient très peu d' informations, car toutes les valeurs possibles de la variable sont équiprobables: elle a donc une entropie maximale parmi toutes les distributions avec un support borné.

Quant à l'entropie conjointe, vous pouvez la considérer comme suit: la distribution conjointe contient des informations sur la dépendance ou non de deux variables, ainsi que des informations suffisantes pour dériver les distributions marginales. Les distributions marginales ne contiennent pas d'informations sur la dépendance ou l'indépendance de deux variables aléatoires. La distribution conjointe contient donc plus d'informations et nous donne moins d'incertitude concernant les variables aléatoires impliquées:

Plus d'informations incluses dans la distribution moins d'incertitude entourant les variables moins d'informations nécessaires pour décrire cette incertitude moins d'entropie.

Alecos Papadopoulos
la source
Merci, cela rend les choses très claires. Je pensais le long des lignes que les corrélations dans une distribution devraient diminuer l'incertitude d'une paire de valeurs et donc doit être plus petit que . (X,Y)H(X,Y)H(X)+H(Y)
user21455
Oui, c'est l'essence.
Alecos Papadopoulos