Qu'est-ce que l'entropie nous dit?

32

Je lis sur l' entropie et j'ai du mal à conceptualiser ce que cela signifie dans le cas présent. La page wiki indique ce qui suit:

La distribution de probabilité des événements, couplée à la quantité d'informations de chaque événement, forme une variable aléatoire dont la valeur attendue est la quantité moyenne d'informations, ou entropie, générée par cette distribution.

Donc, si je calcule l'entropie associée à une distribution de probabilité continue, qu'est-ce que cela me dit vraiment? Ils donnent un exemple sur le retournement de pièces, donc le cas discret, mais s’il existe un moyen intuitif d’expliquer à travers un exemple comme celui-ci dans le cas continu, ce serait formidable!

Si cela peut aider, la définition de l'entropie pour une variable aléatoire continue est la suivante:X

P ( x )

H(X)=P(x)logbP(x)dx
où est une fonction de distribution de probabilité.P(x)

Pour essayer de rendre cela plus concret, considérons le cas de , puis, selon Wikipedia , l’entropie est:XGamma(α,β)

H(X)=E[ln(P(X))]=E[αln(β)+ln(Γ(α))+ln(Γ(α))(α1)ln(X)+βX]=αln(β)+ln(Γ(α))+(1α)(ddαln(Γ(α)))

Et donc maintenant nous avons calculé l'entropie pour une distribution continue (la distribution Gamma) et donc si j'évalue maintenant cette expression, , étant donné et , que me dit cette quantité? α βH(X)αβ

RustyStatistician
la source
5
(+1) Cette citation fait référence à un passage vraiment malheureux. Il s'agit d'essayer, de manière laborieuse et opaque, de décrire et d'interpréter la définition mathématique de l'entropie. Cette définition est . Il peut être considéré comme l'attente de où est le pdf d'une variable aléatoire . Il tente de caractériser comme la "quantité d'informations" associée au nombre . log ( f ( X ) ) f X log ( f ( x ) ) xf(x)log(f(x))dxlog(f(X))fXlog(f(x))x
whuber
5
Cela vaut la peine de poser la question car il y a un problème technique délicat mais important: la version continue de l'entropie n'a pas tout à fait les mêmes propriétés que la version discrète (qui a une interprétation naturelle et intuitive en termes d'informations). @ Tim AFAIK, ce fil de discussion sur les mathématiques ne concerne que le cas discret .
whuber
1
@RustyStatistician pense que vous dit à quel point le résultat x était surprenant. Vous calculez alors la surprise attendue. log(f(x))
Adrian
3
Concernant le problème technique @ Whuber, cela pourrait être intéressant.
Sean Easter
3
Si vous êtes intéressé par des détails techniques: Entropy est une pseudo-métrique appelée divergence de Kullback-Leibler utilisée pour décrire les distances entre les événements dans leur mesure respective, voir projecteuclid.org/euclid.aoms/1177729694 pour l'original ( et groudbreaking) papier de Kullback et Leibler. Le concept réapparaît également dans les critères de sélection des modèles tels que l'AIC et le BIC.
Jeremias K

Réponses:

31

L'entropie vous dit combien d'incertitude existe dans le système. Supposons que vous cherchiez un chat et que vous sachiez qu'il se situe quelque part entre votre maison et vos voisins, à 1,5 km. Vos enfants vous disent que la distribution bêta décrit le mieux la probabilité qu'un chat se trouve à une distance chez vous . Donc, un chat peut être n'importe où entre 0 et 1, mais plus susceptible d'être au milieu, c'est-à-dire .x f(x;2,2)xmax=1/2

entrez la description de l'image ici

Connectons la distribution beta à votre équation, vous obtenez alors .H=0.125

Ensuite, vous demandez à votre femme et elle vous dit que la meilleure distribution pour décrire sa connaissance de votre chat est la distribution uniforme. Si vous le branchez à votre équation d'entropie, vous obtenez .H=0

Les distributions de l'uniforme et de la bêta laissent le chat se trouver entre 0 et 1 km de chez vous, mais l'uniforme est plus incertain, car votre femme n'a aucune idée de l'endroit où se cache le chat, alors que les enfants ont une idée , ils pensent que c'est plus susceptible d'être quelque part au milieu. C'est pourquoi l'entropie de Beta est inférieure à celle de Uniform.

entrez la description de l'image ici

Vous pouvez essayer d'autres distributions, peut-être votre voisin vous dit-il que le chat aime être près de l'une des maisons, sa distribution bêta est donc avec . Son doit être à nouveau inférieur à celui de l'uniforme, car vous avez une idée de l'endroit où chercher un chat. Devinez si l'entropie des informations de votre voisin est supérieure ou inférieure à celle de vos enfants? Je parierais sur les enfants n'importe quel jour sur ces questions.α=β=1/2H

entrez la description de l'image ici

MISE À JOUR:

Comment cela marche-t-il? Une façon de penser à cela est de commencer par une distribution uniforme. Si vous êtes d’accord pour dire que c’est celui qui suscite le plus d’incertitude, songez à le déranger. Regardons le cas discret pour plus de simplicité. Prenez d'un point et ajoutez-le à un autre comme suit: Δp

pi=pΔp
pj=p+Δp

Maintenant, nous allons voir comment les changements d' entropie: Cela signifie que toute perturbation de la distribution uniforme réduit l'entropie (incertitude). Pour montrer la même chose en casse continue, je devrais utiliser le calcul des variations ou quelque chose du même ordre, mais vous obtiendrez le même genre de résultat, en principe.

HH=pilnpipiln(piΔp)+pjlnpjpjln(pj+Δp)
=plnppln[p(1Δp/p)]+plnppln[p(1+Δp/p)]
=ln(1Δp/p)ln(1+Δp/p)>0

MISE À JOUR 2: La moyenne de variables aléatoires uniformes est une variable aléatoire elle-même, qui provient de la distribution de Bates . D'après CLT, nous savons que la variance de cette nouvelle variable aléatoire diminue de . Donc, l'incertitude de son emplacement doit diminuer avec l'augmentation de : nous sommes de plus en plus sûrs qu'un chat est au centre. Mon prochain graphique et le code MATLAB montrent comment l'entropie décroît de 0 pour (distribution uniforme) à . J'utilise la bibliothèque de distributions31 ici.nnnn=1n=13

entrez la description de l'image ici

x = 0:0.01:1;
for k=1:5
    i = 1 + (k-1)*3;
    idx(k) = i;
    f = @(x)bates_pdf(x,i);
    funb=@(x)f(x).*log(f(x));
    fun = @(x)arrayfun(funb,x);
    h(k) = -integral(fun,0,1);
    subplot(1,5+1,k)

    plot(x,arrayfun(f,x))
    title(['Bates(x,' num2str(i) ')'])
    ylim([0 6])
end

subplot(1,5+1,5+1)
plot(idx,h)
title 'Entropy'
Aksakal
la source
1
(+1) J'attendrai de voir les autres interprétations mais j'aime beaucoup celle-ci. Il semble donc que vous puissiez utiliser l'entropie comme mesure de certitude pour la comparer à d'autres distributions. C'est-à-dire que le nombre en lui-même ne vous dit pas grand chose?
RustyStatistician
1
@RustyStatistician, je ne dirais pas que sa valeur absolue n'a aucun sens. Mais oui, c'est très utile pour comparer les états du système. Le moyen le plus simple d'internaliser l'entropie est de considérer cela comme une mesure de l' incertitude
Aksakal
Le problème avec cette réponse est que le terme "incertitude" n'est pas défini.
kjetil b halvorsen
1
le terme reste incertain
Aksakal
C'est très gentil.
Astrid
1

J'aimerais ajouter une réponse simple à cette question:

qu'est-ce que cette quantité me dit réellement?

C'est intuitif d'illustrer cela dans un scénario discret. Supposons que vous jetiez une pièce fortement biaisée en disant que la probabilité de voir une tête à chaque lancer est de 0,99. Chaque flip vous dit très peu d’informations car vous savez presque déjà que ce sera la tête. Mais lorsqu'il s'agit d'une pièce plus juste, il n'est pas plus difficile pour vous de savoir à quoi vous attendre, alors chaque flip vous dit plus d'informations qu'une pièce plus biaisée. La quantité d'informations obtenues en observant un seul tirage est assimilée à .log1p(x)

Ce que la quantité d'entropie nous indique, ce sont les informations que chaque moyenne réelle (valeur pondérée) peut transmettre: . Plus la pièce est claire, plus l'entropie est grande et une pièce parfaitement équitable sera informative au maximum.Elog1p(x)=p(x)log1p(x)

Lerner Zhang
la source