Interprétation statistique de la distribution d'entropie maximale

23

J'ai utilisé le principe de l'entropie maximale pour justifier l'utilisation de plusieurs distributions dans divers contextes; cependant, je n'ai pas encore été en mesure de formuler une interprétation statistique, par opposition à une théorie de l'information, de l'entropie maximale. En d'autres termes, qu'est-ce que la maximisation de l'entropie implique sur les propriétés statistiques de la distribution?

Quelqu'un at-il traversé ou peut-être découvert vous-même une interprétation statistique de max. des distributions d'entropie qui ne font pas appel à l'information, mais seulement aux concepts probabilistes?

À titre d'exemple d'une telle interprétation (pas nécessairement vraie): "Pour un intervalle de longueur arbitraire L sur le domaine du RV (en supposant son continu 1-d pour plus de simplicité), la probabilité maximale qui peut être contenue dans cet intervalle est minimisée par la distribution d'entropie maximale. "

Donc, vous voyez, on ne parle pas de "caractère informatif" ou d'autres idées plus philosophiques, juste des implications probabilistes.

distributions entropy intuition information-theory maximum-entropy Annika
la source

3

Je pense que vous devez être plus précis sur ce que vous recherchez: l'entropie est après tout aussi "statistique" une mesure que la variance, etc. donc la distribution d'entropie maximale maximise l'entropie est une description statistique parfaitement bonne. Il me semble donc que vous devez sortir des statistiques pour trouver une "justification"

seanv507

1

Seanv: Je conviens que l'entropie, en tant que fonction statistique, est tout aussi "statistique" que la variance, la valeur attendue, l'inclinaison, etc. l'un d'un certain nombre de théorèmes de limite centrale et aussi intuitivement comme les sommes à long terme (pour la moyenne) et l'erreur RMS (pour l'écart type). Je devrais peut-être reformuler ma question pour lire "Interprétation probabiliste des distributions d'entropie maximales".

Annika

1

Annika, la distribution d'entropie maximale a l'interprétation suivante: Si

sont des variables aléatoires iid, alors la probité conditionnelle

comme

où

est la distribution d'entropie maximale de l'ensemble

X_{1}, X_{2}, \dots

$X_1,X_2,\dots$

P (\cdot | X_{1} + \dots + X_{n} = n a) \to P^{*} (\cdot)

$P(\cdot|X_1+\dots+X_n=na)\to P^*(\cdot)$

n \to \infty

$n\to \infty$

P^{*}

$P^*$

{P : E_{P} X = a}

$\{P:\mathbb{E}_PX=a\}$ . Voir aussi ieeexplore.ieee.org/xpls/abs_all.jsp?arnumber=1056374&tag=1

Ashok

2

Merci Ashok. Je vais jeter un œil à ce document plus en détail. Cela semble être un cas spécifique de maximisation de l'entropie pour une moyenne donnée, mais je suis toujours curieux de savoir ce que l'opération de maximisation de l'entropie de Shanon fait mathématiquement de telle sorte que le résultat ci-dessus soit valable. Réduit-il efficacement la densité maximale ou la concentration moyenne de la mesure de probabilité?

Annika

19

Ce n'est pas vraiment mon domaine, donc quelques réflexions:

Je vais commencer par le concept de surprise . Que signifie être surpris? Habituellement, cela signifie que quelque chose s'est produit qui n'était pas prévu. Alors, surprenez-le comme un concept probabiliste et peut être expliqué comme tel (IJ Good a écrit à ce sujet). Voir aussi Wikipédia et Bayesian Surprise .

Prenons le cas particulier d'une situation oui / non, quelque chose peut arriver ou non. Cela se produit avec la probabilité $p$ . Disons que si p = 0,9 et cela arrive, vous n'êtes pas vraiment surpris. Si $p=0.05$ et cela arrive, vous êtes quelque peu surpris. Et si $p=0.0000001$ et cela arrive, vous êtes vraiment surpris. Ainsi, une mesure naturelle de la "valeur surprise dans le résultat observé" est une fonction (anti) monotone de la probabilité de ce qui s'est passé. Il semble naturel (et fonctionne bien ...) de prendre le logarithme de probabilité de ce qui s'est passé, puis nous ajoutons un signe moins pour obtenir un nombre positif. De plus, en prenant le logarithme, nous nous concentrons sur l'ordre de la surprise, et, dans la pratique, les probabilités ne sont souvent connues que plus ou moins à jour .

Ainsi, nous définissons

Surprise (UNE) = - bûche p (UNE)

$\text{Surprise}(A) = -\log p(A)$ où

A

$A$ est le résultat observé, et

p (A)

$p(A)$ est sa probabilité.

Maintenant, nous pouvons demander quelle est la surprise attendue . Soit $X$ une variable aléatoire de Bernoulli de probabilité $p$ . Il a éventuellement deux résultats, 0 et 1. Les valeurs de surprise respectives sont

\begin{aligned} Surprise (0) & = - bûche (1 - p) \\ Surprise (1) & = - bûche p \end{aligned}

$\begin{align} \text{Surprise}(0) &= -\log(1-p) \\ \text{Surprise}(1) &= -\log p \end{align}$ donc la surprise en observant

X

$X$ est elle-même une variable aléatoire avec une attente

p \cdot - \log p + (1 - p) \cdot - \log (1 - p)

$p \cdot -\log p + (1-p) \cdot -\log(1-p)$ et c'est --- surprise! --- l'entropie de

X

$X$ ! L'entropie est doncattendue surprise!

Maintenant, cette question concerne l'entropie maximale . Pourquoi voudrait-on utiliser une distribution d'entropie maximale? Eh bien, ça doit être parce qu'ils veulent être surpris au maximum! Pourquoi voudrait-on cela?

Une façon de voir les choses est la suivante: vous voulez en savoir plus sur quelque chose, et dans ce but vous mettez en place des expériences d'apprentissage (ou des expériences ...). Si vous saviez déjà tout sur ce sujet, vous êtes toujours en mesure de prédire parfaitement, alors ne soyez jamais surpris. Ensuite, vous n'obtenez jamais de nouvelle expérience, alors n'apprenez rien de nouveau (mais vous savez déjà tout --- il n'y a rien à apprendre, donc ça va). Dans la situation la plus typique que vous êtes confus, incapable de prédire parfaitement, il y a une opportunité d'apprentissage! Cela conduit à l'idée que nous pouvons mesurer la «quantité d'apprentissage possible» par la surprise attendue , c'est-à-dire l'entropie. Ainsi, maximiser l'entropie n'est rien d'autre que maximiser les opportunités d'apprentissage. Cela ressemble à un concept utile, qui pourrait être utile dans la conception d'expériences et de telles choses.

Un exemple poétique est le bien connu

Wenn einer eine reise macht, dann kann er était erzählen ...

Un exemple pratique: vous voulez concevoir un système de tests en ligne (en ligne, ce qui signifie que tout le monde ne reçoit pas les mêmes questions, les questions sont choisies dynamiquement en fonction des réponses précédentes, donc optimisées, d'une certaine manière, pour chaque personne).

Si vous posez des questions trop difficiles, afin qu'elles ne soient jamais maîtrisées, vous n'apprenez rien. Cela signifie que vous devez baisser le niveau de difficulté. Quel est le niveau de difficulté optimal, c'est-à-dire le niveau de difficulté qui maximise le taux d'apprentissage? Soit $p$ la probabilité de réponse correcte . Nous voulons la valeur de $p$ qui maximise l'entropie de Bernoulli. Mais c'est $p=0.5$ . Vous avez donc pour objectif de formuler des questions où la probabilité d'obtenir une réponse correcte (de cette personne) est de 0,5.

Ensuite , le cas d'une variable aléatoire continue $X$ . Comment pouvons-nous être surpris en observant $X$ ? La probabilité d'un résultat particulier $\{X=x\}$ est nulle, la définition de $-\log p$ est inutile. Mais nous serons surpris si la probabilité d'observer quelque chose comme $x$ est petite, c'est-à-dire si la valeur de la fonction de densité $f(x)$ est petite (en supposant que $f$ soit continue). Cela conduit à la définition

Surprise (x) = - \log f (x)

$\DeclareMathOperator{\E}{\mathbb{E}} \text{Surprise}(x) = -\log f(x)$ Avec cette définition, la surprise attendue de l'observation de

X

$X$ est

E {- \log f (X)} = - \int f (x) \log f (x) d x

$\E \{-\log f(X)\} = -\int f(x) \log f(x) \; dx$ qui est, la surprise attendue de l'observation de

X

$X$ est l'entropie différentielle de

X

$X$ . Il peut également être considéré comme la probabilité de log attendue.

Mais ce n'est pas vraiment la même chose que le premier cas, événement. Trop voir ça, un exemple. Soit la variable aléatoire $X$ représentant la longueur d'un jet de pierre (disons dans une compétition sportive). Pour mesurer cette longueur, nous devons choisir une unité de longueur, car il n'y a pas d'échelle intrinsèque à la longueur, comme il y a à la probabilité. Nous pourrions mesurer en mm ou en km, ou plus généralement en mètres. Mais notre définition de la surprise, donc de la surprise attendue, dépend de l'unité choisie, il n'y a donc pas d'invariance. Pour cette raison, les valeurs d'entropie différentielle ne sont pas directement comparables à celles de l'entropie de Shannon. Il pourrait encore être utile, si l'on se souvient de ce problème.

kjetil b halvorsen
la source

5

C'est l'une des meilleures explications intuitives de l'entropie maximale que j'ai vues!

Vladislavs Dovgalecs

3

Bien que n'étant pas un expert en théorie de l'information et en entropie maximale, je m'y intéresse depuis un certain temps.

L'entropie est une mesure de l'incertitude d'une distribution de probabilité dérivée selon un ensemble de critères. Elle et les mesures connexes caractérisent les distributions de probabilité. Et c'est la mesure unique qui satisfait à ces critères. Ceci est similaire au cas de la probabilité elle-même, qui, comme expliqué magnifiquement dans Jaynes (2003), est la mesure unique qui satisfait certains critères très souhaitables pour toute mesure d'incertitude des énoncés logiques.

Toute autre mesure de l'incertitude d'une distribution de probabilité différente de l'entropie devrait violer un ou plusieurs des critères utilisés pour définir l'entropie (sinon ce serait nécessairement l'entropie). Donc, si vous aviez une déclaration générale en termes de probabilité qui donnait en quelque sorte les mêmes résultats que l'entropie maximale ... alors ce serait l' entropie maximale!

La chose la plus proche que je puisse trouver pour une déclaration de probabilité sur les distributions d'entropie maximales jusqu'à présent est le théorème de concentration de Jaynes . Vous pouvez le trouver clairement expliqué dans Kapur et Kesavan (1992). Voici un retraitement lâche:

$p$ $n$ $p_i$ $i=1,...,n$ $m$ $m+1$

$S$ $m+1$ $S_{\textrm{max}}$

$N$

2 N (S_{max} - S) \sim χ_{n - m - 1}^{2} .

$2N(S_{\textrm{max}} - S) \sim \chi^2_{n-m-1}.$

(S_{max} - \frac{χ_{n - m - 1}^{2} (0.95)}{2 N}, S_{max}) .

$\left( S_{\textrm{max}} - \frac {\chi^2_{n-m-1} (0.95)}{2N}, S_{\textrm{max}} \right).$

S_{max} - \frac{χ_{n - m - 1}^{2} (0.95)}{2 N}

$S_{\textrm{max}} - \frac {\chi^2_{n-m-1} (0.95)}{2N}$

ET Jaynes (2003) Théorie des probabilités: la logique de la science. La presse de l'Universite de Cambridge.

JN Kapur et .K. Kesavan (1992) Principes d'optimisation d'entropie avec applications. Academic Press, Inc.

jvbraun
la source

3

Peut-être pas exactement ce que vous recherchez, mais dans Rissanen, J. Stochastic Complexity in Statistical Inquiry , World Scientific, 1989, p. 41 il existe une connexion intéressante entre l'entropie maximale, la distribution normale et le théorème de la limite centrale. Parmi toutes les densités avec zéro moyen et écart type $\sigma$ , la densité normale a une entropie maximale.

"Par conséquent, dans cette interprétation, le théorème de la limite centrale de base exprime le fait que l'entropie par symbole des sommes de variables aléatoires indépendantes avec une moyenne nulle et une variance commune tend vers le maximum. Cela semble éminemment raisonnable; en fait, c'est une expression de la deuxième loi de la thermodynamique, qu'Eddington considérait comme «la position suprême parmi les lois de la nature». "

Je n'ai pas encore exploré les implications de cela, et je ne suis pas sûr de bien les comprendre.

[modifier: faute de frappe fixe]

F. Tusell
la source

Interprétation statistique de la distribution d'entropie maximale

Réponses: