J'ai utilisé le principe de l'entropie maximale pour justifier l'utilisation de plusieurs distributions dans divers contextes; cependant, je n'ai pas encore été en mesure de formuler une interprétation statistique, par opposition à une théorie de l'information, de l'entropie maximale. En d'autres termes, qu'est-ce que la maximisation de l'entropie implique sur les propriétés statistiques de la distribution?
Quelqu'un at-il traversé ou peut-être découvert vous-même une interprétation statistique de max. des distributions d'entropie qui ne font pas appel à l'information, mais seulement aux concepts probabilistes?
À titre d'exemple d'une telle interprétation (pas nécessairement vraie): "Pour un intervalle de longueur arbitraire L sur le domaine du RV (en supposant son continu 1-d pour plus de simplicité), la probabilité maximale qui peut être contenue dans cet intervalle est minimisée par la distribution d'entropie maximale. "
Donc, vous voyez, on ne parle pas de "caractère informatif" ou d'autres idées plus philosophiques, juste des implications probabilistes.
Réponses:
Ce n'est pas vraiment mon domaine, donc quelques réflexions:
Je vais commencer par le concept de surprise . Que signifie être surpris? Habituellement, cela signifie que quelque chose s'est produit qui n'était pas prévu. Alors, surprenez-le comme un concept probabiliste et peut être expliqué comme tel (IJ Good a écrit à ce sujet). Voir aussi Wikipédia et Bayesian Surprise .
Prenons le cas particulier d'une situation oui / non, quelque chose peut arriver ou non. Cela se produit avec la probabilitép . Disons que si p = 0,9 et cela arrive, vous n'êtes pas vraiment surpris. Si p=0.05 et cela arrive, vous êtes quelque peu surpris. Et si p=0.0000001 et cela arrive, vous êtes vraiment surpris. Ainsi, une mesure naturelle de la "valeur surprise dans le résultat observé" est une fonction (anti) monotone de la probabilité de ce qui s'est passé. Il semble naturel (et fonctionne bien ...) de prendre le logarithme de probabilité de ce qui s'est passé, puis nous ajoutons un signe moins pour obtenir un nombre positif. De plus, en prenant le logarithme, nous nous concentrons sur l'ordre de la surprise, et, dans la pratique, les probabilités ne sont souvent connues que plus ou moins à jour .
Ainsi, nous définissonsSurprise ( A ) = - logp ( A )
où UNE est le résultat observé, et p ( A ) est sa probabilité.
Maintenant, nous pouvons demander quelle est la surprise attendue . SoitX une variable aléatoire de Bernoulli de probabilité p . Il a éventuellement deux résultats, 0 et 1. Les valeurs de surprise respectives sont
Surprise ( 0 )Surprise ( 1 )= - journal( 1 - p )= - journalp
donc la surprise en observantX est elle-même une variable aléatoire avec une attente
p⋅−logp+(1−p)⋅−log(1−p)
et c'est --- surprise! --- l'entropie deX ! L'entropie est doncattendue surprise!
Maintenant, cette question concerne l'entropie maximale . Pourquoi voudrait-on utiliser une distribution d'entropie maximale? Eh bien, ça doit être parce qu'ils veulent être surpris au maximum! Pourquoi voudrait-on cela?
Une façon de voir les choses est la suivante: vous voulez en savoir plus sur quelque chose, et dans ce but vous mettez en place des expériences d'apprentissage (ou des expériences ...). Si vous saviez déjà tout sur ce sujet, vous êtes toujours en mesure de prédire parfaitement, alors ne soyez jamais surpris. Ensuite, vous n'obtenez jamais de nouvelle expérience, alors n'apprenez rien de nouveau (mais vous savez déjà tout --- il n'y a rien à apprendre, donc ça va). Dans la situation la plus typique que vous êtes confus, incapable de prédire parfaitement, il y a une opportunité d'apprentissage! Cela conduit à l'idée que nous pouvons mesurer la «quantité d'apprentissage possible» par la surprise attendue , c'est-à-dire l'entropie. Ainsi, maximiser l'entropie n'est rien d'autre que maximiser les opportunités d'apprentissage. Cela ressemble à un concept utile, qui pourrait être utile dans la conception d'expériences et de telles choses.
Un exemple poétique est le bien connu
Un exemple pratique: vous voulez concevoir un système de tests en ligne (en ligne, ce qui signifie que tout le monde ne reçoit pas les mêmes questions, les questions sont choisies dynamiquement en fonction des réponses précédentes, donc optimisées, d'une certaine manière, pour chaque personne).
Si vous posez des questions trop difficiles, afin qu'elles ne soient jamais maîtrisées, vous n'apprenez rien. Cela signifie que vous devez baisser le niveau de difficulté. Quel est le niveau de difficulté optimal, c'est-à-dire le niveau de difficulté qui maximise le taux d'apprentissage? Soitp la probabilité de réponse correcte . Nous voulons la valeur de p qui maximise l'entropie de Bernoulli. Mais c'est p=0.5 . Vous avez donc pour objectif de formuler des questions où la probabilité d'obtenir une réponse correcte (de cette personne) est de 0,5.
Ensuite , le cas d'une variable aléatoire continueX . Comment pouvons-nous être surpris en observant X ? La probabilité d'un résultat particulier {X=x} est nulle, la définition de −logp est inutile. Mais nous serons surpris si la probabilité d'observer quelque chose comme x est petite, c'est-à-dire si la valeur de la fonction de densité f(x) est petite (en supposant que f soit continue). Cela conduit à la définition
Surprise(x)=−logf(x)
Avec cette définition, la surprise attendue de l'observation de X est
E{−logf(X)}=−∫f(x)logf(x)dx
qui est, la surprise attendue de l'observation deX est l'entropie différentielle deX . Il peut également être considéré comme la probabilité de log attendue.
Mais ce n'est pas vraiment la même chose que le premier cas, événement. Trop voir ça, un exemple. Soit la variable aléatoireX représentant la longueur d'un jet de pierre (disons dans une compétition sportive). Pour mesurer cette longueur, nous devons choisir une unité de longueur, car il n'y a pas d'échelle intrinsèque à la longueur, comme il y a à la probabilité. Nous pourrions mesurer en mm ou en km, ou plus généralement en mètres. Mais notre définition de la surprise, donc de la surprise attendue, dépend de l'unité choisie, il n'y a donc pas d'invariance. Pour cette raison, les valeurs d'entropie différentielle ne sont pas directement comparables à celles de l'entropie de Shannon. Il pourrait encore être utile, si l'on se souvient de ce problème.
la source
Bien que n'étant pas un expert en théorie de l'information et en entropie maximale, je m'y intéresse depuis un certain temps.
L'entropie est une mesure de l'incertitude d'une distribution de probabilité dérivée selon un ensemble de critères. Elle et les mesures connexes caractérisent les distributions de probabilité. Et c'est la mesure unique qui satisfait à ces critères. Ceci est similaire au cas de la probabilité elle-même, qui, comme expliqué magnifiquement dans Jaynes (2003), est la mesure unique qui satisfait certains critères très souhaitables pour toute mesure d'incertitude des énoncés logiques.
Toute autre mesure de l'incertitude d'une distribution de probabilité différente de l'entropie devrait violer un ou plusieurs des critères utilisés pour définir l'entropie (sinon ce serait nécessairement l'entropie). Donc, si vous aviez une déclaration générale en termes de probabilité qui donnait en quelque sorte les mêmes résultats que l'entropie maximale ... alors ce serait l' entropie maximale!
La chose la plus proche que je puisse trouver pour une déclaration de probabilité sur les distributions d'entropie maximales jusqu'à présent est le théorème de concentration de Jaynes . Vous pouvez le trouver clairement expliqué dans Kapur et Kesavan (1992). Voici un retraitement lâche:
ET Jaynes (2003) Théorie des probabilités: la logique de la science. La presse de l'Universite de Cambridge.
JN Kapur et .K. Kesavan (1992) Principes d'optimisation d'entropie avec applications. Academic Press, Inc.
la source
Peut-être pas exactement ce que vous recherchez, mais dans Rissanen, J. Stochastic Complexity in Statistical Inquiry , World Scientific, 1989, p. 41 il existe une connexion intéressante entre l'entropie maximale, la distribution normale et le théorème de la limite centrale. Parmi toutes les densités avec zéro moyen et écart typeσ , la densité normale a une entropie maximale.
Je n'ai pas encore exploré les implications de cela, et je ne suis pas sûr de bien les comprendre.
[modifier: faute de frappe fixe]
la source