Je sais que l'entropie est la mesure du caractère aléatoire d'un processus / variable et elle peut être définie comme suit. pour une variable aléatoire set : - . Dans le livre sur l'entropie et la théorie de l'information de MacKay, il fournit cette déclaration dans Ch2
L'entropie est maximisée si p est uniforme.
Intuitivement, je peux le comprendre, comme si tous les points de données dans l'ensemble sont choisis avec une probabilité égale ( étant la cardinalité de l'ensemble ), alors le caractère aléatoire ou l'entropie augmente. Mais si nous savons que certains points de l'ensemble se produiront avec plus de probabilité que d'autres (par exemple, dans le cas d'une distribution normale, où la concentration maximale de points de données se situe autour de la moyenne et de la petite zone d'écart type qui l'entoure, alors le caractère aléatoire ou l'entropie devrait diminuer.
Mais y a-t-il une preuve mathématique pour cela? Comme l'équation pour je le différencie par rapport à et je le mets à 0 ou quelque chose comme ça.
Soit dit en passant, y a-t-il un lien entre l'entropie qui se produit dans la théorie de l'information et les calculs d'entropie en chimie (thermodynamique)?
la source
Réponses:
Heuristique, la fonction de densité de probabilité sur avec entropie maximale se révèle être celui qui correspond à un minimum de connaissances de { x 1 , x 2 , . . , . x n } , c'est-à-dire la distribution uniforme.{x1,x2,..,.xn} {x1,x2,..,.xn}
Maintenant, pour une preuve plus formelle, considérez ce qui suit:
Une fonction de densité de probabilité sur est un ensemble de nombres réels non négatifs p 1 , . . . , P n qui ajoutent à 1. L' entropie est une fonction continue des n - uplets ( p 1 , . . . 1 /{x1,x2,..,.xn} p1, . . . , pn n , et ces points se trouvent dans un sousensemble compact de R n ,sorte qu'il est un n( p1, . . . , pn) Rn n uplet où l' entropie est maximisée. Nous voulons montrer que cela se produit à et nulle part ailleurs.( 1 / n , . . . , 1 / n )
Supposons que les ne soient pas tous égaux, disons p 1 < p 2 . (Clairement n ≠ 1. ) Nous trouverons une nouvelle densité de probabilité avec une entropie plus élevée. Il s'ensuit alors, puisque l'entropie est maximisée à un certain n- tuple, que l'entropie est maximisée uniquement au n- tuple avec p i = 1 / n pour tout i .pj p1< p2 n ≠ 1 n n pje= 1 / n je
Puisque , pour les petits ε positifs, nous avons p 1 + ε < p 2 - ε . L'entropie de { p 1 + ε , p 2 - ε , p 3 , . . . , P n } moins l'entropie de { p 1 , p 2 , p 3 , . . . , pp1< p2 ε p1+ ε < p2- ε { p1+ ε , p2- ε , p3, . . . , pn} est égal{ p1, p2, p3, . . . , pn}
Pour compléter la preuve, nous voulons montrer que cela est positif pour suffisamment petitε. Réécrivez l'équation ci-dessus comme -p1log(1+ε
Rappelant que pour les petits x , l'équation ci-dessus est - ε - ε log p 1 + ε + ε log p 2 + O ( ε 2 ) = ε log ( p 2 / p 1 ) + O ( ε 2 ) qui est positif lorsquelog(1+x)=x+O(x2) x
Une preuve moins rigoureuse est la suivante:
Considérons d'abord le lemme suivant:
Also, wikipedia has a brief discussion on this as well: wiki
la source
Entropy in physics and information theory are not unrelated. They're more different than the name suggests, yet there's clearly a link between. The purpose of entropy metric is to measure the amount of information. See my answer with graphs here to show how entropy changes from uniform distribution to a humped one.
The reason why entropy is maximized for a uniform distribution is because it was designed so! Yes, we're constructing a measure for the lack of information so we want to assign its highest value to the least informative distribution.
Example. I asked you "Dude, where's my car?" Your answer is "it's somewhere in USA between Atlantic and Pacific Oceans." This is an example of the uniform distribution. My car could be anywhere in USA. I didn't get much information from this answer.
However, if you told me "I saw your car one hour ago on Route 66 heading from Washington, DC" - this is not a uniform distribution anymore. The car's more likely to be in 60 miles distance from DC, than anywhere near Los Angeles. There's clearly more information here.
Hence, our measure must have high entropy for the first answer and lower one for the second. The uniform must be least informative distribution, it's basically "I've no idea" answer.
la source
The mathematical argument is based on Jensen inequality for concave functions. That is, iff(x) is a concave function on [a,b] and y1,…yn are points in [a,b] , then:
n⋅f(y1+…ynn)≥f(y1)+…+f(yn)
Apply this for the concave functionf(x)=−xlog(x) and Jensen inequality for yi=p(xi) and you have the proof. Note that p(xi) define a discrete probability distribution, so their sum is 1. What you get is log(n)≥∑ni=1−p(xi)log(p(xi)) , with equality for the uniform distribution.
la source
Yes, there is! You can see the work of Jaynes and many others following his work (such as here and here, for instance).
But the main idea is that statistical mechanics (and other fields in science, also) can be viewed as the inference we do about the world.
As a further reading I'd recommend Ariel Caticha's book on this topic.
la source
An intuitive explanation:
If we put more probability mass into one event of a random variable, we will have to take away some from other events. The one will have less information content and more weight, the others more information content and less weight. Therefore the entropy being the expected information content will go down since the event with lower information content will be weighted more.
As an extreme case imagine one event getting probability of almost one, therefore the other events will have a combined probability of almost zero and the entropy will be very low.
la source
Main idea: take partial derivative of eachpi , set them all to zero, solve the system of linear equations.
Take a finite number ofpi where i=1,...,n for an example.
Denote q=1−∑n−1i=0pi .
la source