Quel est le rôle du logarithme dans l'entropie de Shannon?

72

L'entropie de Shannon est le négatif de la somme des probabilités de chaque résultat multiplié par le logarithme des probabilités de chaque résultat. A quoi sert le logarithme dans cette équation?

Une réponse intuitive ou visuelle (par opposition à une réponse profondément mathématique) recevra des points bonus!

Histelheim
la source
11
Vous (ou d’autres lecteurs) pouvez apprécier: A. Renyi (1961), Des mesures d’entropie et d’information , Proc. du quatrième symposium de Berkeley sur les statistiques mathématiques et les probabilités , vol. 1, 547-561.
cardinal
Compte tenu de votre réaction , je suppose que ce que vous voulez dire, c'est pourquoi Shannon a utilisé le logarithme dans sa formule, non?
Ooker
@ Ooker: C'est une façon de l'exprimer. "Pourquoi" l'a-t-il mis? "Qu'est-ce que" est sa fonction ou son rôle "?" Qu'est-ce que "cela accomplit-il?" Comment "est-il utile? Pour moi, ils sont tous dans le même quartier ...
histelheim
Regardez ma réponse ici: stats.stackexchange.com/questions/66186/…
kjetil b halvorsen
Voir ma réponse, je pense que la signification d'un log ne peut vraiment être comprise qu'en examinant les racines de l'entropie de Shannon en mécanique statistique
Aksakal

Réponses:

51

L'entropie de Shannon est une quantité satisfaisant un ensemble de relations.

En résumé, le logarithme consiste à le faire grandir linéairement avec la taille du système et à "se comporter comme une information".

La première signifie que l' entropie de lancer une pièce de monnaie n fois est n fois l' entropie de lancer une pièce:

i=12n12nlog(12n)=i=12n12nnlog(12)=n(i=1212log(12))=n.

Ou juste pour voir comment cela fonctionne quand on lance deux pièces différentes (peut-être injuste - avec des têtes de probabilité p1 et des queues p2 pour la première pièce, et q1 et q2 pour la seconde)

i=12j=12piqjlog(piqj)=i=12j=12piqj(log(pi)+log(qj))
=i=12j=12piqjlog(pi)i=12j=12piqjlog(qj)=i=12pilog(pi)j=12qjlog(qj)
si les propriétés dulogarithme(logarithme du produit estsomme des logarithmes) sont cruciaux.

Mais aussi l' entropie de Rényi a cette propriété (elle est paramétrisée par un nombre réel α , qui devient l'entropie de Shannon pour α1 ).

Cependant, voici la deuxième propriété - l’entropie de Shannon est particulière, car elle est liée à l’information. Pour obtenir un sentiment intuitif, vous pouvez regarder

H=ipilog(1pi)
tant que moyenne delog(1/p).

Nous pouvons appeler les informations du log(1/p) . Pourquoi? Parce que si tous les événements se produisent avec une probabilité p , cela signifie qu'il y a 1/p événements. Pour savoir quel événement s'est produit, nous devons utiliser log(1/p) bits log ( 1 / p ) (chaque bit double le nombre d'événements que nous pouvons distinguer).

Vous pouvez vous sentir anxieux "OK, si tous les événements ont la même probabilité, il est logique d'utiliser log(1/p) comme mesure de l'information. Mais s'ils ne le sont pas, pourquoi le fait de calculer une moyenne d'information a un sens?" - et c'est une préoccupation naturelle.

Mais il se trouve qu'il est logique - théorème de codage source de Shannon dit qu'une chaîne de lettres uncorrelted avec des probabilités {pi}i de longueur n ne peut pas être comprimé (en moyenne) à chaîne binaire plus courte que nH . En fait, nous pouvons utiliser le codage de Huffman pour compresser la chaîne et obtenir très proche de nH .

Voir également:

Piotr Migdal
la source
11
Cette réponse contient de nombreux détails intéressants - mais du point de vue d'un profane, elle contourne toujours le problème - quel est le rôle du logarithme? Pourquoi ne pouvons-nous pas calculer l'entropie sans le logarithme?
Histelheim
6
@histelheim Qu'entendez-vous par "sans le logarithme"? est juste un. Si vous voulez une autre mesure de la diversité sans journal , regardez les indices de diversité - par exemple , ce qu'on appelle l' indice inverse Simpson 1 / Σ i p 2 i qui dit nombre effectif de choix (une sur la probabilité moyenne), il est l' indice de Gini-Simpson 1 - i p 2 iipilog 1/ipi2 1ipi2qui est toujours entre 0 et un. Et si vous ne vous souciez pas des propriétés subtiles liées à l'information de l'entropie de Shannon, vous pouvez en utiliser n'importe laquelle (bien qu'elles pèsent différemment dans les probabilités haute et basse).
Piotr Migdal le
10
Je suis déconcerté par votre dernier commentaire, Histelheim: à quoi pourrait faire référence une "entropie sans le logarithme"? Cela suggère que vous n’avez pas encore clairement articulé votre question, car il semble que vous ayez à l’esprit un concept non déclaré d’entropie. Ne nous laissez pas deviner, modifiez votre question afin que vos lecteurs puissent fournir le type de réponses que vous recherchez.
whuber
1
@ Piotr Migdal - vous écrivez "le logarithme consiste à le faire grandir linéairement avec la taille du système et à" se comporter comme une information "." - Cela me semble crucial pour comprendre le rôle du logarithme, mais je ne comprends pas très bien ce que cela signifie.
Histelheim
1
@ Piotr Migdal - plus loin, votre explication après "Nous pouvons appeler les informations du journal (1 / p). Pourquoi?" semble avoir un sens pour moi. Est-ce que le logarithme nous déplace essentiellement d’un indice de diversité à un indice d’information - mesurant le nombre de bits dont nous avons besoin pour distinguer les événements?
Histelheim
25

C’est la même chose que les autres réponses, mais je pense que la meilleure façon de l’expliquer est de voir ce que Shannon dit dans son document original.

La mesure logarithmique est plus pratique pour diverses raisons:

  1. C'est pratiquement plus utile. Les paramètres d’importance technique tels que le temps, la largeur de bande, le nombre de relais, etc., ont tendance à varier linéairement avec le logarithme du nombre de possibilités. Par exemple, l'ajout d'un relais à un groupe double le nombre d'états possibles des relais. Il ajoute 1 au logarithme en base 2 de ce nombre. Doubler le temps équivaut environ au nombre de messages possibles, ou double le logarithme, etc.
  2. C'est plus proche de notre sentiment intuitif quant à la mesure appropriée. Ceci est étroitement lié à (1) puisque nous mesurons intuitivement les entités par comparaison linéaire avec des normes communes. On pense, par exemple, que deux cartes perforées devraient avoir deux fois plus de capacité qu'une pour stocker des informations, et deux canaux identiques deux fois plus qu'une capacité pour transmettre des informations.
  3. C'est mathématiquement plus approprié. La plupart des opérations limitantes sont simples en termes de logarithme mais nécessiteraient une reformulation maladroite en termes de nombre de possibilités.

Source: Shannon, Théorie mathématique de la communication (1948) [ pdf ].


Notez que l'entropie de Shannon coïncide avec l'entropie de Gibbs de la mécanique statistique, et il existe également une explication de la raison pour laquelle le journal se produit dans l'entropie de Gibbs. En mécanique statistique, l'entropie est censée mesurer le nombre d'états possibles dans lesquels un système peut être trouvé. La raison pour laquelle log Ω est meilleur que Ω est parce que Ω est généralement une fonction de ses arguments dont la croissance est très rapide, et ne peut donc pas être approximée utilement par un développement de Taylor, alors que log Ω peut l'être. (Je ne sais pas si c'était la motivation initiale pour prendre le journal, mais cela est expliqué de cette manière dans de nombreux livres d'introduction à la physique.)ΩlogΩΩΩlogΩ

Flet
la source
Cette réponse semble être la plus ciblée mais la plus informative.
étoile brillante
1
Ce n'est pas pourquoi le journal apparaît dans le calcul d'entropie. C'est pourquoi les informations rapportées sont rapportées en tant que telles. Il existe une quantité alternative: la "perplexité" qui rapporte des informations sans le journal. Dans cette partie de son document, Shannon plaide en faveur de bits / nats / hartleys et contre la perplexité.
Neil G
15

une autre façon de voir cela est d'un point de vue algorithmique. Imaginez que vous allez deviner un nombre , que la seule information que vous avez est que ce nombre est dans l'intervalle 1 x N . Dans cette situation, l'algorithme optimal pour deviner le nombre est un algorithme de recherche binaire simple , qui trouve x dans l'ordre O ( log 2 N ) . Cette formule indique intuitivement combien de questions vous devez poser pour savoir quel est x . Par exemple, si N = 8 , vous devez poser au maximum 3 questions pour trouver l'inconnu xx1xNxO(log2N)xN=8x.

Du point de vue probabiliste, quand on déclare comme étant également susceptible d'être toute valeur dans la gamme 1 x N , cela signifie que p ( x ) = 1 / N pour 1 x N . Claude Shannon a bien montré que le contenu informationnel d'un résultat x est défini comme suit:x1xNp(x)=1/N1xNx

h(x)=log21p(x)

La raison pour la base 2 du logarithme est que nous mesurons ici l'information en bits . Vous pouvez également supposer un logarithme naturel qui rend vos informations mesurées en nats . Par exemple, le contenu informationnel de outcom est h ( 4 ) = 3 . Cette valeur est précisément égale au nombre d'étapes de l'algorithme de recherche binaire (ou au nombre d'instructions IF dans l'algorithme). Par conséquent, le nombre de questions dont vous avez besoin pour savoir que x est égal à 4 correspond exactement au contenu informationnel du résultat x = 4 .x=4h(4)=3x4x=4

Nous pouvons également analyser les performances de l'algorithme de recherche binaire pour tout résultat possible. Une façon de le faire est de savoir quel est le nombre attendu de questions à poser pour toute valeur de . Notez que le nombre de questions requises pour deviner une valeur de x , comme indiqué plus haut, est h ( x ) . Par conséquent, le nombre attendu de questions pour tout x est par définition égal à:xxh(x)x

h(x)=1xNp(x)h(x)

Le nombre de questions attendu est juste égale à la entropie d'un ensemble H ( X ) , ou entropie bref. Par conséquent, nous pouvons conclure que l'entropie H ( X ) quantifie le nombre attendu (ou moyen) de questions à poser pour deviner un résultat, à savoir la complexité de calcul de l'algorithme de recherche binaire.h(x)H(X)H(X)

omidi
la source
1
+ Ceci est l'une de mes applications préférées de la théorie de l'information - l'analyse algorithmique. Si vous avez des points de décision avec> 2 résultats, par exemple lorsque vous indexez un tableau, c'est le principe qui sous-tend le codage de hachage et le tri O (n).
Mike Dunlavey
Cet argument convient pour l'entropie discrète, mais ne se généralise pas facilement à l'entropie continue.
Neil G
12

Voici une explication improvisée. Vous pouvez dire que 2 livres de la même taille ont deux fois plus d'informations qu'un livre, non? (Considérer un livre comme une chaîne de bits.) Eh bien, si un résultat donné a une probabilité P, vous pouvez dire que son contenu informatif concerne le nombre de bits que vous devez écrire 1 / P. (Par exemple, si P = 1/256, cela fait 8 bits.) L'entropie est simplement la moyenne de la longueur de ce bit d'information, sur tous les résultats.

Mike Dunlavey
la source
5

Le but de apparaissant dans l'entropie de Shannon est que log ( p i ) est la seule fonction satisfaisant l'ensemble de propriétés de base que la fonction d'entropie, H ( p 1 , , p N ) est censée incarner.log(pi)log(pi)H(p1,,pN)

Shannon a fourni une preuve mathématique de ce résultat qui a été soigneusement analysée et largement acceptée. Le but et la signification du logarithme dans l'équation de l'entropie sont donc autonomes dans les hypothèses et la preuve.

Cela ne facilite pas la compréhension, mais c’est finalement la raison pour laquelle le logarithme apparaît.

J'ai trouvé les références suivantes utiles en plus de celles énumérées ailleurs:

  1. Théorie des probabilités: la logique de la science par ET Jaynes . Jaynes est l’un des rares auteurs à tirer de nombreux résultats à partir de rien; voir le chapitre 11.
  2. Algorithmes de théorie de l'information, d'inférence et d'apprentissage par David MacKay. Contient une analyse approfondie du théorème de codage source de Shannon; voir le chapitre 4.
utilisateur119961
la source
4

Sommaire:

Parce qu’il représente le nombre total moyen de questions parfaites auxquelles vous avez besoin d’être répondu afin de résoudre complètement toutes les ambiguïtés dans des données que vous n’aviez pas encore vues. Une question parfaite avec réponses possibles est celle qui, une fois répondu, l’espace des possibilités sera réduit de n fois.nn

Exemple:

Supposons que j'ai lancé un dé à faces et que vous deviez prédire son résultat. L'espace de possibilités est 6 . Vous pouvez me poser des questions comme celle-ci binaire "est le résultat 1 ?" (la réponse est oui ou non, c'est-à-dire n = 2 ) et ma réponse pourrait être "nopies!". Ensuite, l'espace de possibilités par 1 . Donc, cette question n'est pas bonne à poser.661n=21

Alternativement, vous pourriez poser de meilleures questions, telles que cette question binaire supérieure "est-elle supérieure à ?", Et ma réponse serait "bravo!" - Alors boum, l’espace des possibles est réduit de moitié! -À- dire il y a seulement 6 / 2 = 3 candidats de gauche (sur l'origine 6). Hell yeah mec.3.56/2=3

Maintenant , supposons que vous continuez à demander récursive plus de ces bonnes questions jusqu'à ce que vous atteignez le cas lorsque l'espace des possibilités ne dispose que d' possibilité, qui -Par definition- il n'y a pas d' ambiguïté à gauche (vous connaissez la réponse).1

Faisons cela:

  • possibilités. Q: Le résultat est-il > 3.5 ? A: oui6>3.5
  • possibilitésgauche. Q: le résultat est-il5 ? A: oui6/2=35
  • possibilitésgauche. Q: le résultat est-il = 6 ? A: oui6/2/2=1.5=6

Vous en concluez que le résultat doit être le numéro et qu'il vous suffit de poser 3 questions binaires. Ie c e i l ( log 2 ( 6 ) ) = c e i l ( 2,58 ) = 363ceil(log2(6))=ceil(2.58)=3

Maintenant, évidemment, le nombre de questions binaires est toujours un nombre naturel. Alors , pourquoi ne pas utiliser l'entropie de Shannon fonction? Parce qu’il crée en réalité le nombre moyen de bonnes questions à poser.ceil

Si vous répétez cette expérience (en écrivant un code Python), vous remarquerez que vous devrez en moyenne poser questions binaires parfaites.2.58

Bien sûr, si vous posez des questions binaires, vous définissez la base du journal en conséquence. Alors, connectez-vous ici 2 Parce que nos questions étaient binaires. Si vous posezquestions qui attendent n beaucoupréponses possibles, vous définirez la base n au lieu de 2 , soit log n ( . . . ) .log2(...)nn2logn(...)

Simulation:

import random

total_questions = 0
TOTAL_ROUNDS = 10000

for i in range(0,TOTAL_ROUNDS):
    outcome = random.randrange(1,7)
    total_questions += 1
    if outcome > 3.5:
        total_questions += 1
        if outcome >= 5:
            total_questions += 1
            if outcome == 5:
                pass
            else:
                # must be 6! no need to ask
                pass
        else:
            # must be 4! no need to ask
            pass
    else:
        total_questions += 1
        if outcome >= 2:
            total_questions += 1
            if outcome == 2:
                pass
            else:
                # must be 3! no need to ask
                pass
        else:
            # must be 1! no need to ask
            pass


print 'total questions: ' + str(total_questions)
print 'average questions per outcome: ' + str(total_questions/float(TOTAL_ROUNDS))

Résultats:

total questions: 26634
average questions per outcome: 2.6634

Holy molly dude .2.6634log2(6)2.58

Qu'est-ce qui ne va pas? C'est presque proche, mais pas vraiment comme je l'espérais. Est-ce que c'est PRNG de Python qui essaie de dire une blague lente? Ou est-ce Shannon qui se trompe? Ou est-ce-Dieu interdit? Ma compréhension est fausse? De toute façon, HELP. SOS déjà mec.

Homme des cavernes
la source
2
Vous êtes sur une bonne explication. La résolution de votre difficulté consiste à combiner des problèmes distincts. Je vais illustrer. Ne prédisez pas un dé à la fois: prévoyez, par exemple, cinq à la fois. Il y a possibilités. En demandant log 2 ( 6 5 questions pour découvrir toutes leurs valeurs, ou 492 531 / 190 537 2,58496250072265=7776log2(65)=1313/5=2.6190537492531492531/1905372.584962500722 questions par mourir pour les prévoir tous. Etc.
Whuber
@whuber n'est-ce pas ce que je fais dans mon code? Je lance 10 000 matrices et additionne le nombre total de questions que je pose pour toutes les matrices. Je fais alors somme / 10000 je reçois 2.66.
homme des cavernes
1
Non, vous ne le faites pas du tout dans votre code! Vous devez poser un ensemble de questions conçues pour obtenir simultanément l’état de tous les dés. Ce n'est pas la même chose que le nombre moyen de questions nécessaires pour connaître l'état d'un dé à la fois.
whuber
3

Ω={ω1,,ωn}p1,,pnH(p1,,pn)

  • H
  • Hnp1==pn=1n
  • H
    H(12,16,13)=H(12,12)+12H(13,23).

H

H(p1,,pn)=i=1npilogkpi
k>1k=2
Neil G
la source
3

Cette question a été soulevée il y a deux ans et il y a déjà eu beaucoup de réponses géniales, mais j'aimerais ajouter la mienne qui m'a beaucoup aidé.

La question est

A quoi sert le logarithme dans cette équation?

Le logarithme (généralement basé sur 2) est dû à l' inégalité de Kraft .

Σje=1m2-lje<=1

ljeLXP(X)

P(X)=2-L(X)

L(x)=logP(x)P(x)L(x)

L(x)P(x)P(x)logP(x)

Une illustration intuitive et une réponse visuelle (selon vos besoins, mais plus spécifiquement pour l'inégalité de Kraft) sont décrites dans cet article de code, et Inégalité de Kraft .

Lerner Zhang
la source
1

Sur la base de votre non-acceptation de réponses déjà reçues, je pense que ce que vous recherchez est la raison pour laquelle Shannon a initialement utilisé le logarithme dans sa formule. En d'autres termes, la philosophie de celui-ci.

Disclaimer : Je suis dans ce domaine depuis une semaine et je viens ici parce que j'ai la même question que vous . Si vous avez plus de connaissances à ce sujet, s'il vous plaît faites le moi savoir.

J'ai cette question après avoir lu l'un des plus importants articles d'Ulanowicz, L'augmentation de l'entropie: Chaleur ou harmonies perpétuelles? . Ceci est le paragraphe explique pourquoi la formule a -log (p) au lieu de (1-p):

Avant de détailler davantage la définition formelle de l'entropie, il serait légitime de se demander pourquoi ne pas simplement choisir (1 - p) au lieu de [–log (p)] en tant que mesure la plus appropriée de la non-existence? La réponse est que le produit résultant avec p (c’est-à-dire [p – p ^ 2]) est parfaitement symétrique autour de la valeur p = 0,5. Les calculs effectués selon une telle combinaison symétrique ne pourraient décrire qu'un univers réversible. Boltzmann et Gibbs, cependant, cherchaient à quantifier un univers irréversible. En choisissant la fonction logarithmique convexe univariée, Boltzmann a ainsi donné un biais au non-être sur l'être. On remarque, par exemple, que max [–xlog {x}] = {1 / e} 0,37, de sorte que la mesure d'indétermination est faussée vers les valeurs inférieures de pi.

On dirait que Shannon a choisi le logarithme sans raison. Il a juste "senti" qu'il devrait utiliser le logarithme. Pourquoi Newton a-t-il choisi l'opération multipliée dans sa formule F = m * a?

Notez qu'à cette époque, il n'avait aucune idée de l'entropie :

Ma plus grande préoccupation était de savoir comment l'appeler. J'ai pensé l'appeler 'information', mais le mot a été trop utilisé, alors j'ai décidé de l'appeler 'incertitude'. Lorsque j'en ai discuté avec John von Neumann, il avait une meilleure idée. Von Neumann m'a dit: «Vous devriez appeler cela de l'entropie, pour deux raisons. En premier lieu, votre fonction d’incertitude a été utilisée en mécanique statistique sous ce nom; elle a donc déjà un nom. En second lieu, et plus important encore, personne ne sait ce qu'est vraiment l'entropie, alors dans un débat, vous aurez toujours l'avantage.

Donc, ma réponse est: il n'y a aucune raison pour cela. Il a choisi cela parce que cela fonctionnait comme par magie.

Ooker
la source
0

L'entropie est définie comme le logarithme de la moyenne géométrique du coefficient multinomial qui exprime le nombre d'états dans lesquels un système peut être:

log(Nn1,,nk)N

Les logarithmes apparaissent dans la formule après avoir utilisé l'approximation factorielle de Stirling (voir cette explication ).

Atamiri
la source
3
Je pense que le PO sait que le logarithme fait partie de la définition. Ils demandent pourquoi est-ce là?
whuber
0

Le journal provient de la dérivation d'une fonction H répondant à certaines exigences naturelles. Voir pg. 3 sec. 2 de cette source:

http://www.lptl.jussieu.fr/user/lesne/MSCS-entropy.pdf

Étant donné les axiomes, si vous effectuez l’optimisation, vous obtenez une fonction unique (jusqu’à constantes) avec un journal.

Toutes les réponses ci-dessus sont correctes, sauf qu'elles interprètent le journal, mais n'en expliquent pas la source.

Swapnil Bhatia
la source
0

Je suppose que votre question porte davantage sur le "sens" de ce logarithme et sur la raison pour laquelle chaque élément contribue au sens général de la formule, plutôt que sur le simple formalisme montrant la cohérence de la définition avec certaines exigences.

p(x)log(p(x))

  • p(x)
  • log(p(x))

p(x)log(p(x))


À partir de maintenant, je discuterai de la manière dont la GÉNÉRALITÉ affecte la formule d'entropie finale.

log2(x)=number_of_bits_to_encode_the_messages

Maintenant, assoyez-vous, détendez-vous et regardez à quel point Entropie de Shannon réussit à merveille: elle repose sur l'hypothèse (raisonnable) que les messages plus GÉNÉRAUX sont, par conséquent, plus FRÉQUENTS.

Par exemple, je dirai qu'il pleut s'il s'agit d'une pluie moyenne, forte ou très lourde. Ainsi, il a proposé de coder la généralité des messages en fonction de leur fréquence ... et voilà:

log2N=log21/N=log2P

Nx .

L'équation peut être interprétée comme suit: les messages rares auront un codage plus long car ils sont moins généraux, ils nécessitent donc davantage de bits à coder et sont moins informatifs. Par conséquent, avoir des messages plus spécifiques et rares contribuera davantage à l'entropie que de nombreux messages généraux et fréquents.


p(x)log(p(x)) , est que les messages sont également fréquents en général, et de ce point de vue plus informative ( à savoir plus courte des moyens de codage d' entropie inférieure).

L'entropie la plus élevée se produit lorsque nous avons un système contenant de nombreux messages rares et spécifiques. L'entropie la plus basse avec des messages fréquents et généraux. Entre les deux, nous avons un spectre de systèmes équivalents en entropie qui peuvent avoir des messages à la fois rares et généraux ou des messages fréquents mais spécifiques.

Gabrer
la source
0

Je ne pense pas qu'il soit possible de vous donner une réponse "intuitive" universelle. Je vais vous donner une réponse intuitive pour certaines personnes, comme les physiciens. Le logarithme est là pour obtenir l'énergie moyenne du système. Voici les détails.

Shannon a utilisé le mot " entropie " car il a adapté le concept à la mécanique statistique . En mécanique statistique, il existe une distribution séminale nommée d'après Boltzmann. Fait intéressant, c'est une distribution importante maintenant dans l'apprentissage automatique!

La distribution Boltzmann peut s’écrire comme

P=eune-Eb
une,b sont des constantes, et E est l'énergie du système dans un état V de l'espace d'état V. En thermodynamique classiqueV=pX, où X,psont une coordonnée et l'élan de la particule. C'est une fonction de probabilité appropriée lorsque les constantesune,b sont sélectionnés correctement, à savoir VPV=1. Aussi, vous trouverez peut-être intéressant queb correspond à une température du système.

Maintenant, remarquez comment dansP~E, c’est-à-dire qu’un log de probabilité est linéaire (proportionnel) à l’énergie. Maintenant, vous pouvez voir que l'expression suivante est essentiellement une valeur attendue de l'énergie du système:

S-VPdansPV= <E>
C'est ce que Gibbs a fait.

Donc, Shannon a pris cette chose et discrétisé

η=-ΣjePjedansPje
et l'a appelé "entropie", et nous appelons cette "entropie de Shannon." Il n'y a plus de concept énergétique ici, mais peut-être pourriez-vous éviter la journalisation de la probabilité d'un étate-Pjeet appeler cela une énergie de l'état?

Est-ce assez intuitif pour vous? C'est pour moi, mais j'étais physicien théoricien dans la vie passée. En outre, vous pouvez atteindre un niveau d'intuition plus profond en vous associant à des concepts thermodynamiques encore plus anciens, tels que la température et les travaux de Boltzmann et de Clausius.

Aksakal
la source