L'entropie de Shannon est le négatif de la somme des probabilités de chaque résultat multiplié par le logarithme des probabilités de chaque résultat. A quoi sert le logarithme dans cette équation?
Une réponse intuitive ou visuelle (par opposition à une réponse profondément mathématique) recevra des points bonus!
entropy
intuition
sequence-analysis
Histelheim
la source
la source
Réponses:
L'entropie de Shannon est une quantité satisfaisant un ensemble de relations.
En résumé, le logarithme consiste à le faire grandir linéairement avec la taille du système et à "se comporter comme une information".
La première signifie que l' entropie de lancer une pièce de monnaien fois est n fois l' entropie de lancer une pièce:
Ou juste pour voir comment cela fonctionne quand on lance deux pièces différentes (peut-être injuste - avec des têtes de probabilitép1 et des queues p2 pour la première pièce, et q1 et q2 pour la seconde)
−∑i=12∑j=12piqjlog(piqj)=−∑i=12∑j=12piqj(log(pi)+log(qj))
=−∑i=12∑j=12piqjlog(pi)−∑i=12∑j=12piqjlog(qj)=−∑i=12pilog(pi)−∑j=12qjlog(qj)
si les propriétés dulogarithme(logarithme du produit estsomme des logarithmes) sont cruciaux.
Mais aussi l' entropie de Rényi a cette propriété (elle est paramétrisée par un nombre réelα , qui devient l'entropie de Shannon pour α→1 ).
Cependant, voici la deuxième propriété - l’entropie de Shannon est particulière, car elle est liée à l’information. Pour obtenir un sentiment intuitif, vous pouvez regarderH=∑ipilog(1pi)
tant que moyenne delog(1/p) .
Nous pouvons appeler les informations dulog(1/p) . Pourquoi? Parce que si tous les événements se produisent avec une probabilité p , cela signifie qu'il y a 1/p événements. Pour savoir quel événement s'est produit, nous devons utiliser log(1/p) bits log ( 1 / p ) (chaque bit double le nombre d'événements que nous pouvons distinguer).
Vous pouvez vous sentir anxieux "OK, si tous les événements ont la même probabilité, il est logique d'utiliserlog(1/p) comme mesure de l'information. Mais s'ils ne le sont pas, pourquoi le fait de calculer une moyenne d'information a un sens?" - et c'est une préoccupation naturelle.
Mais il se trouve qu'il est logique - théorème de codage source de Shannon dit qu'une chaîne de lettres uncorrelted avec des probabilités{pi}i de longueur n ne peut pas être comprimé (en moyenne) à chaîne binaire plus courte que nH . En fait, nous pouvons utiliser le codage de Huffman pour compresser la chaîne et obtenir très proche de nH .
Voir également:
la source
C’est la même chose que les autres réponses, mais je pense que la meilleure façon de l’expliquer est de voir ce que Shannon dit dans son document original.
Source: Shannon, Théorie mathématique de la communication (1948) [ pdf ].
Notez que l'entropie de Shannon coïncide avec l'entropie de Gibbs de la mécanique statistique, et il existe également une explication de la raison pour laquelle le journal se produit dans l'entropie de Gibbs. En mécanique statistique, l'entropie est censée mesurer le nombre d'états possibles dans lesquels un système peut être trouvé. La raison pour laquelle log Ω est meilleur que Ω est parce que Ω est généralement une fonction de ses arguments dont la croissance est très rapide, et ne peut donc pas être approximée utilement par un développement de Taylor, alors que log Ω peut l'être. (Je ne sais pas si c'était la motivation initiale pour prendre le journal, mais cela est expliqué de cette manière dans de nombreux livres d'introduction à la physique.)Ω logΩ Ω Ω logΩ
la source
une autre façon de voir cela est d'un point de vue algorithmique. Imaginez que vous allez deviner un nombre , que la seule information que vous avez est que ce nombre est dans l'intervalle 1 ≤ x ≤ N . Dans cette situation, l'algorithme optimal pour deviner le nombre est un algorithme de recherche binaire simple , qui trouve x dans l'ordre O ( log 2 N ) . Cette formule indique intuitivement combien de questions vous devez poser pour savoir quel est x . Par exemple, si N = 8 , vous devez poser au maximum 3 questions pour trouver l'inconnu xx 1≤x≤N x O(log2N) x N=8 x .
Du point de vue probabiliste, quand on déclare comme étant également susceptible d'être toute valeur dans la gamme 1 ≤ x ≤ N , cela signifie que p ( x ) = 1 / N pour 1 ≤ x ≤ N . Claude Shannon a bien montré que le contenu informationnel d'un résultat x est défini comme suit:x 1≤x≤N p(x)=1/N 1≤x≤N x
La raison pour la base 2 du logarithme est que nous mesurons ici l'information en bits . Vous pouvez également supposer un logarithme naturel qui rend vos informations mesurées en nats . Par exemple, le contenu informationnel de outcom est h ( 4 ) = 3 . Cette valeur est précisément égale au nombre d'étapes de l'algorithme de recherche binaire (ou au nombre d'instructions IF dans l'algorithme). Par conséquent, le nombre de questions dont vous avez besoin pour savoir que x est égal à 4 correspond exactement au contenu informationnel du résultat x = 4 .x=4 h(4)=3 x 4 x=4
Nous pouvons également analyser les performances de l'algorithme de recherche binaire pour tout résultat possible. Une façon de le faire est de savoir quel est le nombre attendu de questions à poser pour toute valeur de . Notez que le nombre de questions requises pour deviner une valeur de x , comme indiqué plus haut, est h ( x ) . Par conséquent, le nombre attendu de questions pour tout x est par définition égal à:x x h(x) x
Le nombre de questions attendu est juste égale à la entropie d'un ensemble H ( X ) , ou entropie bref. Par conséquent, nous pouvons conclure que l'entropie H ( X ) quantifie le nombre attendu (ou moyen) de questions à poser pour deviner un résultat, à savoir la complexité de calcul de l'algorithme de recherche binaire.⟨h(x)⟩ H(X) H(X)
la source
Voici une explication improvisée. Vous pouvez dire que 2 livres de la même taille ont deux fois plus d'informations qu'un livre, non? (Considérer un livre comme une chaîne de bits.) Eh bien, si un résultat donné a une probabilité P, vous pouvez dire que son contenu informatif concerne le nombre de bits que vous devez écrire 1 / P. (Par exemple, si P = 1/256, cela fait 8 bits.) L'entropie est simplement la moyenne de la longueur de ce bit d'information, sur tous les résultats.
la source
Le but de apparaissant dans l'entropie de Shannon est que log ( p i ) est la seule fonction satisfaisant l'ensemble de propriétés de base que la fonction d'entropie, H ( p 1 , … , p N ) est censée incarner.log(pi) log(pi) H(p1,…,pN)
Shannon a fourni une preuve mathématique de ce résultat qui a été soigneusement analysée et largement acceptée. Le but et la signification du logarithme dans l'équation de l'entropie sont donc autonomes dans les hypothèses et la preuve.
Cela ne facilite pas la compréhension, mais c’est finalement la raison pour laquelle le logarithme apparaît.
J'ai trouvé les références suivantes utiles en plus de celles énumérées ailleurs:
la source
Sommaire:
Parce qu’il représente le nombre total moyen de questions parfaites auxquelles vous avez besoin d’être répondu afin de résoudre complètement toutes les ambiguïtés dans des données que vous n’aviez pas encore vues. Une question parfaite avec réponses possibles est celle qui, une fois répondu, l’espace des possibilités sera réduit de n fois.n n
Exemple:
Supposons que j'ai lancé un dé à faces et que vous deviez prédire son résultat. L'espace de possibilités est 6 . Vous pouvez me poser des questions comme celle-ci binaire "est le résultat 1 ?" (la réponse est oui ou non, c'est-à-dire n = 2 ) et ma réponse pourrait être "nopies!". Ensuite, l'espace de possibilités par 1 . Donc, cette question n'est pas bonne à poser.6 6 1 n=2 1
Alternativement, vous pourriez poser de meilleures questions, telles que cette question binaire supérieure "est-elle supérieure à ?", Et ma réponse serait "bravo!" - Alors boum, l’espace des possibles est réduit de moitié! -À- dire il y a seulement 6 / 2 = 3 candidats de gauche (sur l'origine 6). Hell yeah mec.3.5 6/2=3
Maintenant , supposons que vous continuez à demander récursive plus de ces bonnes questions jusqu'à ce que vous atteignez le cas lorsque l'espace des possibilités ne dispose que d' possibilité, qui -Par definition- il n'y a pas d' ambiguïté à gauche (vous connaissez la réponse).1
Faisons cela:
Vous en concluez que le résultat doit être le numéro et qu'il vous suffit de poser 3 questions binaires. Ie c e i l ( log 2 ( 6 ) ) = c e i l ( 2,58 ) = 36 3 ceil(log2(6))=ceil(2.58)=3
Maintenant, évidemment, le nombre de questions binaires est toujours un nombre naturel. Alors , pourquoi ne pas utiliser l'entropie de Shannon fonction? Parce qu’il crée en réalité le nombre moyen de bonnes questions à poser.ceil
Si vous répétez cette expérience (en écrivant un code Python), vous remarquerez que vous devrez en moyenne poser questions binaires parfaites.2.58
Bien sûr, si vous posez des questions binaires, vous définissez la base du journal en conséquence. Alors, connectez-vous ici 2 Parce que nos questions étaient binaires. Si vous posezquestions qui attendent n beaucoupréponses possibles, vous définirez la base n au lieu de 2 , soit log n ( . . . ) .log2(...) n n 2 logn(...)
Simulation:
Résultats:
Holy molly dude .2.6634≠log2(6)≠2.58
Qu'est-ce qui ne va pas? C'est presque proche, mais pas vraiment comme je l'espérais. Est-ce que c'est PRNG de Python qui essaie de dire une blague lente? Ou est-ce Shannon qui se trompe? Ou est-ce-Dieu interdit? Ma compréhension est fausse? De toute façon, HELP. SOS déjà mec.
la source
la source
Cette question a été soulevée il y a deux ans et il y a déjà eu beaucoup de réponses géniales, mais j'aimerais ajouter la mienne qui m'a beaucoup aidé.
La question est
Le logarithme (généralement basé sur 2) est dû à l' inégalité de Kraft .
Une illustration intuitive et une réponse visuelle (selon vos besoins, mais plus spécifiquement pour l'inégalité de Kraft) sont décrites dans cet article de code, et Inégalité de Kraft .
la source
Sur la base de votre non-acceptation de réponses déjà reçues, je pense que ce que vous recherchez est la raison pour laquelle Shannon a initialement utilisé le logarithme dans sa formule. En d'autres termes, la philosophie de celui-ci.
Disclaimer : Je suis dans ce domaine depuis une semaine et je viens ici parce que j'ai la même question que vous . Si vous avez plus de connaissances à ce sujet, s'il vous plaît faites le moi savoir.
J'ai cette question après avoir lu l'un des plus importants articles d'Ulanowicz, L'augmentation de l'entropie: Chaleur ou harmonies perpétuelles? . Ceci est le paragraphe explique pourquoi la formule a -log (p) au lieu de (1-p):
On dirait que Shannon a choisi le logarithme sans raison. Il a juste "senti" qu'il devrait utiliser le logarithme. Pourquoi Newton a-t-il choisi l'opération multipliée dans sa formule F = m * a?
Notez qu'à cette époque, il n'avait aucune idée de l'entropie :
Donc, ma réponse est: il n'y a aucune raison pour cela. Il a choisi cela parce que cela fonctionnait comme par magie.
la source
L'entropie est définie comme le logarithme de la moyenne géométrique du coefficient multinomial qui exprime le nombre d'états dans lesquels un système peut être:
Les logarithmes apparaissent dans la formule après avoir utilisé l'approximation factorielle de Stirling (voir cette explication ).
la source
Le journal provient de la dérivation d'une fonction H répondant à certaines exigences naturelles. Voir pg. 3 sec. 2 de cette source:
http://www.lptl.jussieu.fr/user/lesne/MSCS-entropy.pdf
Étant donné les axiomes, si vous effectuez l’optimisation, vous obtenez une fonction unique (jusqu’à constantes) avec un journal.
Toutes les réponses ci-dessus sont correctes, sauf qu'elles interprètent le journal, mais n'en expliquent pas la source.
la source
Je suppose que votre question porte davantage sur le "sens" de ce logarithme et sur la raison pour laquelle chaque élément contribue au sens général de la formule, plutôt que sur le simple formalisme montrant la cohérence de la définition avec certaines exigences.
À partir de maintenant, je discuterai de la manière dont la GÉNÉRALITÉ affecte la formule d'entropie finale.
Maintenant, assoyez-vous, détendez-vous et regardez à quel point Entropie de Shannon réussit à merveille: elle repose sur l'hypothèse (raisonnable) que les messages plus GÉNÉRAUX sont, par conséquent, plus FRÉQUENTS.
Par exemple, je dirai qu'il pleut s'il s'agit d'une pluie moyenne, forte ou très lourde. Ainsi, il a proposé de coder la généralité des messages en fonction de leur fréquence ... et voilà:
L'équation peut être interprétée comme suit: les messages rares auront un codage plus long car ils sont moins généraux, ils nécessitent donc davantage de bits à coder et sont moins informatifs. Par conséquent, avoir des messages plus spécifiques et rares contribuera davantage à l'entropie que de nombreux messages généraux et fréquents.
L'entropie la plus élevée se produit lorsque nous avons un système contenant de nombreux messages rares et spécifiques. L'entropie la plus basse avec des messages fréquents et généraux. Entre les deux, nous avons un spectre de systèmes équivalents en entropie qui peuvent avoir des messages à la fois rares et généraux ou des messages fréquents mais spécifiques.
la source
Je ne pense pas qu'il soit possible de vous donner une réponse "intuitive" universelle. Je vais vous donner une réponse intuitive pour certaines personnes, comme les physiciens. Le logarithme est là pour obtenir l'énergie moyenne du système. Voici les détails.
Shannon a utilisé le mot " entropie " car il a adapté le concept à la mécanique statistique . En mécanique statistique, il existe une distribution séminale nommée d'après Boltzmann. Fait intéressant, c'est une distribution importante maintenant dans l'apprentissage automatique!
La distribution Boltzmann peut s’écrire commeP= ea - Eb
où a , b sont des constantes, et E est l'énergie du système dans un état réV de l'espace d'état V . En thermodynamique classiqueréV= dp dX , où x , p sont une coordonnée et l'élan de la particule. C'est une fonction de probabilité appropriée lorsque les constantesa , b sont sélectionnés correctement, à savoir ∫VPréV= 1 . Aussi, vous trouverez peut-être intéressant queb correspond à une température du système.
Maintenant, remarquez commentdansP∼ E , c’est-à-dire qu’un log de probabilité est linéaire (proportionnel) à l’énergie. Maintenant, vous pouvez voir que l'expression suivante est essentiellement une valeur attendue de l'énergie du système:
S≡ - ∫VPdansPréV= < E>
C'est ce que Gibbs a fait.
Donc, Shannon a pris cette chose et discrétiséη= - ΣjePjedansPje et l'a appelé "entropie", et nous appelons cette "entropie de Shannon." Il n'y a plus de concept énergétique ici, mais peut-être pourriez-vous éviter la journalisation de la probabilité d'un étate- Pje et appeler cela une énergie de l'état?
Est-ce assez intuitif pour vous? C'est pour moi, mais j'étais physicien théoricien dans la vie passée. En outre, vous pouvez atteindre un niveau d'intuition plus profond en vous associant à des concepts thermodynamiques encore plus anciens, tels que la température et les travaux de Boltzmann et de Clausius.
la source