Supposons que est un ensemble de résultats mutuellement exclusifs d'une variable aléatoire discrète et est une fonction d'utilité où , , etc.
Lorsque est uniformément distribué sur et est une fonction de masse de probabilité , l'entropie de Shannon est maximisée (, et lorsqu'un élément dea toutela massede, l'entropie de Shannon est minimisée (, en fait). Cela correspond aux intuitions concernant lasurprise(ou laréduction de l'incertitude) et les résultats et l'incertitude(ou lasurprise attendue) et les variables aléatoires:
- Lorsque est uniformément distribué, l'incertitude est maximisée, et plus il y a de résultats pour que la masse soit uniformément répartie, plus nous sommes incertains.
- Lorsque a toute sa masse concentrée dans un seul résultat, nous n'avons aucune incertitude.
- Lorsque nous attribuons à un résultat une probabilité de , nous ne gagnons aucune information (ne sommes "pas surpris") lorsque nous l'observons réellement.
- Lorsque nous attribuons à un résultat une probabilité de plus en plus proche de , l'observation de sa survenance devient de plus en plus informative ("surprenante").
(Tout cela ne dit rien sur l'interprétation de codage beaucoup plus concrète - mais moins épistémique - des informations / entropie de Shannon, bien sûr.)
Cependant, lorsque a l'interprétation d'une fonction d'utilité , y a-t-il une interprétation sensorielle de ou∑f(ω)log1 ? Il me semble qu'il pourrait y avoir:
- si tant que PMF représente une distribution uniforme sur Ω , alors f en tant que fonction d'utilité correspond à une indifférence sur les résultats qui ne pourrait pas être supérieure *
- une fonction d'utilité où un résultat a toute l'utilité et les autres n'en a pas (aussi asymétrique qu'une utilité qu'il pourrait y en avoir) correspond à de très fortes préférences relatives - un manque d'indifférence.
Y a-t-il une référence à ce sujet? Ai-je oublié quelque chose sur les limites de la comparaison des fonctions de masse de probabilité et des utilitaires normalisés et relatifs sur des variables aléatoires discrètes?
* Je connais les courbes d'indifférence et je ne vois pas comment elles pourraient être pertinentes pour ma question pour diverses raisons, à commencer par ma concentration sur un espace d'échantillonnage catégorique et par le fait que je ne suis pas intéressé par `` l'indifférence '' en soi, mais plutôt comment interpréter les utilités comme des probabilités et comment interpréter les fonctionnelles sur les probabilités lorsque la `` distribution de probabilité '' (discrète) en question a réellement ou (en plus) l'interprétation d'une fonction d'utilité.
Réponses:
Avant de discuter l'entropie de Shannon, il y a un autre point qui devrait être discuté: il semble que vous ayez en tête l' utilité cardinale plutôt que ordinale .
Les fonctions utilitaires "normalisées" peuvent bien entendu être dérivées dans les deux cas. Mais le concept de «préférence relative» ne peut être défini et mesuré que dans le contexte de l'utilité cardinale.
Et le problème ne se pose pas aux deux extrêmes que vous décrivez, mais dans tous les cas intermédiaires possibles.
Sous utilité ordinale, cela nous dit simplement que
Mais sous l'utilité ordinale, nous pourrions très bien utiliser une autre fonction utilitaire qui attribuerait
et obtenir
Connaissez-vous les problèmes liés à l'utilité cardinale?
la source
Après l'échange avec le PO dans mon autre réponse, travaillons un peu avec son approche.
Les valeurs dans le support de sont également entrées dans une fonction d'utilité cardinale à valeur réelle, . Nous considérons ensuite la fonction d'utilité normaliséeX u(xi)>0∀i
et on nous dit que
Notez que nous ne faisons pas seulement l'observation qu'une fonction discrète non négative normalisée du domaine fini, satisfait les propriétés d'une fonction de masse de probabilité en général - nous supposons spécifiquement que a la forme fonctionnelle de la PMF du hasard variable dont les valeurs prennent en entrée.w(xi) w(xi)
Puisque est une fonction mesurable d'une variable aléatoire, elle aussi est une variable aléatoire. Nous pouvons donc considérer de manière significative des choses comme sa valeur attendue. En utilisant la loi du statisticien inconscient, nous avonsw(xi)
Il s'agit d'une fonction convexe, et si nous essayons de l'extrémiser sur les sous la contrainte nous obtenons facilementpi ∑ki=1pi=1
et nous avons obtenu un résultat général:
De toute évidence, dans un tel cas, sera une fonction constante , une variable aléatoire dégénérée avec et une variance nulle.w(X) E[w(X)]=1/k
Passons à l'entropie de Shannon, qui est au centre de l'OP. Pour être calculée, l'entropie de Shannon a besoin de la fonction de masse de probabilité de la variable aléatoire ... nous devons donc trouver la PMF de la variable aléatoire ...w(X)
Mais j'ai l'impression que ce n'est pas ce que le PO a en tête. Au contraire, il considère l'entropie de Shannon comme une métrique qui possède des propriétés algébriques souhaitables et peut peut-être mesurer de manière compacte de manière significative quelque chose d'intérêt.
Cela a été fait auparavant en économie, en particulier en organisation industrielle, où des indices de concentration du marché ("degré de concurrence / structure monopolistique d'un marché") ont été construits. J'en note deux qui semblent particulièrement pertinentes ici.
A) L' indice Herfindahl a comme arguments les parts de marché des sociétés opérant sur un marché, , de sorte qu'elles se résument à l'unité par construction. Sa version non mise à l'échelle estn si
qui est une expression qui a exactement la même structure avec la valeur attendue de dérivée ci-dessus.w(X)
B) L' index d'entropie qui a la forme mathématique exacte avec l'entropie de Shannon.
Encaoua, D. et Jacquemin, A. (1980). Degré de monopole, indices de concentration et menace d'entrée. Revue économique internationale, 87-105. , fournissent une dérivation axiomatique d'indices de concentration "admissibles", c'est-à-dire qu'ils définissent les propriétés qu'un tel indice doit posséder. Comme leur approche est abstraite, je pense qu'elle peut être utile à ce que le PO souhaite explorer et y attacher du sens.
la source
Il semble que la fonction d'utilité n'est pas seulement cardinale ici, mais même définie sur une échelle de rapport. Considérez deux résultats avec les utilitaires 1/4 et 3/4. Il est clair que nous pouvons appliquer la transformation affine: auquel cas les utilitaires deviennent 0 et 1. Cependant, nous avons maintenant changé l'entropie d'une valeur strictement positive à zéro!v=v∗2−0.5
Ainsi, vous devez d'abord fournir une échelle de rapport significative à votre service public. Une façon de procéder consiste à donner une interprétation du niveau d'utilité naturel 0. Sans cette spécification, l'entropie n'a pas de sens.
la source