Considérons le bayésien . De manière asymptotique, son maximum se produit à l'estimation MLE , qui maximise simplement la probabilité .
Tous ces concepts - prieurs bayésiens, maximisation de la probabilité - semblent super principes et pas du tout arbitraires. Il n'y a pas de journal en vue.
Pourtant, MLE minimise la divergence KL entre la distribution réelle et , c'est-à-dire qu'elle minimise
Woah - d'où viennent ces journaux? Pourquoi KL divergence en particulier?
Pourquoi, par exemple, minimiser une divergence différente ne correspond-il pas aux concepts superprincipaux et motivés des postérieurs bayésiens et maximiser la probabilité ci-dessus?
Il semble y avoir quelque chose de spécial à propos de la divergence et / ou des journaux de KL dans ce contexte. Bien sûr, nous pouvons jeter nos mains en l'air et dire que c'est comme ça que les mathématiques sont. Mais je soupçonne qu'il pourrait y avoir une intuition plus profonde ou des connexions à découvrir.
la source
Réponses:
L'utilisation de logarithmes dans des calculs comme celui-ci provient de la théorie de l' information . Dans le cas particulier de la divergence KL, la mesure peut être interprétée comme l'information relative de deux distributions:
où est l' entropie de et est l'entropie croisée de et . L'entropie peut être considérée comme des mesures du taux moyen de produit par une densité (la croisement de l'entropie croisée est un peu plus compliqué). Minimiser la divergence KL pour une valeur fixe (comme dans le problème que vous mentionnez) équivaut à minimiser l'entropie croisée, et donc cette optimisation peut recevoir une interprétation théorique de l'information.H( f~) ˜ f H ( ˜ f , f θ ) ˜ f f θ ˜ fF~ H(f~,fθ) F~ Fθ F~
Il ne m'est pas possible de donner un bon aperçu de la théorie de l'information et des propriétés des mesures d'information dans un court article. Cependant, je recommanderais de jeter un œil au domaine, car il a des liens étroits avec les statistiques. De nombreuses mesures statistiques impliquant des intégrales et des sommes sur des logarithmes de densités sont de simples combinaisons de mesures d'informations standard utilisées dans la théorie des mesures, et dans de tels cas, elles peuvent être interprétées en termes de niveaux sous-jacents d'informations dans diverses densités, etc.
la source