Pourquoi le postérieur bayésien se concentre-t-il autour du minimiseur de divergence KL?

9

Considérons le bayésien . De manière asymptotique, son maximum se produit à l'estimation MLE , qui maximise simplement la probabilité .θXθ^argminθfθ(X)

Tous ces concepts - prieurs bayésiens, maximisation de la probabilité - semblent super principes et pas du tout arbitraires. Il n'y a pas de journal en vue.

Pourtant, MLE minimise la divergence KL entre la distribution réelle et , c'est-à-dire qu'elle minimisef~fθ(x)

KL(f~fθ)=+f~(x)[logf~(x)logfθ(x)]dx

Woah - d'où viennent ces journaux? Pourquoi KL divergence en particulier?

Pourquoi, par exemple, minimiser une divergence différente ne correspond-il pas aux concepts superprincipaux et motivés des postérieurs bayésiens et maximiser la probabilité ci-dessus?

Il semble y avoir quelque chose de spécial à propos de la divergence et / ou des journaux de KL dans ce contexte. Bien sûr, nous pouvons jeter nos mains en l'air et dire que c'est comme ça que les mathématiques sont. Mais je soupçonne qu'il pourrait y avoir une intuition plus profonde ou des connexions à découvrir.

Yatharth Agarwal
la source
Vous pouvez trouver quelques idées ici: stats.stackexchange.com/questions/188903/…
kjetil b halvorsen
@kjetilbhalvorsen Le titre précédent sonnait comme un doublon; Je m'excuse. J'ai fait une modification, et il devrait être clair pourquoi cette question n'est pas un doublon.
Yatharth Agarwal
Les autres questions demandent: «Qu'est-ce que la divergence KL et pourquoi n'est-elle pas symétrique?» Les réponses expliquent le concept de divergence et quelques informations sur KL. En revanche, cette question demande «Pourquoi le postérieur bayésien se concentre-t-il autour du minimiseur de divergence KL?» Expliquer simplement comment les divergences n'ont pas à être symétriques et expliquer KL et déclarer que KL est lié à MLE ne résout pas le nœud de la question ici: pourquoi parmi les nombreuses divergences possibles, KL en particulier a-t-il un lien spécial avec le postérieur bayésien. Est-ce que ça a du sens?
Yatharth Agarwal
Oui, c'est logique, mais il y a toujours un problème. Le postérieur dépend aussi de l'avant, et si c'est fort, le postérieur peut avoir un max loin du mle. Mais le prieur est absent de votre question.
kjetil b halvorsen
@kjetilbhalversen Je voulais dire asymptotiquement avec de plus en plus d'échantillons IID et dans les conditions (strictes) dans lesquelles le prieur n'a pas d'importance asymptotiquement!
Yatharth Agarwal

Réponses:

5

L'utilisation de logarithmes dans des calculs comme celui-ci provient de la théorie de l' information . Dans le cas particulier de la divergence KL, la mesure peut être interprétée comme l'information relative de deux distributions:

KL(f~fθ)=f~(x)(logf~(x)logfθ(x)) dx=(f~(x)logfθ(x) dxH(f~,fθ))(f~(x)logf~(x) dxH(f~)),

où est l' entropie de et est l'entropie croisée de et . L'entropie peut être considérée comme des mesures du taux moyen de produit par une densité (la croisement de l'entropie croisée est un peu plus compliqué). Minimiser la divergence KL pour une valeur fixe (comme dans le problème que vous mentionnez) équivaut à minimiser l'entropie croisée, et donc cette optimisation peut recevoir une interprétation théorique de l'information.H(f~)˜ f H ( ˜ f , f θ ) ˜ f f θ ˜ ff~H(f~,fθ)F~FθF~

Il ne m'est pas possible de donner un bon aperçu de la théorie de l'information et des propriétés des mesures d'information dans un court article. Cependant, je recommanderais de jeter un œil au domaine, car il a des liens étroits avec les statistiques. De nombreuses mesures statistiques impliquant des intégrales et des sommes sur des logarithmes de densités sont de simples combinaisons de mesures d'informations standard utilisées dans la théorie des mesures, et dans de tels cas, elles peuvent être interprétées en termes de niveaux sous-jacents d'informations dans diverses densités, etc.

Ben - Réintègre Monica
la source
L'étude de la théorie de l'information semble prometteuse! Merci de m'avoir indiqué.
Yatharth Agarwal
De toute évidence, vous ne pouvez pas expliquer un champ mathématique entier dans un message StackExchange, mais auriez-vous des références particulières à leur publication?
Yatharth Agarwal
Je pense simplement qu'il y a une intuition si profonde derrière pourquoi, disons, e est dans l'équation d'Euler et telle, qu'il y a une intuition similaire qui se cache ici. Peut-être qu'un produit quelque part fait surgir le logarithme naturel. Je ne suis pas sûr.
Yatharth Agarwal
@Yatharth le logarithme se pose ici en raison de son rôle central dans la définition de l'entropie de Shannon. Quant au «pourquoi» un logarithme est approprié pour une mesure d'information, par opposition à une autre fonction, jetez un œil au théorème 2 de la «Théorie mathématique de la communication» de Shannon. De plus, la "Théorie de l'information et mécanique statistique" de Jayne est une belle introduction.
Nate Pope