Pourquoi MCMC est-il nécessaire lors de l'estimation d'un paramètre à l'aide de MAP

11

Étant donné la formule d'estimation MAP d'un paramètre Estimation des paramètres MAP Pourquoi une approche MCMC (ou similaire) est-elle nécessaire, ne pourrais-je pas simplement prendre la dérivée, la mettre à zéro, puis résoudre le paramètre?

Dänu
la source
Grande question!

Réponses:

4

Si vous savez de quelle famille appartient votre postérieur et si trouver le dérivé de cette distribution est faisable analytiquement, c'est correct.

Cependant, lorsque vous utilisez MCMC, vous n'allez probablement pas être dans ce type de situation. Le MCMC est conçu pour les situations dans lesquelles vous n'avez pas de notion analytique claire de l'apparence de votre postérieur.

Christoph Hanck
la source
3
Je pense que cela est légèrement trompeur: MCMC n'est généralement pas utilisé pour trouver l'estimateur MAP (en dehors de cas spéciaux comme un algorithme MCEM).
Cliff AB
1
Je ne suis pas en désaccord avec vous en principe. Mais, MCMC peut être et est utilisé pour simuler la distribution postérieure . Et une fois que vous avez fait cela, vous pouvez certainement trouver le mode de cette distribution, alias le MAP. C'est, je crois, ce que le PO avait en tête, donc je ne sais pas trop pourquoi ma réponse serait trompeuse.
Christoph Hanck
Oui, cependant, le MCMC est-il la méthode de choix lorsqu'il s'agit de MAP s'il n'existe aucun moyen analytique d'optimiser le paramètre?
Dänu
3
Je n'ai jamais entendu parler de l'utilisation d'un simple MCMC pour trouver le mode de la distribution postérieure (techniquement, cela pourrait être fait, mais c'est extrêmement inefficace). Étant donné que nous pouvons généralement évaluer une fonction proportionnelle à la distribution postérieure, la maximiser équivaudra à maximiser la distribution postérieure. Les optimiseurs prêts à l'emploi fonctionneront aussi bien sur ce problème que tout problème de probabilité fréquentiste (c'est-à-dire que vous devrez parfois les spécialiser).
Cliff AB
@ Dänu Vous ne voulez probablement pas utiliser MCMC (pour être pédant, une chaîne de Markov) pour trouver des maxima. Un algorithme d'optimisation devrait mieux fonctionner.
jtobin
10

La plupart des postérieurs s'avèrent difficiles à optimiser analytiquement (c.-à-d. En prenant un gradient et en le fixant à zéro), et vous devrez recourir à un algorithme d'optimisation numérique pour faire MAP.

En passant: MCMC n'est pas lié à MAP.

MAP - pour maximum a posteriori - se réfère à la recherche d'un maximum local de quelque chose de proportionnel à une densité postérieure et à l'utilisation des valeurs de paramètres correspondantes comme estimations. Il est défini comme

θ^MAP=argmaxθp(θ|D)

MCMC est généralement utilisé pour approximer les attentes sur quelque chose de proportionnel à une densité de probabilité. Dans le cas d'un postérieur, c'est

θ^MCMC=n1i=1nθi0Θθp(θ|D)dθ

{θi0}i=1nθ^MAPθ^MCMC

Le nœud est que MAP implique une optimisation , tandis que MCMC est basé sur l' échantillonnage .

jtobin
la source
Vous dites que les postérieurs s'avèrent difficiles à optimiser analytiquement, ce qui est le cas dans MAP. La MAP n'est-elle donc possible que si le postérieur peut être optimisé analytiquement et si ce n'est pas le cas, il faut recourir (par exemple) à une approche MCMC?
Dänu
2
Non, au lieu de venir avec la solution analytique, on peut utiliser un algorithme itératif pour trouver la solution (c'est-à-dire si le log postérieur est concave, vous pouvez utiliser la méthode de Newton, par exemple).
Cliff AB
2
MAP fait référence à la recherche de valeurs de paramètres qui maximisent (localement) un postérieur. Peu importe comment on obtient ces valeurs de paramètre: résolution analytique des maxima, utilisation d'une routine numérique, différenciation automatique, etc.
jtobin