J'ai remarqué que dans de nombreuses applications pratiques, des méthodes basées sur MCMC sont utilisées pour estimer un paramètre même si le postérieur est analytique (par exemple parce que les priors étaient conjugués). Pour moi, il est plus logique d'utiliser des estimateurs MAP plutôt que des estimateurs basés sur MCMC. Quelqu'un pourrait-il indiquer pourquoi la MCMC est toujours une méthode appropriée en présence d'une analyse postérieure?
13
Réponses:
Pas besoin d'utiliser MCMC dans ce cas: Markov Chain Monte-Carlo (MCMC) est une méthode utilisée pour générer des valeurs à partir d'une distribution. Il produit une chaîne de Markov de valeurs auto-corrélées avec une distribution stationnaire égale à la distribution cible. Cette méthode fonctionnera toujours pour vous obtenir ce que vous voulez, même dans les cas où la distribution cible a une forme analytique. Cependant, il existe des méthodes plus simples et moins exigeantes en calcul qui fonctionnent dans des cas comme celui-ci, où vous avez affaire à un postérieur qui a une belle forme analytique.
Dans le cas où la distribution postérieure a une forme analytique disponible, il est possible d'obtenir des estimations de paramètres (par exemple, MAP) par optimisation à partir de cette distribution en utilisant des techniques de calcul standard. Si la distribution cible est suffisamment simple, vous pouvez obtenir une solution sous forme fermée pour l'estimateur de paramètres, mais même si ce n'est pas le cas, vous pouvez généralement utiliser des techniques itératives simples (par exemple, Newton-Raphson, descente de gradient, etc.) pour trouver le optimisation de l'estimation des paramètres pour toute donnée d'entrée donnée. Si vous avez une forme analytique pour la fonction quantile de la distribution cible et que vous devez générer des valeurs à partir de la distribution, vous pouvez le faire via un échantillonnage à transformation inverse, qui nécessite moins de calculs que MCMC et vous permet de générer des valeurs IID plutôt que des valeurs avec des modèles d'autocorrélation complexes.
Compte tenu de cela, si vous programmiez à partir de zéro, il ne semble pas y avoir de raison d'utiliser MCMC dans le cas où la distribution cible a une forme analytique disponible. La seule raison pour laquelle vous pouvez le faire est que si vous avez déjà un algorithme générique pour MCMC, qui peut être implémenté avec un minimum d'effort, et que vous décidez que l'efficacité de l'utilisation du formulaire analytique est compensée par l'effort de faire le calcul requis. Dans certains contextes pratiques, vous serez confronté à des problèmes généralement insolubles, où les algorithmes MCMC sont déjà configurés et peuvent être mis en œuvre avec un effort minimal (par exemple, si vous effectuez une analyse de données dans
RStan
). Dans ces cas, il peut être plus facile d'exécuter vos méthodes MCMC existantes plutôt que de dériver des solutions analytiques aux problèmes, bien que ces dernières puissent bien sûr être utilisées pour vérifier votre travail.la source
Notons également que l'estimateur maximum a posteriori n'est pas l' estimateur le plus naturel dans un cadre bayésien, car il ne correspond pas à une fonction de perte et que la représentation en forme fermée de la densité, même jusqu'à une constante, ne permet pas de trouver la MAP forcément facile. Ou en utilisant le MAP pertinent.
la source
Comme je l'ai lu, cette question pose deux questions quelque peu orthogonales. La première consiste à utiliser des estimateurs MAP plutôt que des moyennes postérieures, et l'autre est de savoir si l'on devrait MCMC si la partie postérieure a une forme analytique.
En ce qui concerne les estimateurs MAP sur les moyennes postérieures, d'un point de vue théorique, les moyennes postérieures sont généralement préférées, comme le note @Xian dans sa réponse. Le véritable avantage des estimateurs MAP est que, surtout dans le cas le plus typique où le postérieur n'est pas sous forme fermée, ils peuvent être calculés beaucoup plus rapidement (c'est-à-dire plusieurs ordres de grandeur) qu'une estimation de la moyenne postérieure. Si le postérieur est approximativement symétrique (ce qui est souvent le cas dans de nombreux problèmes avec de grands échantillons), l'estimation MAP devrait être très proche de la moyenne postérieure. Ainsi, l'attractivité du MAP est en fait qu'il peut s'agir d'une approximation très bon marché de la moyenne postérieure.
Notez que la connaissance de la constante de normalisation ne nous aide pas à trouver le mode postérieur, donc avoir une solution de forme fermée pour le postérieur ne nous aide pas techniquement à trouver l'estimation MAP, en dehors du cas où nous reconnaissons le postérieur comme une distribution spécifique pour laquelle nous savons que c'est le mode.
En ce qui concerne la deuxième question, si l'on a une forme fermée de la distribution postérieure, il n'y a généralement aucune raison d'utiliser des algorithmes MCMC. Théoriquement, si vous aviez une solution de forme fermée pour la distribution postérieure, mais que vous n'aviez pas de forme fermée pour la moyenne d'une fonction et que vous ne pouviez pas tirer directement de cette distribution de forme fermée, alors on pourrait se tourner vers les algorithmes MCMC. Mais je ne connais aucun cas de cette situation.
la source
Je dirais que les méthodes MCMC ne sont pas nécessairement inappropriées , même lorsqu'il existe des solutions sous forme fermée. Évidemment, c'est bien quand une solution analytique existe: elles sont généralement rapides, vous évitez les soucis de convergence (etc).
D'un autre côté, la cohérence est également importante. Passer de la technique à la technique complique votre présentation: au mieux, ce sont des détails étrangers qui peuvent dérouter ou distraire le public de votre résultat substantiel, et au pire, cela pourrait ressembler à une tentative de biaiser les résultats. Si j'avais plusieurs modèles, dont seulement quelques-uns admettaient des solutions de forme fermée, j'envisagerais fortement de les exécuter tous via le même pipeline MCMC même si cela n'était pas strictement nécessaire.
Je soupçonne cela, plus l'inertie ("nous avons ce script qui fonctionne") explique la plupart de ce que vous voyez.
la source