C'est une question récurrente (voir cet article , cet article et cet article ), mais j'ai un tour différent.
Supposons que j'ai un tas d'échantillons d'un échantillonneur MCMC générique. Pour chaque échantillon , je connais la valeur du log vraisemblance et du log prior . Si cela aide, je connais également la valeur de la vraisemblance du journal par point de données, (ces informations aident avec certaines méthodes, telles que WAIC et PSIS-LOO).log f ( x | θ ) log f ( θ ) log f ( x i | θ )
Je veux obtenir une estimation (brute) de la probabilité marginale, juste avec les échantillons que j'ai, et éventuellement quelques autres évaluations de fonctions (mais sans relancer un MCMC ad hoc ).
Tout d'abord, effaçons le tableau. Nous savons tous que l'estimateur harmonique est le pire estimateur de tous les temps . Allons-nous en. Si vous faites un échantillonnage de Gibbs avec des prieurs et des postérieurs sous forme fermée, vous pouvez utiliser la méthode de Chib ; mais je ne sais pas comment généraliser en dehors de ces cas. Il existe également des méthodes qui vous obligent à modifier la procédure d'échantillonnage (par exemple via des postérieurs trempés ), mais cela ne m'intéresse pas ici.
L'approche à laquelle je pense consiste à approximer la distribution sous-jacente avec une forme paramétrique (ou non paramétrique) , puis à déterminer la constante de normalisation comme un problème d'optimisation 1-D (c'est-à-dire le qui minimise certaines erreurs) entre et , évalué sur les échantillons). Dans le cas le plus simple, supposons que le postérieur soit à peu près normal à plusieurs variables, je peux adapter comme une normale à plusieurs variables et obtenir quelque chose de similaire à une approximation de Laplace (je pourrais vouloir utiliser quelques évaluations de fonctions supplémentaires pour affiner la position de la mode). Cependant, je pourrais utiliser commeZ Z Z g ( θ ) f ( x | θ ) f ( θ ) g ( θ ) g ( θ )une famille plus flexible telle qu'un mélange variationnel de distributions multivariées .
J'apprécie que cette méthode ne fonctionne que si est une approximation raisonnable de , mais toute raison ou mise en garde expliquant pourquoi il serait très imprudent de fais le? Une lecture que vous recommanderiez?f ( x | θ ) f ( θ )
L'approche entièrement non paramétrique utilise une famille non paramétrique, comme un processus gaussien (GP), pour approximer (ou une autre transformation non linéaire de celui-ci, telle que comme racine carrée) et la quadrature bayésienne à intégrer implicitement sur la cible sous-jacente (voir ici et ici ). Cela semble être une approche alternative intéressante, mais analogue dans l'esprit (notez également que les généralistes seraient difficiles à manier dans mon cas).
Réponses:
L'extension de Chib et Jeliazkov (2001) devient malheureusement rapidement coûteuse ou très variable, ce qui explique pourquoi elle n'est pas très utilisée en dehors des cas d'échantillonnage de Gibbs.
Bien qu'il existe de nombreuses façons et approches pour résoudre le problème d'estimation de la constante de normalisation (comme l'illustrent les discussions assez diverses de l' atelier d'estimation des constantes que nous avons organisé la semaine dernière à l'Université de Warwick, des diapositives y sont disponibles ), certaines solutions exploitent directement la sortie MCMC .Z
Comme vous l'avez mentionné, l'estimateur de la moyenne harmonique de Newton et Raftery (1994) est presque toujours médiocre pour avoir une variance infinie. Cependant, il existe des moyens d'éviter la malédiction de variance infinie en utilisant à la place une cible de support fini dans l'identité moyenne harmonique en choisissantαcomme indicateur d'une région HPD pour la partie postérieure. Cela garantit une variance finie en supprimant les queues dans la moyenne harmonique. (Les détails se trouvent dansun article que j'ai écrit avec Darren Wraithet dans unchapitre sur la normalisation des constantesécrit avec Jean-Michel Marin.) En bref, la méthode recycle la sortie MCMCθ1,…,θMen identifiant leβ( 20% disent) les plus grandes valeurs de la cibleπ(θ)f(x|θ)et créantα
la source