J'évalue actuellement les paramètres d'un modèle défini par plusieurs équations différentielles ordinaires (ODE). J'essaie ceci avec une approche bayésienne en approximant la distribution postérieure des paramètres étant donné certaines données en utilisant la chaîne de Markov Monte Carlo (MCMC).
Un échantillonneur MCMC génère une chaîne de valeurs de paramètres où il utilise la probabilité postérieure (non normalisée) d'une certaine valeur de paramètre pour décider (stochastiquement) s'il ajoutera cette valeur à la chaîne ou ajoutera à nouveau la valeur précédente. Mais, il semble être la pratique que les probabilités postérieures réelles n'ont pas besoin d'être enregistrées, mais plutôt un histogramme à n dimensions des valeurs de paramètres résultantes générées et des statistiques récapitulatives comme les régions de densité la plus élevée (HDR) d'une distribution postérieure des paramètres est calculée à partir de cet histogramme. C'est du moins ce que je pense avoir appris du livre de didacticiel de Kruschkes sur l'inférence bayésienne .
Ma question: ne serait-il pas plus simple de sauvegarder les probabilités postérieures des valeurs des paramètres échantillonnés avec celles-ci et d'approximer la distribution postérieure à partir de ces valeurs et non à partir des fréquences des valeurs des paramètres dans la chaîne MCMC? Le problème de la phase de rodage ne se poserait pas car l'échantillonneur échantillonnerait encore plus souvent des régions à faible probabilité qu'il ne le mériterait par leurs probabilités postérieures, mais ce ne serait plus le problème de leur donner des valeurs de probabilité indûment élevées.
Réponses:
Ceci est une question intéressante, avec différents problèmes:
la source
Comme vous l'avez bien remarqué, les probabilités dont nous traitons ne sont pas normalisées . Fondamentalement, nous utilisons MCMC pour calculer le facteur de normalisation dans le théorème de Bayes. Nous ne pouvons pas utiliser les probabilités car elles ne sont pas normalisées. La procédure que vous proposez: enregistrer les probabilités non normalisées puis les diviser par leur somme est incorrecte.
Permettez-moi de vous le montrer par l'exemple. Imaginez que vous utilisiez Monte Carlo pour tirer dix valeurs de la distribution de Bernoulli paramétrée parp=0.9 , ils sont les suivants:
vous avez également des probabilités correspondantes:
Dans ce cas, les probabilités sont normalisées, mais les diviser par leur somme (celle des axiomes de probabilité est égale à l'unité) ne devrait rien changer. Unfortunatelly, en utilisant votre procédure , elle ne change les résultats:
Pourquoi donc? La réponse est simple, dans votre échantillon, chaque "probabilité" enregistrée
f
apparaît avec une probabilitéf
, vous pondérez donc les probabilités par elles-mêmes!la source