J'apprends actuellement des modèles bayésiens hiérarchiques en utilisant JAGS de R, et aussi pymc en utilisant Python ( "Méthodes bayésiennes pour les pirates" ).
Je peux obtenir une certaine intuition de ce post : "vous vous retrouverez avec une pile de chiffres qui ressemble" comme si "vous aviez réussi à prendre des échantillons indépendants de la distribution compliquée que vous vouliez connaître." C'est quelque chose comme je peux donner la probabilité conditionnelle, puis je peux générer un processus sans mémoire basé sur la probabilité conditionnelle. Lorsque je génère le processus assez longtemps, la probabilité conjointe peut converger, puis je peux prendre une pile de nombres à la fin de la séquence générée. C'est comme si je prenais des échantillons indépendants de la distribution conjointe compliquée. Par exemple, je peux faire un histogramme et il peut approximer la fonction de distribution.
Alors mon problème est, dois-je prouver si un MCMC converge pour un certain modèle? Je suis motivé à le savoir car j'ai déjà appris l'algorithme EM pour GMM et LDA (modèles graphiques). Si je peux simplement utiliser l'algorithme MCMC sans prouver s'il converge, cela peut gagner beaucoup plus de temps que EM. Puisque je devrai calculer la fonction de vraisemblance logarithmique attendue (devra calculer la probabilité postérieure), puis maximiser la vraisemblance logarithmique attendue. Il est apparemment plus lourd que le MCMC (j'ai juste besoin de formuler la probabilité conditionnelle).
Je me demande également si la fonction de vraisemblance et la distribution antérieure sont conjuguées. Cela signifie-t-il que le MCMC doit converger? Je m'interroge sur les limites de MCMC et EM.
la source
Réponses:
EM est une technique d'optimisation: étant donné une probabilité avec des variables latentes utiles, elle retourne un maximum local, qui peut être un maximum global en fonction de la valeur de départ.
MCMC est une méthode de simulation: étant donné une probabilité avec ou sans variables latentes, et a priori, elle produit un échantillon qui est approximativement distribué à partir de la distribution postérieure. Les premières valeurs de cet échantillon dépendent généralement de la valeur de départ, ce qui signifie qu'elles sont souvent rejetées en tant qu'étape de rodage (ou d'échauffement).
Lorsque cet échantillon est utilisé pour évaluer les intégrales associées à la distribution postérieure [la grande majorité des cas], les propriétés de convergence sont essentiellement les mêmes que celles d'une approximation iid Monte Carlo, en vertu du théorème ergodique.
la source