Je viens de commencer à construire des modèles en stan ; pour me familiariser avec l'outil, je travaille sur certains des exercices d'analyse des données bayésiennes (2e éd.). L' exercice Waterbuck suppose que les données , avec inconnues. Puisque l'hamiltonien Monte Carlo ne permet pas de paramètres discrets, j'ai déclaré comme un réel et codé une distribution binomiale à valeur réelle en utilisant la fonction.lbeta
Un histogramme des résultats semble pratiquement identique à ce que j'ai trouvé en calculant directement la densité postérieure. Cependant, je crains qu'il puisse y avoir des raisons subtiles pour lesquelles je ne dois pas faire confiance à ces résultats en général; puisque l'inférence à valeur réelle sur attribue une probabilité positive à des valeurs non entières, nous savons que ces valeurs sont impossibles, car le waterbuck fractionnaire n'existe pas dans la réalité. D'un autre côté, les résultats semblent bons, de sorte que la simplification ne semble avoir aucun effet sur l'inférence dans ce cas.
Existe-t-il des principes directeurs ou des règles de base pour la modélisation de cette manière, ou cette méthode de "promotion" d'un paramètre discret est-elle une mauvaise pratique réelle?
la source
Réponses:
Tout d'abord, n'hésitez pas à poser des questions comme celle-ci sur notre liste d'utilisateurs ( http://mc-stan.org/mailing-lists.html ) où nous discutons non seulement des problèmes liés aux implémentations / optimisations / etc de Stan, mais aussi des statistiques pratiques et questions de modélisation.
Quant à votre question, c'est absolument une bonne approche. Il existe de nombreuses façons de le justifier plus rigoureusement (par exemple, en examinant la divergence entre le CDF discret et son approximation continue), mais fondamentalement tant que votre variance est supérieure à quelques fois l'unité, la discrétisation manquante n'aura pas vraiment de effet sur les inférences ultérieures.
Ce type d'approximation est omniprésent, un exemple courant étant l'approximation d'une distribution multinomiale en tant que produit de distributions de Poisson indépendantes qui sont ensuite approximées en tant que distributions gaussiennes.
la source