Sur leur page wiki , les développeurs de Stan déclarent:
Quelques principes que nous n'aimons pas: l'invariance, Jeffreys, l'entropie
Au lieu de cela, je vois beaucoup de recommandations de distribution normale. Jusqu'à présent, j'ai utilisé des méthodes bayésiennes qui ne reposaient pas sur l'échantillonnage, et j'étais plutôt content d'avoir compris pourquoi était un bon choix pour les probabilités binomiales.
Réponses:
Il s'agit bien sûr d'un ensemble diversifié de personnes avec une gamme d'opinions se réunissant et écrivant un wiki. Je résume je sais / comprends avec quelques commentaires:
Le choix de votre a priori en fonction de la commodité du calcul n'est pas une justification suffisante. Par exemple, utiliser une version bêta (1/2, 1/2) uniquement parce qu'elle permet la mise à jour conjuguée n'est pas une bonne idée. Bien sûr, une fois que vous avez conclu qu'il a de bonnes propriétés pour le type de problème sur lequel vous travaillez, c'est très bien et vous pourriez tout aussi bien faire un choix qui facilite la mise en œuvre. Il existe de nombreux exemples, où les choix par défaut pratiques s'avèrent problématiques (voir Gamna (0,001, 0,001) avant qui permet l'échantillonnage de Gibbs).
Avec Stan - contrairement à WinBUGS ou JAGS - il n'y a pas d'avantage particulier à conjuguer (conditionnellement) des priors. Donc, vous pourriez bien ignorer quelque peu l'aspect informatique. Pas tout à fait cependant, car avec des a priori à queue très lourde (ou des a priori incorrects) et des données qui n'identifient pas bien les paramètres, vous rencontrez des problèmes (pas vraiment un problème spécifique à Stan, mais Stan est assez bon pour identifier ces problèmes et avertir l'utilisateur au lieu d’échantillonner avec plaisir).
Les précédents de Jeffreys et d'autres "informations faibles" peuvent parfois être incorrects ou être un peu difficiles à comprendre dans des dimensions élevées (sans parler de les dériver) et avec des données rares. Il se peut simplement que ceux-ci causent trop souvent des problèmes aux auteurs pour ne jamais être à l'aise avec eux. Une fois que vous travaillez dans quelque chose, vous en apprenez davantage et vous vous sentez à l'aise, d'où l'inversion occasionnelle de l'opinion.
Dans le paramètre de données clairsemées, la priorité est vraiment importante et si vous pouvez spécifier que les valeurs totalement invraisemblables pour un paramètre sont invraisemblables, cela aide beaucoup. Cela motive l'idée de prieurs faiblement informatifs - pas vraiment des prieurs pleinement informatifs, mais ceux qui soutiennent le plus les valeurs plausibles.
En fait, vous pourriez vous demander pourquoi on dérange avec des prieurs non informatifs, si nous avons beaucoup de données qui identifient très bien les paramètres (on pourrait simplement utiliser le maximum de vraisemblance). Bien sûr, il y a beaucoup de raisons (éviter les pathologies, obtenir la "vraie forme" des postérieurs, etc.), mais dans des situations de "beaucoup de données", il ne semble pas y avoir d'argument réel contre les prieurs faiblement informatifs.
la source
Ils ne fournissent aucune justification scientifique / mathématique pour le faire. La plupart des développeurs ne travaillent pas sur ce type de priors, et ils préfèrent utiliser des priors plus pragmatiques / heuristiques, tels que des priors normaux avec de grandes variances (qui peuvent être informatives dans certains cas). Cependant, il est un peu étrange qu'ils soient heureux d'utiliser des versions antérieures de PC, basées sur Entropy (divergence KL), après avoir commencé à travailler sur ce sujet.
la source