Pourquoi y a-t-il des recommandations contre l'utilisation de Jeffreys ou de priors basés sur l'entropie pour les échantillonneurs MCMC?

11

Sur leur page wiki , les développeurs de Stan déclarent:

Quelques principes que nous n'aimons pas: l'invariance, Jeffreys, l'entropie

Au lieu de cela, je vois beaucoup de recommandations de distribution normale. Jusqu'à présent, j'ai utilisé des méthodes bayésiennes qui ne reposaient pas sur l'échantillonnage, et j'étais plutôt content d'avoir compris pourquoi était un bon choix pour les probabilités binomiales.θBeta(α=12,β=12)

wirrbel
la source
1
Commentaire générique: la documentation du logiciel ne récapitule pas toujours les arguments statistiques pour ce que le logiciel fait et ne fait pas. C'est vrai pour la plupart des packages R que j'ai consultés et je ne suis pas surpris d'entendre la même chose de Stan. Andrew Gelman est, de toute évidence, un auteur prolifique.
Nick Cox
1
Autre commentaire générique: je ne trouve pas ce genre de question très satisfaisant, en partie parce qu'il s'agit d'individus particuliers. Si les auteurs en direct n'expliquent pas quelque part et ne sont évidemment pas actifs ici, envoyez-leur un e-mail pour demander. Il est plus satisfaisant de se demander en abstraction les mérites relatifs des différentes approches. Parfois, il est juste de dire que vous pouvez toujours utiliser un logiciel différent si vous trouvez quelque chose qui manque, y compris écrire le vôtre. Non-divulgation: jamais utilisé Stan.
Nick Cox
@NickCox Je ne pense pas que cette question aurait bénéficié d'une anonymisation, car (1) le contexte d'un logiciel de samling est important (2) mon impression est qu'un rejet des prieurs de Jeffreys est assez inhabituel pour que cela vaille la peine d'être souligné qu'une source de renommée fait cette affirmation. (3) Je ne pense pas qu'il soit conflictuel de citer quelqu'un dans une question.
wirrbel
1
Andy a écrit "Certains principes que nous n'aimons pas: l'invariance, Jeffreys, l'entropie" mais pour voir pourquoi vous devriez regarder dans son livre
Ben Goodrich
1
En outre, cet article contient la réflexion la plus récente sur les priors parmi trois développeurs Stan.
Ben Goodrich

Réponses:

13

Il s'agit bien sûr d'un ensemble diversifié de personnes avec une gamme d'opinions se réunissant et écrivant un wiki. Je résume je sais / comprends avec quelques commentaires:

  • Le choix de votre a priori en fonction de la commodité du calcul n'est pas une justification suffisante. Par exemple, utiliser une version bêta (1/2, 1/2) uniquement parce qu'elle permet la mise à jour conjuguée n'est pas une bonne idée. Bien sûr, une fois que vous avez conclu qu'il a de bonnes propriétés pour le type de problème sur lequel vous travaillez, c'est très bien et vous pourriez tout aussi bien faire un choix qui facilite la mise en œuvre. Il existe de nombreux exemples, où les choix par défaut pratiques s'avèrent problématiques (voir Gamna (0,001, 0,001) avant qui permet l'échantillonnage de Gibbs).

  • Avec Stan - contrairement à WinBUGS ou JAGS - il n'y a pas d'avantage particulier à conjuguer (conditionnellement) des priors. Donc, vous pourriez bien ignorer quelque peu l'aspect informatique. Pas tout à fait cependant, car avec des a priori à queue très lourde (ou des a priori incorrects) et des données qui n'identifient pas bien les paramètres, vous rencontrez des problèmes (pas vraiment un problème spécifique à Stan, mais Stan est assez bon pour identifier ces problèmes et avertir l'utilisateur au lieu d’échantillonner avec plaisir).

  • Les précédents de Jeffreys et d'autres "informations faibles" peuvent parfois être incorrects ou être un peu difficiles à comprendre dans des dimensions élevées (sans parler de les dériver) et avec des données rares. Il se peut simplement que ceux-ci causent trop souvent des problèmes aux auteurs pour ne jamais être à l'aise avec eux. Une fois que vous travaillez dans quelque chose, vous en apprenez davantage et vous vous sentez à l'aise, d'où l'inversion occasionnelle de l'opinion.

  • Dans le paramètre de données clairsemées, la priorité est vraiment importante et si vous pouvez spécifier que les valeurs totalement invraisemblables pour un paramètre sont invraisemblables, cela aide beaucoup. Cela motive l'idée de prieurs faiblement informatifs - pas vraiment des prieurs pleinement informatifs, mais ceux qui soutiennent le plus les valeurs plausibles.

  • En fait, vous pourriez vous demander pourquoi on dérange avec des prieurs non informatifs, si nous avons beaucoup de données qui identifient très bien les paramètres (on pourrait simplement utiliser le maximum de vraisemblance). Bien sûr, il y a beaucoup de raisons (éviter les pathologies, obtenir la "vraie forme" des postérieurs, etc.), mais dans des situations de "beaucoup de données", il ne semble pas y avoir d'argument réel contre les prieurs faiblement informatifs.

  • Peut-être un peu étrangement un N (0, 1) est un a priori étonnamment décent pour le coefficient de régression logistique, Poisson ou Cox pour de nombreuses applications. Par exemple, il s'agit très approximativement de la distribution des effets du traitement observés dans de nombreux essais cliniques.
Björn
la source
Merci pour la réponse détaillée. Je suppose que mon étonnement n'est pas tellement lié à la conjugaison (car si je comprends bien, les prieurs de Jeffreys n'ont pas besoin d'être des prieurs conjugués, ils ont juste besoin d'être invariants lors de la reparamétrisation). Je comprendrais donc totalement les conseils contre les prieurs conjugués.
wirrbel
Je pense que l'inquiétude avec Jeffreys prior est principalement qu'il s'agit d'un prieur de grande dimension qui peut ne pas être un bon prieur et peut avoir une certaine influence sur votre inférence que vous ne comprenez pas complètement. Je pense que c'est surtout une préoccupation avec des données rares, bien que quelqu'un puisse peut-être citer un exemple avec des données non rares, où certains problèmes se produisent (je n'en connais pas). De plus, avec Jeffreys prior et diverses autres options "non informatives", il y a l'inconvénient d'avoir à le dériver.
Björn
8

Ils ne fournissent aucune justification scientifique / mathématique pour le faire. La plupart des développeurs ne travaillent pas sur ce type de priors, et ils préfèrent utiliser des priors plus pragmatiques / heuristiques, tels que des priors normaux avec de grandes variances (qui peuvent être informatives dans certains cas). Cependant, il est un peu étrange qu'ils soient heureux d'utiliser des versions antérieures de PC, basées sur Entropy (divergence KL), après avoir commencé à travailler sur ce sujet.

gunemmune(0,001,0,001)

Avant
la source
pourriez-vous fournir un lien hypertexte informatif / source par rapport à la réclamation Gelman.
Jim
@ Jim Sure, c'est le papier: projecteuclid.org/euclid.ba/1340371048
Avant le