J'ai utilisé des distributions log normales comme distributions antérieures pour les paramètres d'échelle (pour les distributions normales, les distributions t, etc.) quand j'ai une idée approximative de ce que l'échelle devrait être, mais je veux me tromper en disant que je ne sais pas beaucoup à ce sujet. Je l'utilise parce que cette utilisation a un sens intuitif pour moi, mais je n'ai pas vu d'autres l'utiliser. Y a-t-il des dangers cachés à cela?
distributions
bayesian
modeling
prior
maximum-entropy
John Salvatier
la source
la source
Réponses:
Je recommanderais d'utiliser une "distribution bêta du deuxième type" (Beta 2 pour faire court) pour une distribution légèrement informative , et d'utiliser la distribution gamma inverse conjuguée si vous avez de fortes croyances antérieures. La raison pour laquelle je dis cela est que le prieur conjugué n'est pas robuste en ce sens que, si le prieur et les données sont en conflit, le prieur a une influence illimitée sur la distribution postérieure. Un tel comportement est ce que j'appellerais "dogmatique" et ne se justifie pas par de légères informations préalables.
La propriété qui détermine la robustesse est le comportement de queue de l'a priori et de la vraisemblance. Un très bon article décrivant les détails techniques est ici . Par exemple, une vraisemblance peut être choisie (disons une distribution t) de telle sorte qu'une observation (c'est-à-dire qu'elle devient arbitrairement grande) soit écartée de l'analyse d'un paramètre d'emplacement (de la même manière que vous le feriez intuitivement faire avec une telle observation). Le taux de «rejet» dépend de la lourdeur des queues de la distribution.yi→∞
Quelques diapositives qui montrent une application dans le contexte de la modélisation hiérarchique peuvent être trouvées ici (montre la forme mathématique de la distribution Beta 2 ), avec un article ici .
Si vous n'êtes pas dans le contexte de la modélisation hiérarchique, alors je suggérerais de comparer le postérieur (ou les résultats que vous créez) mais utilisez le Jeffreys avant pour un paramètre d'échelle, qui est donné par . Cela peut être créé comme limite de ladensitéBêta2car ses deux paramètres convergent vers zéro. Pour une approximation, vous pouvez utiliser de petites valeurs. Mais j'essaierais de trouver la solutionanalytiquementsi possible (et si ce n'est pas une solution analytique complète, faites progresser la solution analytique aussi loin que vous le pouvez), car vous vous épargnerez non seulement du temps de calcul, mais vous êtes également susceptible demieux comprendrece qui se passe dans votre modèle.p(σ)∝1σ
MaxEnt est la version "Rolls Royce", tandis que la Beta 2 est plutôt une version "berline". La raison en est que la distribution MaxEnt "assume le moins" sous réserve des contraintes que vous y avez mises (par exemple, aucune contrainte signifie que vous obtenez juste le Jeffreys avant), tandis que la distribution Beta 2 peut contenir des fonctionnalités "cachées" qui peut ou peut ne pas être souhaitable dans votre cas spécifique (par exemple, si les informations antérieures sont plus fiables que les données, alors la Bêta 2 est mauvaise).
L'autre belle propriété de la distribution MaxEnt est que s'il n'y a pas de contraintes non spécifiées fonctionnant dans le mécanisme de génération de données, alors la distribution MaxEnt est de manière écrasante la distribution la plus probable que vous verrez (nous parlons de plusieurs milliards et trillions à un). Par conséquent, si la distribution que vous voyez n'est pas celle de MaxEnt, il y a probablement des contraintes supplémentaires que vous n'avez pas spécifiées opérant sur le vrai processus, et les valeurs observées peuvent fournir un indice sur ce que pourrait être cette contrainte.
la source
L'article suivant de Daniels compare une variété de facteurs de rétrécissement pour la variance. Ce sont de véritables prieurs, mais je ne sais pas combien pourraient être considérés comme non informatifs le cas échéant. Mais, il fournit également une liste de prieurs non informatifs (pas tous appropriés). Voici la référence.
Prieurs
Un autre article plus récent dans la même veine est le suivant.
la source
(La question est périmée, mais le problème ne l'est pas)
Personnellement, je pense que votre intuition a un certain sens. C'est-à-dire, si vous n'avez pas besoin de l'ordre mathématique de la conjugaison, alors quelle que soit la distribution que vous utiliseriez pour un paramètre d'emplacement, vous devriez utiliser la même pour le journal d'un paramètre d'échelle. Donc, ce que vous dites est: utilisez l'équivalent d'un a priori normal.
Souhaitez-vous réellement utiliser un a priori normal pour un paramètre d'emplacement? La plupart des gens diraient que, à moins que vous ne rendiez la variance énorme, c'est probablement un peu "trop dogmatique", pour des raisons expliquées dans les autres réponses ici (influence illimitée). Une exception serait si vous faites des bayés empiriques; c'est-à-dire utiliser vos données pour estimer les paramètres de votre précédent.
Si vous voulez être "faiblement informatif", vous choisirez probablement une distribution avec des queues plus grosses; les candidats évidents sont les distributions t. Le dernier conseil de Gelman semble être d'utiliser avec un df de 3-7. (Notez que le lien prend également en charge ma suggestion que vous souhaitiez faire la même chose pour le journal d'échelle que vous feriez pour l'emplacement) Ainsi, au lieu d'un lognormal, vous pouvez utiliser un log-student-t. Pour accomplir cela dans stan, vous pouvez faire quelque chose comme:
Cependant, je pense que si le code ci-dessus est trop complexe pour vous, vous pourriez probablement vous en tirer avec un précédent lognormal, avec deux mises en garde. Tout d'abord, faites l'écart de cet avant quelques fois plus large que votre estimation approximative de la façon dont «vous n'êtes pas sûr»; vous voulez un avant faiblement informatif, pas fortement informatif. Et deuxièmement, une fois que vous avez ajusté votre modèle, vérifiez la médiane postérieure du paramètre et assurez-vous que le journal de celui-ci n'est pas trop loin du centre du lognormal. "Pas trop loin" signifie probablement: moins de deux écarts-types, et de préférence pas plus d'un SD.
la source
Pour les paramètres d'échelle du modèle hiérarchique, j'ai principalement utilisé la suggestion d' Andrew Gelman d'utiliser une distribution en t non centrale. Cela a fonctionné assez décemment pour moi.
la source