Distributions antérieures faiblement informatives pour les paramètres d'échelle

21

J'ai utilisé des distributions log normales comme distributions antérieures pour les paramètres d'échelle (pour les distributions normales, les distributions t, etc.) quand j'ai une idée approximative de ce que l'échelle devrait être, mais je veux me tromper en disant que je ne sais pas beaucoup à ce sujet. Je l'utilise parce que cette utilisation a un sens intuitif pour moi, mais je n'ai pas vu d'autres l'utiliser. Y a-t-il des dangers cachés à cela?

John Salvatier
la source
1
Les normales ont des antérieurs conjugués: en.wikipedia.org/wiki/Normal-gamma_distribution . Vous les trouverez peut-être beaucoup plus faciles à utiliser.
whuber
Intéressant. Je fais des trucs numériques, y a-t-il un avantage à ces distributions en plus de la congugalité?
John Salvatier
5
Pas vraiment mon domaine, mais cela «pourrait» être pertinent? Gelman A. Distributions antérieures des paramètres de variance dans les modèles hiérarchiques. Analyse bayésienne 2006; 1: 515-533. dx.doi.org/10.1214/06-BA117A
onestop
J'ai trouvé cette distribution Scaled-Beta proposée par Pérez et Pericchi. 2
Les antérieurs conjugués pour une distribution particulière comme la normale ne sont que des a priori qui mènent à cette distribution comme distribution postérieure étant donné un ensemble de données. Si vous utilisez un conjugué avant, vous n'avez pas besoin de vous lancer dans l'intégration pour calculer le postérieur. Cela rend les choses pratiques, mais de nos jours, MCMC facilite beaucoup l'utilisation d'une grande variété de priors possibles.
Michael R. Chernick

Réponses:

20

Je recommanderais d'utiliser une "distribution bêta du deuxième type" (Beta 2 pour faire court) pour une distribution légèrement informative , et d'utiliser la distribution gamma inverse conjuguée si vous avez de fortes croyances antérieures. La raison pour laquelle je dis cela est que le prieur conjugué n'est pas robuste en ce sens que, si le prieur et les données sont en conflit, le prieur a une influence illimitée sur la distribution postérieure. Un tel comportement est ce que j'appellerais "dogmatique" et ne se justifie pas par de légères informations préalables.

La propriété qui détermine la robustesse est le comportement de queue de l'a priori et de la vraisemblance. Un très bon article décrivant les détails techniques est ici . Par exemple, une vraisemblance peut être choisie (disons une distribution t) de telle sorte qu'une observation (c'est-à-dire qu'elle devient arbitrairement grande) soit écartée de l'analyse d'un paramètre d'emplacement (de la même manière que vous le feriez intuitivement faire avec une telle observation). Le taux de «rejet» dépend de la lourdeur des queues de la distribution.yi

Quelques diapositives qui montrent une application dans le contexte de la modélisation hiérarchique peuvent être trouvées ici (montre la forme mathématique de la distribution Beta 2 ), avec un article ici .

Si vous n'êtes pas dans le contexte de la modélisation hiérarchique, alors je suggérerais de comparer le postérieur (ou les résultats que vous créez) mais utilisez le Jeffreys avant pour un paramètre d'échelle, qui est donné par . Cela peut être créé comme limite de ladensitéBêta2car ses deux paramètres convergent vers zéro. Pour une approximation, vous pouvez utiliser de petites valeurs. Mais j'essaierais de trouver la solutionanalytiquementsi possible (et si ce n'est pas une solution analytique complète, faites progresser la solution analytique aussi loin que vous le pouvez), car vous vous épargnerez non seulement du temps de calcul, mais vous êtes également susceptible demieux comprendrece qui se passe dans votre modèle.p(σ)1σ

MVIQRM,V,IQRm(σ)=1σ

MaxEnt est la version "Rolls Royce", tandis que la Beta 2 est plutôt une version "berline". La raison en est que la distribution MaxEnt "assume le moins" sous réserve des contraintes que vous y avez mises (par exemple, aucune contrainte signifie que vous obtenez juste le Jeffreys avant), tandis que la distribution Beta 2 peut contenir des fonctionnalités "cachées" qui peut ou peut ne pas être souhaitable dans votre cas spécifique (par exemple, si les informations antérieures sont plus fiables que les données, alors la Bêta 2 est mauvaise).

L'autre belle propriété de la distribution MaxEnt est que s'il n'y a pas de contraintes non spécifiées fonctionnant dans le mécanisme de génération de données, alors la distribution MaxEnt est de manière écrasante la distribution la plus probable que vous verrez (nous parlons de plusieurs milliards et trillions à un). Par conséquent, si la distribution que vous voyez n'est pas celle de MaxEnt, il y a probablement des contraintes supplémentaires que vous n'avez pas spécifiées opérant sur le vrai processus, et les valeurs observées peuvent fournir un indice sur ce que pourrait être cette contrainte.

probabilitéislogique
la source
@probabilityislogic Belle réponse. Savez-vous où puis-je trouver les documents que vous mentionnez dans le troisième paragraphe? Les liens ne fonctionnent pas.
1
celui qui fonctionne pour le papier est ici . C'était sur un site de la conférence "objectif bayes 09" (les rencontres de Valence). Je ne pense pas que les diapositives seront plus disponibles, car le site Web de la conférence a été supprimé ... :( dommage, c'était un bon ensemble de diapositives. Ce fer à cheval avant semble intéressant dans le lien que vous avez fourni.
probabilitéislogic
Beta2
@ Procrastinator Ai-je raison de supposer que vous ne voulez que des prieurs appropriés? Vous ne l'avez pas dit, mais si vous autorisez des prieurs inappropriés, les prieurs de Jeffreys déjà mentionnés fonctionneraient et je pourrais citer la théorie des probabilités de Jeffreys, les livres de Dennis Lindley ou l'encyclopédie des statistiques. La façon dont la demande pourrait être vérifiée en utilisant Google pour trouver la réponse et si elle ne peut pas être trouvée, il n'y a probablement rien dans la littérature en dehors de celles que vous avez exclues.
Michael R. Chernick
@MichaelChernick Oui, vous avez raison, je ne m'intéresse qu'aux prieurs appropriés. La raison en est que pour les prieurs propres (1) l'existence du postérieur n'est pas restrictive pour certains modèles et (2) je voulais vérifier si je ne manque pas une autre proposition intéressante. Je suis d'accord avec vous qu'il semble que les prieurs de Gelman, Pericchi et Gamma soient les plus populaires dans la littérature, mais j'ai également noté qu'il y a une tendance à proposer des prieurs à queue lourde afin de produire des inférences `` robustes ''.
13

L'article suivant de Daniels compare une variété de facteurs de rétrécissement pour la variance. Ce sont de véritables prieurs, mais je ne sais pas combien pourraient être considérés comme non informatifs le cas échéant. Mais, il fournit également une liste de prieurs non informatifs (pas tous appropriés). Voici la référence.

MJ Daniels (1999), A prior pour la variance des modèles hiérarchiques , Canadian J. Stat. , vol. 27, non. 3, p. 567–578.

Prieurs

  1. K
  2. τ2
  3. τ1
  4. 1/(σ2+τ2)
  5. σ/(2(σ2+τ2)3/2)
  6. σ2/(σ2+τ2)
  7. σ/(2τ(σ+τ)2)

Un autre article plus récent dans la même veine est le suivant.

A. Gelman (2006), Distributions antérieures des paramètres de variance dans les modèles hiérarchiques , Bayesian Analysis , vol. 1, non. 3, p. 515-533.

Michael R. Chernick
la source
2
(+1) C'est une bonne trouvaille. J'ai ajouté un lien stable vers le document Daniels ainsi qu'une autre référence qui semble le compléter.
cardinal
4

(La question est périmée, mais le problème ne l'est pas)

Personnellement, je pense que votre intuition a un certain sens. C'est-à-dire, si vous n'avez pas besoin de l'ordre mathématique de la conjugaison, alors quelle que soit la distribution que vous utiliseriez pour un paramètre d'emplacement, vous devriez utiliser la même pour le journal d'un paramètre d'échelle. Donc, ce que vous dites est: utilisez l'équivalent d'un a priori normal.

Souhaitez-vous réellement utiliser un a priori normal pour un paramètre d'emplacement? La plupart des gens diraient que, à moins que vous ne rendiez la variance énorme, c'est probablement un peu "trop ​​dogmatique", pour des raisons expliquées dans les autres réponses ici (influence illimitée). Une exception serait si vous faites des bayés empiriques; c'est-à-dire utiliser vos données pour estimer les paramètres de votre précédent.

Si vous voulez être "faiblement informatif", vous choisirez probablement une distribution avec des queues plus grosses; les candidats évidents sont les distributions t. Le dernier conseil de Gelman semble être d'utiliser avec un df de 3-7. (Notez que le lien prend également en charge ma suggestion que vous souhaitiez faire la même chose pour le journal d'échelle que vous feriez pour l'emplacement) Ainsi, au lieu d'un lognormal, vous pouvez utiliser un log-student-t. Pour accomplir cela dans stan, vous pouvez faire quelque chose comme:

real log_sigma_y; //declare at the top of your model block
//...some more code for your model
log_sigma_y <- log(sigma_y); increment_log_prob(-log_sigma_y);
log_sigma_y ~ student_t(3,1,3); //This is a 'weakly informative prior'.

Cependant, je pense que si le code ci-dessus est trop complexe pour vous, vous pourriez probablement vous en tirer avec un précédent lognormal, avec deux mises en garde. Tout d'abord, faites l'écart de cet avant quelques fois plus large que votre estimation approximative de la façon dont «vous n'êtes pas sûr»; vous voulez un avant faiblement informatif, pas fortement informatif. Et deuxièmement, une fois que vous avez ajusté votre modèle, vérifiez la médiane postérieure du paramètre et assurez-vous que le journal de celui-ci n'est pas trop loin du centre du lognormal. "Pas trop loin" signifie probablement: moins de deux écarts-types, et de préférence pas plus d'un SD.

Jameson Quinn
la source
2

Pour les paramètres d'échelle du modèle hiérarchique, j'ai principalement utilisé la suggestion d' Andrew Gelman d'utiliser une distribution en t non centrale. Cela a fonctionné assez décemment pour moi.

John Salvatier
la source