Je crois comprendre que nous ne devrions pas autoriser le même ensemble de données que nous analysons à déterminer / définir à quoi ressemblent les distributions antérieures dans une analyse bayésienne. Plus précisément, il est inapproprié de définir des distributions antérieures pour une analyse bayésienne sur la base de statistiques récapitulatives du même ensemble de données que vous allez ensuite utiliser les priors pour aider à ajuster un modèle.
Est-ce que quelqu'un connaît des ressources qui en discutent spécifiquement comme étant inappropriées? J'ai besoin de quelques citations pour ce numéro.
Réponses:
Oui, cela est inapproprié car il utilise deux fois les mêmes données, ce qui conduit à des résultats faussement confiants. Ceci est connu sous le nom de «double trempage».
Pour les références, je commencerais par Carlin et Louis (2000). Bien que le «double dip» ait été l'une des principales critiques d'Empirical Bayes, Ch. 3, en particulier la section 3.5, de ce livre décrit les moyens d'estimer les intervalles de confiance appropriés en utilisant l'approche EB.
Berger J (2006). \ Le cas de l'analyse bayésienne objective. "Analyse bayésienne, 1 (3), 385 {402
Bradley P. Carlin, Thomas A. Louis 2000. Méthodes Bayes et empiriques Bayes pour l'analyse des données.
Darniede, WF 2011. Méthodes bayésiennes pour les prieurs dépendants des données. Mémoire de maîtrise, Ohio State Univ.
Gelman, A., Carlin, JB, Stern, HS et Rubin, DB (2003), Bayesian Data Analysy, deuxième édition (Chapman & Hall / CRC Textes in Statistical Science), Chapman et Hall / CRC, 2e éd.
la source
Il peut être judicieux d'utiliser les données pour créer le précédent.
Pour un exemple de modélisation des mélanges, voir Richardson & Green (1997): http://citeseer.ist.psu.edu/viewdoc/summary?doi=10.1.1.27.3667
Ils utilisent la moyenne et la plage des points de données comme hyperparamètres pour l'a priori et cela est parfaitement logique.
Le problème de l'utilisation des données deux fois se produit quand un prior informatif est dérivé des données, à mon avis.
Tant que vous vérifiez que votre distribution précédente est "plate" là où la distribution postérieure est à son maximum, alors vous savez que votre distribution précédente n'a pas un impact fort sur les résultats.
la source