Autoriser les données à dicter les priorités, puis exécuter le modèle à l'aide de ces priorités? (p. ex., a priori axés sur les données provenant du même ensemble de données)

9

Je crois comprendre que nous ne devrions pas autoriser le même ensemble de données que nous analysons à déterminer / définir à quoi ressemblent les distributions antérieures dans une analyse bayésienne. Plus précisément, il est inapproprié de définir des distributions antérieures pour une analyse bayésienne sur la base de statistiques récapitulatives du même ensemble de données que vous allez ensuite utiliser les priors pour aider à ajuster un modèle.

Est-ce que quelqu'un connaît des ressources qui en discutent spécifiquement comme étant inappropriées? J'ai besoin de quelques citations pour ce numéro.

Sarah
la source

Réponses:

11

Oui, cela est inapproprié car il utilise deux fois les mêmes données, ce qui conduit à des résultats faussement confiants. Ceci est connu sous le nom de «double trempage».

Pour les références, je commencerais par Carlin et Louis (2000). Bien que le «double dip» ait été l'une des principales critiques d'Empirical Bayes, Ch. 3, en particulier la section 3.5, de ce livre décrit les moyens d'estimer les intervalles de confiance appropriés en utilisant l'approche EB.

Berger J (2006). \ Le cas de l'analyse bayésienne objective. "Analyse bayésienne, 1 (3), 385 {402

Bradley P. Carlin, Thomas A. Louis 2000. Méthodes Bayes et empiriques Bayes pour l'analyse des données.

Darniede, WF 2011. Méthodes bayésiennes pour les prieurs dépendants des données. Mémoire de maîtrise, Ohio State Univ.

Gelman, A., Carlin, JB, Stern, HS et Rubin, DB (2003), Bayesian Data Analysy, deuxième édition (Chapman & Hall / CRC Textes in Statistical Science), Chapman et Hall / CRC, 2e éd.

David LeBauer
la source
@sarah Veuillez enregistrer votre compte afin de pouvoir récupérer votre question. Il suffit de visiter cette URL: stats.stackexchange.com/users/login
1

Il peut être judicieux d'utiliser les données pour créer le précédent.

Pour un exemple de modélisation des mélanges, voir Richardson & Green (1997): http://citeseer.ist.psu.edu/viewdoc/summary?doi=10.1.1.27.3667

Ils utilisent la moyenne et la plage des points de données comme hyperparamètres pour l'a priori et cela est parfaitement logique.

Le problème de l'utilisation des données deux fois se produit quand un prior informatif est dérivé des données, à mon avis.

Tant que vous vérifiez que votre distribution précédente est "plate" là où la distribution postérieure est à son maximum, alors vous savez que votre distribution précédente n'a pas un impact fort sur les résultats.

Pierre
la source
L'utilisation des données pour construire l'a priori ne peut pas avoir lieu dans le paradigme bayésien. Cela n'a donc aucun sens d'un point de vue bayésien et la validation habituelle des procédures bayésiennes ne s'applique pas. L'inférence qui en résulte peut être parfaitement valable, mais il faut la démontrer à partir des premiers principes. (Richardson et Green utilisent ce qu'on appelle des Bayes empiriques. Ce qui n'est pas une procédure bayésienne.)
Xi'an
Même si cela n'a pas de sens dans le paradigme bayésien, il est parfois difficile de tracer la ligne de démarcation entre ce qui est des données et ce qui est antérieur. Voir ma réponse à stats.stackexchange.com/questions/112451/…
kjetil b halvorsen