Lorsque vous effectuez des statistiques fréquentistes, il y a une longue liste de gros no-no, comme regarder les résultats des tests statistiques avant de décider de collecter plus de données. Je me demande généralement s'il existe une liste similaire de non-no pour les méthodologies impliquées dans les statistiques bayésiennes, et en particulier si ce qui suit en fait partie.
J'ai réalisé récemment que pour certains des modèles que je montais, mon processus a d'abord consisté à équiper le modèle de prieurs informatifs pour voir s'il fonctionne ou exploser, puis d'affaiblir les priors soit non informatifs soit faiblement informatifs et remontez le modèle.
Ma motivation pour cela a vraiment à voir avec le fait que j'écris ces modèles dans JAGS / Stan, et dans mon esprit, je le traite plus comme une tâche de programmation que comme une tâche statistique. Donc, je fais un premier essai, je le trie pour qu'il converge rapidement en utilisant des informations préalables, ce qui facilite la détection des erreurs dans le modèle que j'ai écrit. Ensuite, après avoir débogué le modèle, je le réaménage avec des priors non informatifs ou faiblement informatifs.
Ma question est de savoir si j'enfreins ou non des règles sérieuses avec ce processus. Par exemple, pour que mes inférences soient valides et pour éviter d'exploiter les degrés de liberté des chercheurs, dois-je m'engager sur des priors spécifiques avant de commencer à ajuster des modèles?
la source
Réponses:
Les bayésiens subjectifs peuvent ne pas être d'accord, mais de mon point de vue, le prieur n'est qu'une partie du modèle, comme la vraisemblance. Changer la priorité en réponse au comportement du modèle n'est ni meilleur ni pire que de changer votre fonction de vraisemblance (par exemple, essayer différentes distributions d'erreur ou différentes formulations de modèle).
Cela peut être dangereux s'il vous permet de partir en expédition de pêche, mais les alternatives peuvent être pires. Par exemple, dans le cas que vous avez mentionné, où votre modèle explose et vous obtenez des coefficients absurdes, alors vous n'avez pas d'autre choix que d'essayer à nouveau.
En outre, vous pouvez prendre certaines mesures pour minimiser quelque peu les dangers d'une expédition de pêche:
la source
Si vous expérimentez avec des antérieurs et en sélectionnez un en fonction de ses performances sur les données disponibles, ce n'est plus un «préalable». Non seulement cela dépend des données (comme dans une analyse empirique de Bayes), mais cela dépend aussi de ce que vous voulez voir (ce qui est pire). En fin de compte, vous utilisez des outils bayésiens, mais cela ne peut pas être appelé une analyse bayésienne.
la source
Je pense que vous êtes d'accord dans ce cas pour trois raisons:
Vous n'ajustez pas réellement vos priorités en réponse à vos résultats. Si vous avez dit quelque chose comme: "J'utilise des antérieurs XYZ et en fonction du taux de convergence et de mes résultats DIC, je modifie ensuite mon préalable par ABC", alors je dirais que vous commettiez un non-non, mais dans ce cas, il on dirait que vous ne faites vraiment pas ça.
Dans un contexte bayésien, les prieurs sont explicites. Il est donc possible pour vous de modifier vos priors de manière incorrecte, mais les priors résultants seront toujours visibles pour inspection par d'autres qui peuvent se demander pourquoi vous avez ces priors particuliers. Peut-être que je suis naïf ici, car il est facile de jeter un coup d'œil à quelque chose comme un précédent et de dire: "Hmm, ça a l'air raisonnable" simplement parce que quelqu'un l'a proposé, mais ...
Je pense que ce que vous faites est lié aux conseils de Gelman (et d'autres) pour construire un modèle JAGS pièce par pièce, en travaillant d'abord avec des données synthétiques, puis des données réelles, pour vous assurer que vous n'avez pas d'erreur de spécification . Ce n'est pas vraiment un facteur dans la méthodologie fréquentiste, et ce n'est pas vraiment une méthodologie expérimentale.
Là encore, j'apprends encore ce truc moi-même.
PS Lorsque vous dites que vous l'avez initialement configuré pour converger rapidement avec des "prieurs informatifs", voulez-vous dire des prieurs réellement informatifs qui sont motivés par le problème en question, ou simplement des prieurs qui, pour des raisons arbitraires, poussent / restreignent fortement le postérieur pour accélérer la "convergence" "à un point arbitraire? Si c'est le premier cas, pourquoi vous éloignez-vous alors de ces prieurs (motivés)?
la source
Je pense que cela pourrait être un non non indépendant de l'école bayésienne. Jeffreys voudrait utiliser des priors non informatifs. Lindley voudra peut-être que vous utilisiez des priors informatifs. Les Bayésiens empiriques vous demanderaient de laisser les données influencer le prieur. Mais je pense que bien que chaque école fasse une suggestion différente sur le choix de la priorité, elles ont toutes une approche qui ne signifie pas que vous pouvez prendre la priorité et la modifier jusqu'à ce que vous obteniez les résultats souhaités. Ce serait certainement comme regarder les données et continuer à collecter des données et à tester jusqu'à ce que vous atteigniez votre idée préconçue de la réponse.
Fréquentiste ou bayésien, peu importe, je ne pense pas que quiconque voudrait que vous jouiez des tours avec (ou massiez) les données. Peut-être que c'est quelque chose sur lequel nous pouvons tous nous mettre d'accord et le poème drôle de Peter est vraiment à propos.
la source
Je dirais que non, vous n'avez pas à vous engager dans des priors spécifiques. Généralement, lors de toute analyse de données bayésiennes, vous devez effectuer une analyse de la sensibilité du modèle à l'a priori. Cela comprendrait l'essai de divers autres antérieurs pour voir ce qui arrive aux résultats. Cela pourrait révéler un meilleur ou plus robuste avant qui devrait être utilisé.
Les deux «non-non» évidents sont les suivants: jouer trop avec le précédent pour obtenir un meilleur ajustement, entraînant un ajustement excessif et changer les autres paramètres du modèle pour obtenir un meilleur ajustement. Comme exemple de la première: changer un a priori initial sur la moyenne pour qu'il soit plus proche de la moyenne de l'échantillon. Pour la seconde: changer vos variables / caractéristiques explicatives dans une régression pour obtenir un meilleur ajustement. C'est un problème dans n'importe quelle version de régression et invalide fondamentalement vos degrés de liberté.
la source