Diagnostics résiduels dans les modèles de régression basés sur MCMC

21

Je me suis récemment lancé dans l'ajustement de modèles mixtes de régression dans le cadre bayésien, en utilisant un algorithme MCMC (fonction MCMCglmm dans R en fait).

Je crois avoir compris comment diagnostiquer la convergence du processus d'estimation (trace, tracé de geweke, autocorrélation, distribution postérieure ...).

L'une des choses qui me frappe dans le cadre bayésien est que beaucoup d'efforts semblent être consacrés à ces diagnostics, alors que très peu semble être fait en termes de vérification des résidus du modèle ajusté. Par exemple, dans MCMCglmm, la fonction résiduelle.mcmc () existe mais n'est en fait pas encore implémentée (c.-à-d. Retours: "résidus non encore implémentés pour les objets MCMCglmm"; même histoire pour Predict.mcmc ()). Il semble également manquer dans d'autres packages, et plus généralement, il est peu discuté dans la littérature que j'ai trouvée (à l'exception de DIC qui est également très discuté).

Quelqu'un pourrait-il m'indiquer des références utiles, et idéalement du code R avec lequel je pourrais jouer ou modifier?

Merci beaucoup.

Rossinante
la source
Grande question. J'aime beaucoup l' article d' Andrew Gelman avec Cosma Shalizi sur la vérification des modèles bayésiens.
David J. Harris

Réponses:

7

Je pense que l'utilisation du terme résiduel n'est pas compatible avec la régression bayésienne. Rappelez-vous que dans les modèles de probabilité fréquentistes, ce sont les paramètres qui sont considérés comme des quantités estimables fixes et le mécanisme de génération de données a un modèle de probabilité aléatoire associé aux données observées. Pour les Bayésiens, les paramètres des modèles de probabilité sont considérés comme variables et les données fixes mettent à jour notre croyance sur ce que sont ces paramètres. Par conséquent, si vous calculez la variance de la observée moins équipée des valeurs dans un modèle de régression, l' observéla composante aurait une variance nulle tandis que la composante ajustée varierait en fonction de la densité de probabilité postérieure pour les paramètres du modèle. C'est l'opposé de ce que vous déduiriez du modèle de régression fréquentiste. Je pense que si l'on était intéressé à vérifier les hypothèses probabilistes de leur modèle de régression bayésienne, un simple QQplot de la densité postérieure des estimations de paramètres (estimée à partir de notre échantillonnage MCMC) par rapport à une distribution normale aurait un pouvoir diagnostique analogue à l'analyse des résidus (ou résidus Pearson pour les fonctions de liaison non linéaires).

AdamO
la source
1
Ceci est une bonne réponse. Il peut encore y avoir des réponses qui donnent des constructions bayésiennes utiles calculées à partir du résidu ajusté moins observé, mais celle-ci n'aurait certainement pas dû être diminuée.
le
3
En outre, il pourrait être utile de préciser que dans le cadre bayésien, vous n'avez pas vraiment de valeurs «ajustées». Vous pouvez calculer la moyenne postérieure pour une entrée observée donnée, afin d'obtenir l'estimation maximale a posteriori de la valeur attendue de la variable cible à cette entrée. Mais cela réduirait tout à des estimations ponctuelles, ce qui n'est généralement pas souhaité si vous faites l'inférence bayésienne.
ely
2
@EMS, ce sont des résidus significatifs. Ce n'est pas parce que l'on est bayésien que l'on ne peut pas vérifier si les hypothèses sont reflétées dans les données.
Glen_b -Reinstate Monica
1
Pour une inférence probabiliste exacte (hypothèses de normalité en place) dans le cadre fréquentiste, les «résidus» seraient, dans les répliques de l'expérience de l'étude, conditionnellement indépendants de la «valeur ajustée» (ou moyenne conditionnelle). Dans le monde des Bayes, les données ne sont pas aléatoires, alors qu'est-ce qui serait conditionnellement indépendant de quoi?
AdamO
1
E[Oui|X]XOui