Contexte: Je fais actuellement un travail de comparaison de divers modèles hiérarchiques bayésiens. Les données sont des mesures numériques du bien-être du participant i et du temps j . J'ai environ 1000 participants et 5 à 10 observations par participant.
Comme avec la plupart des ensembles de données longitudinales, je m'attends à voir une certaine forme d'auto-corrélation par laquelle les observations qui sont plus proches dans le temps ont une plus grande corrélation que celles qui sont plus éloignées. Simplifiant certaines choses, le modèle de base est le suivant:
où je compare un modèle sans décalage:
avec un modèle de décalage:
où est une moyenne au niveau de la personne et β 1 est le paramètre de décalage (c'est-à-dire que l'effet de décalage ajoute un multiple de l'écart de l'observation par rapport au point temporel précédent de la valeur prédite de ce point temporel). J'ai également dû faire quelques choses pour estimer y i 0 (c.-à-d. L'observation avant la première observation).
Les résultats que j'obtiens indiquent que:
- Le paramètre de décalage est d'environ 0,18, IC à 95% [.14, .21]. C'est à dire, ce n'est pas zéro
- La déviance moyenne et le DIC augmentent tous les deux de plusieurs centaines lorsque le décalage est inclus dans le modèle
- Les vérifications prédictives postérieures montrent qu'en incluant l'effet de décalage, le modèle est mieux en mesure de récupérer l'auto-corrélation dans les données
Donc, en résumé, le paramètre de décalage non nul et les vérifications prédictives postérieures suggèrent que le modèle de décalage est meilleur; mais la déviance moyenne et le DIC suggèrent que le modèle sans décalage est meilleur. Cela me laisse perplexe.
Mon expérience générale est que si vous ajoutez un paramètre utile, il devrait au moins réduire la déviance moyenne (même si après une pénalité de complexité, le DIC n'est pas amélioré). De plus, une valeur de zéro pour le paramètre de décalage aurait la même déviance que le modèle sans décalage.
Question
Pourquoi l'ajout d'un effet de décalage pourrait-il augmenter la déviance moyenne dans un modèle hiérarchique bayésien même lorsque le paramètre de décalage est non nul et améliore les vérifications prédictives postérieures?
Pensées initiales
- J'ai fait beaucoup de vérifications de convergence (par exemple, en regardant des tracés; en examinant la variation des résultats de déviance entre les chaînes et les séries) et les deux modèles semblent avoir convergé sur la partie postérieure.
- J'ai fait une vérification de code où j'ai forcé l'effet de décalage à zéro, et cela a permis de récupérer les déviations du modèle sans décalage.
- J'ai également examiné la déviance moyenne moins la pénalité qui devrait donner la déviance aux valeurs attendues, et cela a également fait apparaître le modèle de décalage.
- Il y a peut-être un problème avec la façon dont j'ai estimé le point de temps implicite avant la première observation.
- Peut-être que l'effet de décalage est juste faible dans ces données
- J'ai essayé d'estimer le modèle en utilisant une probabilité maximale en utilisant
lme
aveccorrelation=corAR1()
. L'estimation du paramètre de décalage était très similaire. Dans ce cas, le modèle de décalage avait une plus grande probabilité logarithmique et un AIC plus petit (d'environ 100) que celui sans décalage (c'est-à-dire qu'il suggérait que le modèle de décalage était meilleur). Cela a donc renforcé l'idée que l'ajout du décalage devrait également réduire la déviance dans le modèle bayésien. - Il y a peut-être quelque chose de spécial dans les résidus bayésiens. Si le modèle de décalage utilise la différence entre y prévu et réel au point de temps précédent, alors cette quantité va être incertaine. Ainsi, l'effet de retard fonctionnera sur un intervalle crédible de ces valeurs résiduelles.
la source
Réponses:
Voici mes pensées:
Allons plus loin: prenons le modèle qui ne prend pas en compte l'effet de décalage (c) et calculons sa probabilité marginale . Ensuite, prenez votre classe de modèle (d) qui incorpore l'effet de décalage et a un prior sur le paramètre de décalage; calculer la probabilité marginale de (d). Vous vous attendriez à ce que (d) ait une plus grande probabilité marginale . Et si vous ne le faites pas?:
(1) La vraisemblance marginale considère la classe de modèle dans son ensemble. Cela comprend l'effet de décalage, le nombre de paramètres, la probabilité, l'a priori.
(2) La comparaison de modèles qui ont un nombre différent de paramètres est toujours délicate, s'il y a une incertitude considérable dans la priorité des paramètres supplémentaires.
(3) Si vous spécifiez l'incertitude dans le précédent de votre paramètre de décalage déraisonnablement grand, vous pénalisez la classe de modèle entière.
(4) Quelles sont les informations qui soutiennent des probabilités égales pour des décalages négatifs et pour un décalage positif? Je pense qu'il est très peu probable d'observer un décalage négatif, et cela devrait être intégré dans le précédent.
(5) La priorité que vous avez choisie sur votre paramètre de décalage est uniforme. Ce n'est généralement jamais un bon choix: êtes-vous absolument sûr que vos paramètres doivent vraiment se situer à l'intérieur des limites spécifiées? Chaque valeur de décalage à l'intérieur des limites a-t-elle vraiment une probabilité égale? Ma suggestion: optez pour une distribution bêta (si vous êtes sûr que le décalage est limité; ou avec la log-normale si vous pouvez exclure des valeurs inférieures à zéro .
(6) Ceci est un exemple particulier, où l'utilisation de priors non informatifs n'est pas bonne (en regardant la probabilité marginale ): Vous serez toujours en faveur du modèle qui a un plus petit nombre de paramètres incertains; peu importe à quel point le modèle avec plus de paramètres pourrait être bon ou mauvais.
J'espère que mes pensées vous donneront de nouvelles idées, des conseils?!
la source