Les vérifications prédictives postérieures consistent, en termes simples, à «simuler des données répliquées sous le modèle ajusté puis à les comparer aux données observées» ( Gelman et Hill, 2007, p. 158 ). Ainsi, vous utilisez la prédiction postérieure pour «rechercher des écarts systématiques entre les données réelles et simulées» ( Gelman et al. 2004, p. 169 ).
L'argument à propos de "l'utilisation des données deux fois" est que vous utilisez vos données pour estimer le modèle et ensuite, pour vérifier si le modèle correspond aux données, alors qu'en général c'est une mauvaise idée et qu'il serait préférable de valider votre modèle sur des données externes , qui n'a pas été utilisé pour l'estimation.
Les vérifications prédictives postérieures sont utiles pour évaluer si votre modèle vous donne des prédictions «valides» sur la réalité - correspondent-elles ou non aux données observées? C'est une phase utile de construction et de vérification de modèles. Il ne vous donne pas une réponse définitive sur si votre modèle est "ok" ou s'il est "meilleur" qu'un autre modèle, cependant, il peut vous aider à vérifier si votre modèle a du sens.
Ceci est bien décrit dans LaplacesDemon vignette Inférence Bayésienne :
yreprésentanty
Les contrôles prédictifs postérieurs (via la distribution prédictive) impliquent une double utilisation des données, ce qui viole le principe de vraisemblance. Cependant, des arguments ont été avancés en faveur des vérifications prédictives postérieures, à condition que l'utilisation soit limitée aux mesures de l'écart pour étudier l'adéquation du modèle, et non pour la comparaison et l'inférence du modèle (Meng 1994).
yreprésentantyyyreprésentant