Valeurs manquantes dans la variable de réponse dans JAGS

10

Gelman & Hill (2006) disent:

Dans Bugs, les résultats manquants dans une régression peuvent être facilement gérés en incluant simplement le vecteur de données, les NA et tout. Les bogues modélisent explicitement la variable de résultat, et il est donc trivial d'utiliser ce modèle pour, en e ff et, imputer les valeurs manquantes à chaque itération.

Cela semble être un moyen facile d'utiliser JAGS pour faire des prédictions. Mais les observations avec les résultats manquants affectent-elles également les estimations des paramètres? Dans l'affirmative, existe-t-il un moyen facile de conserver ces observations dans l'ensemble de données que JAGS voit, mais de ne pas les affecter sur les estimations des paramètres? Je pensais à la fonction de coupe, mais elle n'est disponible que dans BUGS, pas dans JAGS.

Jack Tanner
la source

Réponses:

11

Oui, c'est vraiment facile à utiliser dans BUGS ou JAGS! C'est en fait un plaisir de l'utiliser!

Mais les observations avec les résultats manquants affectent-elles également les estimations des paramètres?

Bien sûr que non. Les paramètres ne sont affectés que par les résultats observés. Les résultats manquants (NA) n'affecteront rien, en fait c'est l'inverse: les résultats manquants seront dérivés des paramètres. Notez que les résultats manquants auront également leur distribution postérieure. Ensuite, il est très facile de calculer certaines quantités dérivées, par exemple comme une somme sur les indices du résultat, et ces quantités dérivées sont non seulement gérées pour les valeurs manquantes, mais ont également immédiatement leur distribution postérieure. C'est ce qui est si sexy sur BUGS & JAGS!

S'amuser!

Curieuse
la source
1
Désolé, je ne suis pas convaincu que les résultats manquants n'affectent pas les estimations des paramètres. Jackman semble dire le contraire: jackman.stanford.edu/blog/?p=38
Jack Tanner
@JackTanner, réfléchis un peu. Comment la valeur manquante peut-elle affecter quelque chose? Lorsque l'algorithme démarre, la valeur manquante commence à être imputée à partir des estimations des paramètres (celles-ci sont dérivées des résultats observés). Ensuite (peut-être, je ne suis pas sûr), les informations du résultat manquant imputé peuvent rebondir sur les paramètres, mais cela n'a pas d'importance - ce sont juste les informations d'origine, présentes dans les paramètres, qui leur sont renvoyées. Les informations réelles qui affectent quelque chose proviennent uniquement des résultats réels. Si vous ne me faites pas confiance, faites une simulation, comparez les résultats et postez ici.
Curieux
Concernant votre lien, il n'en est apparemment pas sûr, il dit "problème" - entre guillemets, et il dit "il serait intéressant de le comparer". Je dis qu'il n'y aura pas de différence significative. Si vous voulez le tester, allez-y.
Curieux
3
Je suis d'accord; aucune différence significative. J'utilise cette approche pour construire des distributions prédictives postérieures; il suffit de mettre les valeurs prédictives des variables de droite avec les valeurs passées, et les NA pour la variable cible "observations" correspondant aux valeurs prédictives.
jbowman
@jbowman, oui, bonne note! Ce n'est pas une idée évidente de faire des prédictions de cette façon!
Curieux