Comment mettre en commun les moyennes postérieures et les intervalles crédibles après imputation multiple?

20

J'ai utilisé l'imputation multiple pour obtenir un certain nombre de jeux de données terminés.

J'ai utilisé des méthodes bayésiennes sur chacun des ensembles de données terminés pour obtenir des distributions postérieures pour un paramètre (un effet aléatoire).

Comment puis-je combiner / regrouper les résultats de ce paramètre?


Plus de contexte:

Mon modèle est hiérarchique dans le sens d'élèves individuels (une observation par élève) regroupés dans les écoles. J'ai effectué plusieurs imputations (en utilisant MICEdans R) sur mes données où j'ai inclus schoolcomme l'un des prédicteurs des données manquantes - pour essayer d'incorporer la hiérarchie des données dans les imputations.

J'ai ajusté un modèle de pente aléatoire simple à chacun des ensembles de données terminés (en utilisant MCMCglmmdans R). Le résultat est binaire.

J'ai trouvé que les densités postérieures de la variance de pente aléatoire sont "bien comportées" dans le sens où elles ressemblent à ceci: entrez la description de l'image ici

Comment puis-je combiner / regrouper les moyennes postérieures et les intervalles crédibles de chaque ensemble de données imputé, pour cet effet aléatoire?


Update1 :

D'après ce que je comprends jusqu'à présent, je pourrais appliquer les règles de Rubin à la moyenne postérieure, pour donner une moyenne postérieure multipliée imputée - y a-t-il des problèmes avec cela? Mais je ne sais pas comment je peux combiner les intervalles crédibles à 95%. De plus, étant donné que j'ai un véritable échantillon de densité postérieure pour chaque imputation - pourrais-je en quelque sorte les combiner?


Update2 :

Selon la suggestion de @ cyan dans les commentaires, j'aime beaucoup l'idée de simplement combiner les échantillons des distributions postérieures obtenues à partir de chaque ensemble de données complet à partir de l'imputation multiple. Cependant, je voudrais connaître la justification théorique de cette démarche.

Joe King
la source
Si l'absence d'une donnée donnée est indépendante de la valeur de résultat associée, il est juste de jeter ensemble tous les échantillons postérieurs des différents ensembles de données imputées et de prendre la moyenne et les intervalles crédibles à 95% des échantillons postérieurs combinés.
Cyan
@Cyan revient-il à dire que le mécanisme de la disparition est "manquant au hasard" ou "manquant complètement au hasard" mais pas "manquant pas au hasard" (les hypothèses habituelles que j'ai apprises pour effectuer un IM)? Connaissez-vous une référence où ce «rapprochement» se justifie formellement?
Joe King
L'imputation multiple EST une procédure bayésienne en son cœur. Si vous utilisez des méthodes bayésiennes d'estimation (MCMC et autres), vous devez simplement lancer la simulation des données manquantes comme étape d'échantillonnage MCMC supplémentaire pour un modèle entièrement bayésien, et ne vous embêtez pas à essayer de trouver une interface entre ces approches.
StasK
@StasK merci pour votre commentaire. J'essaierai d'utiliser cette approche sur mon prochain projet mais malheureusement je n'ai pas le temps de changer de modèle maintenant. J'ai déjà exécuté les imputations et le modèle bayésien sur chaque ensemble de données imputé - cela a pris près de 3 semaines pour fonctionner. Pensez-vous qu'il n'est pas valable pour moi de combiner les échantillons postérieurs?
Joe King
Les règles de Rubin s'appliquent uniquement aux moments. Je ne sais pas si vous pouvez les appliquer à une distribution de manière significative. Peut-être peut-être pas. Il se pourrait bien que le mieux que vous puissiez faire est de dire que l'analyse MCMC a produit les estimations ponctuelles (moyennes postérieures) et les erreurs standard (variances postérieures), puis d'utiliser les règles de Rubin pour obtenir les estimations globales ponctuelles et de variance. Vous savez à quel point les pertes de dfs dans le modèle hiérarchique peuvent être tragiques et combien il est dangereux de regrouper les données: si vous avez 5 ensembles de données complets imputés et 1M d'échantillons MCMC sur chacun, cela signifie que vous avez 5 clusters, et non 5M iid MCMC points.
StasK

Réponses:

4

Avec des postérieurs particulièrement bien comportés qui peuvent être décrits de manière adéquate par une description paramétrique d'une distribution, vous pourriez peut-être simplement prendre la moyenne et la variance qui décrivent le mieux votre postérieur et partir de là. Je soupçonne que cela peut être adéquat dans de nombreuses circonstances où vous n'obtenez pas de distributions postérieures vraiment étranges.

Fomite
la source
0

Si vous utilisez des données, il existe une procédure appelée "mim" qui regroupe les données après imputation à l'aide de modèles à effets mixtes. Je ne sais pas s'il est disponible en R.

Omar
la source
Je vous remercie. Je n'ai peut-être pas bien expliqué - j'ai déjà des échantillons postérieurs, provenant de plusieurs jeux de données imputés, et je veux savoir si je peux simplement les combiner et former un intervalle crédible multiplié imputé?
Joe King