Comment combiner des intervalles de confiance pour une composante de variance d'un modèle à effets mixtes lors de l'utilisation de l'imputation multiple

20

La logique de l'imputation multiple (MI) consiste à imputer les valeurs manquantes non pas une fois mais plusieurs (généralement M = 5), ce qui donne M ensembles de données terminés. Les M ensembles de données complétés sont ensuite analysés avec des méthodes de données complètes sur lesquelles les estimations M et leurs erreurs standard sont combinées en utilisant les formules de Rubin pour obtenir l'estimation "globale" et son erreur standard.

Génial jusqu'à présent, mais je ne sais pas comment appliquer cette recette lorsque des composants de variance d'un modèle à effets mixtes sont concernés. La distribution d'échantillonnage d'une composante de variance est asymétrique - par conséquent, l'intervalle de confiance correspondant ne peut pas être donné sous la forme typique "estimation ± 1,96 * se (estimation)". Pour cette raison, les packages R lme4 et nlme ne fournissent même pas les erreurs standard des composants de variance, mais fournissent uniquement des intervalles de confiance.

Nous pouvons donc effectuer l'IM sur un ensemble de données puis obtenir M intervalles de confiance par composante de variance après avoir ajusté le même modèle à effets mixtes sur les M ensembles de données terminés. La question est de savoir comment combiner ces intervalles M en un seul intervalle de confiance "global".

Je suppose que cela devrait être possible - les auteurs d'un article (yucel & demirtas (2010) Impact of random random effects on inference by MI) semblent l'avoir fait, mais ils n'expliquent pas exactement comment.

Tous les conseils seraient bien obligés!

À la vôtre, Rok

Rok
la source
Une question très intéressante. J'ai hâte d'entendre vos résultats, si vous voulez les partager ...
chl
@chl: Je peux vous envoyer les tableaux avec les résultats quand j'aurai fini, mais je n'inventerai vraiment rien de nouveau. Jusqu'à présent, je prévois simplement de comparer MI sous un modèle d'imputation à deux niveaux (pan de package R) à MI sous un modèle normal simple (en ignorant la structure à deux niveaux, la norme de package R) et la suppression par liste. Sous différentes tailles d'échantillon, les valeurs de la composante de variance, etc. Cela devrait être suffisant pour le séminaire (je suis doctorant), mais pas exactement révolutionnaire. Si vous avez des idées sur la façon de "dynamiser" l'étude de simulation, j'aimerais beaucoup entendre.
Rok
1
Une autre chose: je ne suis pas sûr qu'une solution analytique appropriée à ce problème existe même. J'ai regardé de la documentation supplémentaire, mais ce problème est élégamment examiné partout. J'ai également remarqué que yucel & demirtas (dans l'article que j'ai mentionné, page 798) écrivent: «Ces ensembles de données imputées à plusieurs reprises ont été utilisés pour estimer le modèle […] en utilisant le package R lme4 conduisant à 10 ensembles de (beta, se (beta) ), (sigma_b, se (sigma_b)) qui ont ensuite été combinés en utilisant les règles de combinaison MI définies par Rubin. »
Rok
Il semble qu'ils aient utilisé une sorte de raccourci pour estimer l'ES de la composante de variance (ce qui est, bien sûr, inapproprié, car l'IC est asymétrique), puis ont appliqué la formule classique.
Rok
Ok, merci pour ça. Pouvez-vous mettre vos commentaires dans une réponse afin qu'elle puisse être votée?
chl

Réponses:

8

C'est une excellente question! Pas sûr que ce soit une réponse complète, cependant, je laisse tomber ces quelques lignes au cas où cela aiderait.

Il semble que Yucel et Demirtas (2010) se réfèrent à un article plus ancien publié dans le JCGS, Stratégies de calcul pour les modèles à effets mixtes linéaires multivariés avec des valeurs manquantes , qui utilise une approche hybride EM / Fisher pour produire des estimations basées sur la vraisemblance des CV . Il a été implémenté dans le package R mlmmm . Je ne sais pas, cependant, si cela produit des CI.

Sinon, je vérifierais certainement le programme WinBUGS , qui est largement utilisé pour les modèles à plusieurs niveaux, y compris ceux avec des données manquantes. Je semble me souvenir que cela ne fonctionnera que si votre MV est dans la variable de réponse, pas dans les covariables car nous devons généralement spécifier les distributions conditionnelles complètes (si MV sont présentes dans les variables indépendantes, cela signifie que nous devons donner un avant les X manquants, et qui sera considéré comme un paramètre à estimer par WinBUGS ...). Il semble également s'appliquer à R, si je me réfère au fil suivant sur r-sig-mixed, les données manquantes dans lme, lmer, PROC MIXED . En outre, il peut être utile de regarder le logiciel MLwiN .

chl
la source
Merci beaucoup pour votre réponse! En principe, je suis également intéressé par la façon de résoudre un problème concret comme celui que j'ai décrit (donc merci pour la astuce WinBUGS). Mais en ce moment, j'essaie de faire une étude de simulation pour un document de séminaire dans lequel j'examinerais les performances (taux de couverture, etc.) de l'IM sous spécification incorrecte du modèle. Je suppose que je vais juste oublier les composants de la variance si je ne trouve pas de solution et me concentrer sur les effets fixes, mais c'est frustrant d'abandonner.
Rok
@Rok Excellente idée pour la simulation! Je me réjouis de cette question particulière. Je suppose que vous recherchez déjà sur le mailing r-sig-mixed et le livre de Gelman sur la régression à plusieurs niveaux ...
chl
J'ai regardé maintenant, des tanks pour les références! Malheureusement, il n'y a rien sur MI dans les archives mixtes r-sig; et Gelman ne donne la formule de base sur la façon de combiner les inférences de l'IM que lorsque nous avons des variations à l'intérieur et entre les imputations données (§25.7).
Rok
6

Commentaire répété d'en haut:

je ne suis pas sûr qu'une solution analytique appropriée à ce problème existe même. J'ai regardé de la littérature supplémentaire, mais ce problème est élégamment ignoré partout. J'ai également remarqué que Yucel & Demirtas (dans l'article que j'ai mentionné, page 798) écrivent:

Ces ensembles de données à imputations multiples ont été utilisés pour estimer le modèle […] à l'aide du package R lme4conduisant à 10 ensembles de (beta, se (beta)), (sigma_b, se (sigma_b)) qui ont ensuite été combinés à l'aide des règles de combinaison MI définies par Insister sur.

Il semble qu'ils aient utilisé une sorte de raccourci pour estimer l'ES de la composante de variance (ce qui est, bien sûr, inapproprié, car l'IC est asymétrique), puis ont appliqué la formule classique.

Rok
la source
J'apprécie que vous soyez revenu pour partager votre expérience avec ce problème. Malheureusement, je n'ai pas de vraie solution mais peut-être d'autres suggestions viendront.
chl
"Élégamment négligé" ... c'est une expression utile pour passer en revue la littérature si jamais j'en ai entendu une.
Matt Parker
3

Avertissement: Cette idée pourrait être stupide et je ne vais pas prétendre comprendre les implications théoriques de ce que je propose.

" Suggestion " : Pourquoi ne pas simplement imputer 100 jeux de données (je sais que vous en faites normalement 5), exécuter le lme4 ou nmle, obtenir les intervalles de confiance (vous en avez 100) et ensuite:

En utilisant une petite largeur d'intervalle (disons plage / 1000 ou quelque chose), testez la plage de valeurs possibles de chaque paramètre et n'incluez que les petits intervalles qui apparaissent dans au moins 95 des 100 CI. Vous auriez alors une "moyenne" de Monte Carlo de vos intervalles de confiance.

Je suis sûr qu'il y a des problèmes (ou peut-être des problèmes théoriques) avec cette approche. Par exemple, vous pourriez vous retrouver avec un ensemble d' intervalles disjoints . Cela peut ou non être une mauvaise chose selon votre domaine. Notez que cela n'est possible que si vous avez au moins deux intervalles de confiance totalement non chevauchants qui sont séparés par une région avec une couverture inférieure à 95%.

Vous pourriez également envisager quelque chose de plus proche du traitement bayésien des données manquantes pour obtenir une région crédible postérieure qui serait certainement mieux formée et plus théoriquement supportée que ma suggestion ad hoc.

M. Tibbits
la source