La logique de l'imputation multiple (MI) consiste à imputer les valeurs manquantes non pas une fois mais plusieurs (généralement M = 5), ce qui donne M ensembles de données terminés. Les M ensembles de données complétés sont ensuite analysés avec des méthodes de données complètes sur lesquelles les estimations M et leurs erreurs standard sont combinées en utilisant les formules de Rubin pour obtenir l'estimation "globale" et son erreur standard.
Génial jusqu'à présent, mais je ne sais pas comment appliquer cette recette lorsque des composants de variance d'un modèle à effets mixtes sont concernés. La distribution d'échantillonnage d'une composante de variance est asymétrique - par conséquent, l'intervalle de confiance correspondant ne peut pas être donné sous la forme typique "estimation ± 1,96 * se (estimation)". Pour cette raison, les packages R lme4 et nlme ne fournissent même pas les erreurs standard des composants de variance, mais fournissent uniquement des intervalles de confiance.
Nous pouvons donc effectuer l'IM sur un ensemble de données puis obtenir M intervalles de confiance par composante de variance après avoir ajusté le même modèle à effets mixtes sur les M ensembles de données terminés. La question est de savoir comment combiner ces intervalles M en un seul intervalle de confiance "global".
Je suppose que cela devrait être possible - les auteurs d'un article (yucel & demirtas (2010) Impact of random random effects on inference by MI) semblent l'avoir fait, mais ils n'expliquent pas exactement comment.
Tous les conseils seraient bien obligés!
À la vôtre, Rok
Réponses:
C'est une excellente question! Pas sûr que ce soit une réponse complète, cependant, je laisse tomber ces quelques lignes au cas où cela aiderait.
Il semble que Yucel et Demirtas (2010) se réfèrent à un article plus ancien publié dans le JCGS, Stratégies de calcul pour les modèles à effets mixtes linéaires multivariés avec des valeurs manquantes , qui utilise une approche hybride EM / Fisher pour produire des estimations basées sur la vraisemblance des CV . Il a été implémenté dans le package R mlmmm . Je ne sais pas, cependant, si cela produit des CI.
Sinon, je vérifierais certainement le programme WinBUGS , qui est largement utilisé pour les modèles à plusieurs niveaux, y compris ceux avec des données manquantes. Je semble me souvenir que cela ne fonctionnera que si votre MV est dans la variable de réponse, pas dans les covariables car nous devons généralement spécifier les distributions conditionnelles complètes (si MV sont présentes dans les variables indépendantes, cela signifie que nous devons donner un avant les X manquants, et qui sera considéré comme un paramètre à estimer par WinBUGS ...). Il semble également s'appliquer à R, si je me réfère au fil suivant sur r-sig-mixed, les données manquantes dans lme, lmer, PROC MIXED . En outre, il peut être utile de regarder le logiciel MLwiN .
la source
Commentaire répété d'en haut:
je ne suis pas sûr qu'une solution analytique appropriée à ce problème existe même. J'ai regardé de la littérature supplémentaire, mais ce problème est élégamment ignoré partout. J'ai également remarqué que Yucel & Demirtas (dans l'article que j'ai mentionné, page 798) écrivent:
Il semble qu'ils aient utilisé une sorte de raccourci pour estimer l'ES de la composante de variance (ce qui est, bien sûr, inapproprié, car l'IC est asymétrique), puis ont appliqué la formule classique.
la source
Avertissement: Cette idée pourrait être stupide et je ne vais pas prétendre comprendre les implications théoriques de ce que je propose.
" Suggestion " : Pourquoi ne pas simplement imputer 100 jeux de données (je sais que vous en faites normalement 5), exécuter le lme4 ou nmle, obtenir les intervalles de confiance (vous en avez 100) et ensuite:
En utilisant une petite largeur d'intervalle (disons plage / 1000 ou quelque chose), testez la plage de valeurs possibles de chaque paramètre et n'incluez que les petits intervalles qui apparaissent dans au moins 95 des 100 CI. Vous auriez alors une "moyenne" de Monte Carlo de vos intervalles de confiance.
Je suis sûr qu'il y a des problèmes (ou peut-être des problèmes théoriques) avec cette approche. Par exemple, vous pourriez vous retrouver avec un ensemble d' intervalles disjoints . Cela peut ou non être une mauvaise chose selon votre domaine. Notez que cela n'est possible que si vous avez au moins deux intervalles de confiance totalement non chevauchants qui sont séparés par une région avec une couverture inférieure à 95%.
Vous pourriez également envisager quelque chose de plus proche du traitement bayésien des données manquantes pour obtenir une région crédible postérieure qui serait certainement mieux formée et plus théoriquement supportée que ma suggestion ad hoc.
la source