L'imputation multiple est assez simple lorsque vous disposez d' un modèle linéaire a priori que vous souhaitez estimer. Cependant, les choses semblent être un peu plus délicates lorsque vous voulez réellement faire une sélection de modèle (par exemple trouver le "meilleur" ensemble de variables prédictives à partir d'un ensemble plus large de variables candidates - je pense spécifiquement à LASSO et aux polynômes fractionnaires utilisant R).
Une idée serait d'ajuster le modèle dans les données d'origine avec des valeurs manquantes, puis de réestimer ce modèle dans les ensembles de données MI et de combiner les estimations comme vous le feriez normalement. Cependant, cela semble problématique dans la mesure où vous vous attendez à un biais (ou bien pourquoi le MI en premier lieu?), Ce qui pourrait conduire à sélectionner un "mauvais" modèle dès le départ.
Une autre idée serait de passer par le processus de sélection de modèle que vous utilisez dans chaque ensemble de données MI - mais comment combineriez-vous ensuite les résultats s'ils incluent différents ensembles de variables?
J'ai pensé que je devais empiler un ensemble d'ensembles de données MI et les analyser comme un seul grand ensemble de données que vous utiliseriez ensuite pour adapter un seul et "meilleur" modèle, et inclure un effet aléatoire pour tenir compte du fait que vous utilisez des mesures répétées pour chaque observation.
Cela vous semble-t-il raisonnable? Ou peut-être incroyablement naïf? Tout pointeur sur cette question (sélection de modèle avec imputation multiple) serait grandement apprécié.
Réponses:
Il y a beaucoup de choses que vous pourriez faire pour sélectionner des variables à partir de données imputées multipliées, mais toutes ne donnent pas des estimations appropriées. Voir Wood et al (2008) Stat Med pour une comparaison des différentes possibilités.
J'ai trouvé la procédure en deux étapes suivante utile dans la pratique.
L'étape de présélection 1 est incluse pour réduire la quantité de calcul. Voir http://www.stefvanbuuren.nl/mi/FIMDmaterials/src/fimd6.r.txt (section 6.4.2) pour un exemple de code de la méthode en deux étapes dans R using
mice()
. Dans Stata, vous pouvez effectuer l'étape 2 (sur toutes les variables) avecmim:stepwise
.la source
C'est simple: vous pouvez appliquer des règles de combinaison d'IM standard - mais les effets des variables qui ne sont pas pris en charge dans les ensembles de données imputés seront moins prononcés. Par exemple, si une variable n'est pas sélectionnée dans un ensemble de données imputé spécifique, son estimation (y compris la variance) est nulle et cela doit être reflété dans les estimations utilisées lors de l'utilisation de l'imputation multiple. Vous pouvez envisager de démarrer pour construire des intervalles de confiance afin d'incorporer l'incertitude de sélection du modèle, consultez cette publication récente qui répond à toutes les questions: http://www.sciencedirect.com/science/article/pii/S016794731300073X
J'éviterais d'utiliser des approches pragmatiques telles que la sélection d'une variable si elle est sélectionnée dans des ensembles de données m / 2 ou quelque chose de similaire, car l'inférence n'est pas claire et plus compliquée qu'il n'y paraît à première vue.
la source
J'avais le même problème.
Mon choix s'est porté sur le soi-disant «lasso à imputation multiple». Fondamentalement, il combine tous les ensembles de données imputés et adopte le concept de lasso de groupe: chaque variable candidate générerait m variables fictives. Chaque variable fictive correspond à un ensemble de données imputé.
Ensuite, toutes les m variables fictives sont regroupées. vous pouvez soit supprimer les m variables factices d' une variable candidate dans tous les ensembles de données imputées, soit les conserver dans tous les ensembles de données imputées.
Ainsi, la régression au lasso est en fait ajustée sur tous les jeux de données imputés conjointement.
Vérifiez le papier :
Chen, Q. et Wang, S. (2013). «Sélection variable pour les données à imputations multiples avec application à l'étude d'exposition à la dioxine», Statistics in Medicine, 32: 3646-59.
Et un programme R pertinent
la source
J'ai été confronté à un problème similaire - j'ai un ensemble de données dans lequel je savais depuis le début que je voulais inclure toutes les variables (j'étais plus intéressé par les coefficients que par la prédiction), mais je ne connaissais pas de a priori quelles interactions doivent être spécifiées.
Mon approche consistait à rédiger un ensemble de modèles candidats, à effectuer plusieurs imputations, à estimer les multiples modèles et à simplement enregistrer et faire la moyenne des AIC de chaque modèle. La spécification du modèle avec la moyenne des AIC la plus basse a été sélectionnée.
J'ai pensé à ajouter une correction dans laquelle je pénalise la variance entre imputations en AIC. À la réflexion cependant, cela semblait inutile.
L'approche m'a semblé assez simple, mais je l'ai inventée moi-même, et je ne suis pas un statisticien célèbre. Avant de l'utiliser, vous souhaiterez peut-être attendre que les gens me corrigent (ce qui serait le bienvenu!) Ou votent pour cette réponse.
la source