Imputation multiple et sélection de modèle

21

L'imputation multiple est assez simple lorsque vous disposez d' un modèle linéaire a priori que vous souhaitez estimer. Cependant, les choses semblent être un peu plus délicates lorsque vous voulez réellement faire une sélection de modèle (par exemple trouver le "meilleur" ensemble de variables prédictives à partir d'un ensemble plus large de variables candidates - je pense spécifiquement à LASSO et aux polynômes fractionnaires utilisant R).

Une idée serait d'ajuster le modèle dans les données d'origine avec des valeurs manquantes, puis de réestimer ce modèle dans les ensembles de données MI et de combiner les estimations comme vous le feriez normalement. Cependant, cela semble problématique dans la mesure où vous vous attendez à un biais (ou bien pourquoi le MI en premier lieu?), Ce qui pourrait conduire à sélectionner un "mauvais" modèle dès le départ.

Une autre idée serait de passer par le processus de sélection de modèle que vous utilisez dans chaque ensemble de données MI - mais comment combineriez-vous ensuite les résultats s'ils incluent différents ensembles de variables?

J'ai pensé que je devais empiler un ensemble d'ensembles de données MI et les analyser comme un seul grand ensemble de données que vous utiliseriez ensuite pour adapter un seul et "meilleur" modèle, et inclure un effet aléatoire pour tenir compte du fait que vous utilisez des mesures répétées pour chaque observation.

Cela vous semble-t-il raisonnable? Ou peut-être incroyablement naïf? Tout pointeur sur cette question (sélection de modèle avec imputation multiple) serait grandement apprécié.

DL Dahly
la source
2
Veuillez modifier ce message pour changer "ajustement du modèle" en "sélection du modèle". Il serait également utile de discuter de la méthode que vous utilisez. Par exemple, si une sélection de modèle pas à pas basée sur des valeurs de p est utilisée, l'empilement des données imputées n'est absolument PAS autorisé. Vous pouvez dessiner des rééchantillons bootstrap de vos données, y compris les données manquantes appliquer MI et le processus de sélection de modèle suivant et calculer une "valeur p" exacte pour le modèle sélectionné.
AdamO
Dans votre deuxième paragraphe, pourquoi pensez-vous que cette méthode passe à côté de l'imputation multiple? De plus, quel logiciel utilisez-vous?
Peter Flom - Réintègre Monica

Réponses:

10

Il y a beaucoup de choses que vous pourriez faire pour sélectionner des variables à partir de données imputées multipliées, mais toutes ne donnent pas des estimations appropriées. Voir Wood et al (2008) Stat Med pour une comparaison des différentes possibilités.

J'ai trouvé la procédure en deux étapes suivante utile dans la pratique.

  1. Appliquez votre méthode de sélection de variable préférée indépendamment à chacun des ensembles de données imputées. Vous vous retrouverez avec m différents modèles. Pour chaque variable, comptez le nombre de fois qu'elle apparaît dans le modèle. Sélectionnez les variables qui apparaissent dans au moins la moitié des m modèles.mmm
  2. Utilisez la valeur de p de la statistique de Wald ou du test du rapport de vraisemblance calculé à partir des ensembles de données à imputations multiples comme critère pour une sélection ultérieure du modèle par étapes.m

L'étape de présélection 1 est incluse pour réduire la quantité de calcul. Voir http://www.stefvanbuuren.nl/mi/FIMDmaterials/src/fimd6.r.txt (section 6.4.2) pour un exemple de code de la méthode en deux étapes dans R using mice(). Dans Stata, vous pouvez effectuer l'étape 2 (sur toutes les variables) avec mim:stepwise.

Stef van Buuren
la source
Stef, veuillez inclure le lien vers la publication Stat Med. J'ai aussi essayé d'embellir un peu votre réponse.
StasK
1
La routine proposée n'a de sens que lorsque vous sélectionnez parmi un ensemble de régresseurs prédéfinis. Mais si je choisis disons une tendance quadratique, des splines B à 5 et 9 nœuds, et peut être un CART, je ne sais pas comment appliquer cette proposition.
StasK
Stas, la procédure suppose que le modèle d'imputation est correct. En particulier, la méthode d'imputation doit capturer de manière adéquate toutes les caractéristiques des données qui pourraient vous intéresser ultérieurement. Donc, si vous souhaitez inclure des termes quadratiques ou des splines B dans votre analyse de données complètes, le modèle d'imputation doit être configuré de telle sorte que ces caractéristiques soient préservées dans les données imputées (Remarque: cela peut en fait être difficile à réaliser , mais c'est un sujet en soi). Étant donné que le modèle d'imputation est correctement spécifié, je dirais que la procédure de sélection en deux étapes s'applique.
Stef van Buuren
Eh bien, fondamentalement, le modèle d'imputation doit être le modèle le plus riche possible. J'ai rencontré des situations où cela ne fonctionne pas tout à fait, comme des prédictions parfaites dans des modèles logistiques sur-paramétrisés.
StasK
D'accord. Vous devrez imputer sous le modèle le plus riche possible. Donc, définissez d'abord les analyses les plus complexes que vous aimeriez faire et adaptez le modèle d'imputation à cela. Cela peut être difficile à réaliser dans la pratique et devient plus difficile à mesure que la complexité du modèle de données complètes augmente. Il n'y a pas de déjeuner gratuit. La prédiction parfaite dans la régression logistique a été résolue de plusieurs manières et n'a pas besoin de présenter une pierre d'achoppement majeure.
Stef van Buuren
4

C'est simple: vous pouvez appliquer des règles de combinaison d'IM standard - mais les effets des variables qui ne sont pas pris en charge dans les ensembles de données imputés seront moins prononcés. Par exemple, si une variable n'est pas sélectionnée dans un ensemble de données imputé spécifique, son estimation (y compris la variance) est nulle et cela doit être reflété dans les estimations utilisées lors de l'utilisation de l'imputation multiple. Vous pouvez envisager de démarrer pour construire des intervalles de confiance afin d'incorporer l'incertitude de sélection du modèle, consultez cette publication récente qui répond à toutes les questions: http://www.sciencedirect.com/science/article/pii/S016794731300073X

J'éviterais d'utiliser des approches pragmatiques telles que la sélection d'une variable si elle est sélectionnée dans des ensembles de données m / 2 ou quelque chose de similaire, car l'inférence n'est pas claire et plus compliquée qu'il n'y paraît à première vue.

Michael
la source
3

J'avais le même problème.

Mon choix s'est porté sur le soi-disant «lasso à imputation multiple». Fondamentalement, il combine tous les ensembles de données imputés et adopte le concept de lasso de groupe: chaque variable candidate générerait m variables fictives. Chaque variable fictive correspond à un ensemble de données imputé.

Ensuite, toutes les m variables fictives sont regroupées. vous pouvez soit supprimer les m variables factices d' une variable candidate dans tous les ensembles de données imputées, soit les conserver dans tous les ensembles de données imputées.

Ainsi, la régression au lasso est en fait ajustée sur tous les jeux de données imputés conjointement.

Vérifiez le papier :

Chen, Q. et Wang, S. (2013). «Sélection variable pour les données à imputations multiples avec application à l'étude d'exposition à la dioxine», Statistics in Medicine, 32: 3646-59.

Et un programme R pertinent

Fan Wang
la source
Je pense que je vous ai envoyé un e-mail à ce sujet il y a quelques années :)
DL Dahly
1

J'ai été confronté à un problème similaire - j'ai un ensemble de données dans lequel je savais depuis le début que je voulais inclure toutes les variables (j'étais plus intéressé par les coefficients que par la prédiction), mais je ne connaissais pas de a priori quelles interactions doivent être spécifiées.

Mon approche consistait à rédiger un ensemble de modèles candidats, à effectuer plusieurs imputations, à estimer les multiples modèles et à simplement enregistrer et faire la moyenne des AIC de chaque modèle. La spécification du modèle avec la moyenne des AIC la plus basse a été sélectionnée.

J'ai pensé à ajouter une correction dans laquelle je pénalise la variance entre imputations en AIC. À la réflexion cependant, cela semblait inutile.

L'approche m'a semblé assez simple, mais je l'ai inventée moi-même, et je ne suis pas un statisticien célèbre. Avant de l'utiliser, vous souhaiterez peut-être attendre que les gens me corrigent (ce qui serait le bienvenu!) Ou votent pour cette réponse.

utilisateur_générique
la source
Merci pour la réponse. Malheureusement, ce qui m'intéresse vraiment, c'est d'utiliser des méthodes de sélection de modèles plus automatisées / exploratoires qui ne se prêtent pas à la sélection préalable d'un ensemble raisonnable de modèles candidats.
DL Dahly