Comment fonctionne la fonction d'imputation des souris?

9

Je me demandais si quelqu'un avait de l'expérience avec la fonction souris, comme décrit dans Souris: Imputation multivariée par équations chaînées dans R (JSS 2011 45 (3))? J'ai un ensemble de données avec un certain nombre de variables, chacune avec différents degrés de données manquantes.

Ma question principale est: disons que j'utilise la régression linéaire bayésienne pour imputer les données manquantes, miceutilise- t-il automatiquement les variables prédictives de la plus significative à la moins significative pour imputer? Est-il également courant de faire la moyenne de tous les ensembles de données imputés?

mjburns
la source
Salut à tous. De plus, j'ai depuis réussi à utiliser la fonction souris avec succès. J'ai une autre requête. Supposons par exemple que la fonction crée 5 jeux de données complets (X1, X2 ... X5). J'applique la fonction (x) sur chaque jeu de données et elle renvoie Y1, Y2 ... Y5. Pensez-vous qu'il serait correct de signaler la plage Ymin à Ymax? Ou peut-être la moyenne de Y1 à Y5? Quelqu'un a-t-il des réflexions à ce sujet? Merci.
mjburns

Réponses:

8

Par défaut, les souris utiliseront toutes les variables de votre jeu de données pour en prédire une autre.

En ce qui concerne la moyenne, vous devez le faire après avoir calculé vos statistiques, pas avant. Par exemple, si vous voulez faire une régression linéaire, vous feriez quelque chose comme ceci:

library(mice)
mi <- mice(dataset)
mi.reg <- with(data=mi,exp=glm(y~x+z))
mi.reg.pool <- pool(mi.reg)
summary(mi.reg.pool)

La fonction de résumé vous montrera les coefficients moyens.

Dominic Comtois
la source
Merci pour cela - dites-vous que je ne devrais faire la moyenne qu'après avoir vérifié que les statistiques sont "OK"? Aussi - mon ensemble de données contient 6 variables. Comment analyser les statistiques à l'aide d'une régression linéaire? Dois-je vérifier chaque variable séparément? Par exemple, lm (x1 ~ x2 + x3 + x4 + x5 ....)
mjburns
Vous devez faire référence à la vérification des hypothèses? La chose la plus importante à vérifier est les résidus de votre modèle (y compris tous les prédicteurs). Je m'en tiendrai probablement à l'analyse du cas complet pour le faire (avant imputation multiple), mais vous voudrez peut-être demander conseil à un statisticien expérimenté (ce que je ne suis pas).
Dominic Comtois
1
@mjburns: Dans l'exemple de dominic999, la moyenne est celle des coefficients qui résultent de l'ajustement du même modèle linéaire à chacune des multiples versions de l'ensemble de données à imputations multiples. Je ne pense pas qu'il soit logique de faire la moyenne des jeux de données eux-mêmes, car vous perdriez la variabilité (espérons-le justifiée et réaliste) que fournit l'imputation multiple. Les statistiques récapitulatives des résultats regroupés (moyennés) sont sensiblement les mêmes que pour un modèle linéaire régulier (au moins en termes de coefficients eux-mêmes) où vous devez examiner le Pr (> | t |) pour la signification de chacun.
Wayne
Veuillez considérer voter / accepter la réponse si elle a bien fonctionné.
Dominic Comtois
Merci dominic999 et Wayne. Je comprends maintenant ce qui se passe beaucoup plus après avoir suivi vos conseils et joué davantage avec les données.
mjburns