Je me demandais si quelqu'un avait de l'expérience avec la fonction souris, comme décrit dans Souris: Imputation multivariée par équations chaînées dans R (JSS 2011 45 (3))? J'ai un ensemble de données avec un certain nombre de variables, chacune avec différents degrés de données manquantes.
Ma question principale est: disons que j'utilise la régression linéaire bayésienne pour imputer les données manquantes, mice
utilise- t-il automatiquement les variables prédictives de la plus significative à la moins significative pour imputer? Est-il également courant de faire la moyenne de tous les ensembles de données imputés?
r
regression
bayesian
data-imputation
mice
mjburns
la source
la source
Réponses:
Par défaut, les souris utiliseront toutes les variables de votre jeu de données pour en prédire une autre.
En ce qui concerne la moyenne, vous devez le faire après avoir calculé vos statistiques, pas avant. Par exemple, si vous voulez faire une régression linéaire, vous feriez quelque chose comme ceci:
La fonction de résumé vous montrera les coefficients moyens.
la source