Comment combiner plusieurs jeux de données imputés?

8

J'ai besoin d'un seul ensemble de données imputées (par exemple, pour créer un mannequin de groupe de pays à partir des données imputées sur le revenu par habitant du pays). R propose des packages de packages pour créer plusieurs données imputées (par exemple Amelia) et combiner les résultats de plusieurs ensembles de données (comme dans MItools). Ma préoccupation est de savoir si je peux faire la moyenne de toutes les données imputées pour obtenir un seul ensemble de données. Si oui, comment puis-je le faire dans R?

Amirul Islam
la source
5
La moyenne des données est mauvaise car elle gonfle les corrélations. La vraie question est de savoir pourquoi vous pensez avoir besoin d'un seul ensemble de données imputées. Tout ce que vous pouvez faire avec un seul ensemble de données, vous pouvez le faire avec un ensemble de données à imputations multiples.
Stef van Buuren
@Stef: Est-ce aussi le cas si l'on veut calculer l'effet marginal en cas de modèle de sélection comme le modèle Heckit?. Je peux calculer l'effet marginal sur chaque donnée imputée; mais la question est de savoir si la théorie a quelque chose à dire sur la façon de les combiner. Merci.
Mesures
1
Juste piscine! Aucune théorie ne nous permet de le faire. Mais aucune théorie ne l'interdit non plus.
Stef van Buuren
@Stef, dans mice :: pool, il est spécifié que l'objet doit être with.mids () ou as.mira (). Les modèles d'apprentissage automatique peuvent-ils être utilisés à la place des méthodes de régression?
KarthikS

Réponses:

5

Vous ne pouvez pas faire la moyenne des données. Étant donné que les variables seront les mêmes pour toutes les données imputées, vous devez ajouter chaque donnée imputée. Par exemple, si vous avez 6 variables avec 1000 observations et votre fréquence d'imputation est de 5, alors vous aurez les données finales de 6 variables avec 5000 observations. Vous utilisez la rbindfonction pour ajouter les données dans R. Par exemple, si vous avez cinq données imputées (en supposant que vous avez déjà ces données en main), vos données finales seront obtenues comme

finaldata <- rbind(data1,data2,data3,data4,data5)

Pour plus de détails, voir ici.

Après imputation:

Le coefficient de régression de chaque donnée imputée sera généralement différent; le coefficient est donc obtenu en tant que moyenne des coefficients de toutes les données imputées. Mais, il existe une règle supplémentaire pour l'erreur standard. Voir ici pour plus de détails.

Métrique
la source
4
L'instruction finaldata <- complete(data, "long")dans [souris] [1] fait de même. Il peut également produire d'autres formes, par exemple une matrice large ou une matrice répétée. [1]: cran.r-project.org/web/packages/mice/index.html "souris"
Stef van Buuren
@Stef: Merci. Je ne l'ai pas miceencore utilisé . Je voudrais savoir si l' miceanalyse fait lorsque nous n'avons que plusieurs données imputées (mais pas les données originales) provenant de l'enquête.
Mesures
1
Oui, vous pouvez, mais vous devez transformer les données multipliées par imputation en un objet médian afin d'utiliser les fonctions standard de post-imputation de souris pour des analyses, diagnostics et regroupements répétés. La prochaine version de souris (2.18) inclura une fonction as.mids qui fait cela, mais elle nécessite la présence des données d'origine. Il ne traitera pas (encore) le cas où nous ne savons pas où se trouvent les données manquantes.
Stef van Buuren
Merci. Donc, je ne peux toujours pas utiliser, par exemple, où je n'ai que l'ensemble de données imputées multiples comme dans Survey of consumer Finance .
Mesures
3
Si vous ne savez pas où se trouvent les données manquantes, vous devrez les recalculer à partir des données imputées. Cela classera de manière incorrecte les points observés si, par hasard, toutes les imputations pour cette cellule sont identiques dans les m ensembles de données. En conséquence, les diagnostics peuvent étiqueter incorrectement les points imputés comme des points observés (dans la terminologie des souris: certains points rouges sont incorrectement tracés comme des points bleus). Cependant, cela n'affecte pas la validité des inférences statistiques. Donc, avec un effort supplémentaire, vous pouvez.
Stef van Buuren
-1

Les modèles d'imputation multiples pour les données manquantes sont rarement utilisés dans la pratique, car les études de simulation suggèrent que les chances des vrais paramètres sous-jacents situés dans les intervalles de couverture ne sont pas toujours représentées avec précision. Je recommanderais fortement un test du processus basé sur des données simulées (avec des paramètres connus avec précision), basées sur des données réelles dans le domaine d'investigation. Une référence à l'étude de simulation https://www.google.com/url?sa=t&source=web&rct=j&ei=Ua4BVJgD5MiwBMKggKgP&url=http://www.ssc.upenn.edu/~allison/MultInt99.pdf&cd=13&ved=0CCEQFjACOAo&usg=AFQjCNF1Rg6SbFPwLv5n3jYIVNA_iTMPCg&sig2 = d2VORWbqTNygdM6Z51TZEg

Je soupçonne que l'utilisation de cinq modèles simples / naïfs pour les données manquantes pourrait être meilleure pour produire moins de biais et des intervalles de couverture qui incluent avec précision les vrais paramètres sous-jacents. Plutôt que de regrouper les estimations des paramètres, on peut faire mieux en utilisant des techniques bayésiennes (voir le travail avec les modèles d'imputation dans cette optique à https://www.google.com/url?sa=t&source=web&rct=j&ei=mqcAVP7RA5HoggSop4LoDw&url=http: //gking.harvard.edu/files/gking/files/measure.pdf&cd=5&ved=0CCUQFjAE&usg=AFQjCNFCZQwfWJDrrjzu4_5syV44vGOncA&sig2=XZUM14OMq_A01FyN4r61Zw ).

Oui, ce n'est pas vraiment une approbation retentissante des modèles standard d'imputation des données manquantes et pour citer une source, par exemple, http://m.circoutcome.ahajournals.org/content/3/1/98.short?rss=1&ssource=mfr : "Nous décrivons certains antécédents d'analyse de données manquantes et critiquons les méthodes ad hoc qui sont sujettes à de graves problèmes. Nous nous concentrons ensuite sur l'imputation multiple, dans laquelle les cas manquants sont d'abord remplis par plusieurs ensembles de valeurs plausibles pour créer plusieurs ensembles de données terminés. .. "où j'insérerais" (?) "après plausible car les modèles naïfs, pour une, ne sont généralement pas mieux décrits comme produisant des prédictions plausibles. Cependant, les modèles incorporant la variable dépendante y, elle-même, en tant que variable indépendante (appelée régression d'étalonnage) pourraient mieux répondre à cette caractérisation.

AJKOER
la source