J'ai besoin d'un seul ensemble de données imputées (par exemple, pour créer un mannequin de groupe de pays à partir des données imputées sur le revenu par habitant du pays). R propose des packages de packages pour créer plusieurs données imputées (par exemple Amelia) et combiner les résultats de plusieurs ensembles de données (comme dans MItools). Ma préoccupation est de savoir si je peux faire la moyenne de toutes les données imputées pour obtenir un seul ensemble de données. Si oui, comment puis-je le faire dans R?
r
data-imputation
Amirul Islam
la source
la source
Réponses:
Vous ne pouvez pas faire la moyenne des données. Étant donné que les variables seront les mêmes pour toutes les données imputées, vous devez ajouter chaque donnée imputée. Par exemple, si vous avez 6 variables avec 1000 observations et votre fréquence d'imputation est de 5, alors vous aurez les données finales de 6 variables avec 5000 observations. Vous utilisez la
rbind
fonction pour ajouter les données dans R. Par exemple, si vous avez cinq données imputées (en supposant que vous avez déjà ces données en main), vos données finales seront obtenues commePour plus de détails, voir ici.
Après imputation:
Le coefficient de régression de chaque donnée imputée sera généralement différent; le coefficient est donc obtenu en tant que moyenne des coefficients de toutes les données imputées. Mais, il existe une règle supplémentaire pour l'erreur standard. Voir ici pour plus de détails.
la source
finaldata <- complete(data, "long")
dans [souris] [1] fait de même. Il peut également produire d'autres formes, par exemple une matrice large ou une matrice répétée. [1]: cran.r-project.org/web/packages/mice/index.html "souris"mice
encore utilisé . Je voudrais savoir si l'mice
analyse fait lorsque nous n'avons que plusieurs données imputées (mais pas les données originales) provenant de l'enquête.Les modèles d'imputation multiples pour les données manquantes sont rarement utilisés dans la pratique, car les études de simulation suggèrent que les chances des vrais paramètres sous-jacents situés dans les intervalles de couverture ne sont pas toujours représentées avec précision. Je recommanderais fortement un test du processus basé sur des données simulées (avec des paramètres connus avec précision), basées sur des données réelles dans le domaine d'investigation. Une référence à l'étude de simulation https://www.google.com/url?sa=t&source=web&rct=j&ei=Ua4BVJgD5MiwBMKggKgP&url=http://www.ssc.upenn.edu/~allison/MultInt99.pdf&cd=13&ved=0CCEQFjACOAo&usg=AFQjCNF1Rg6SbFPwLv5n3jYIVNA_iTMPCg&sig2 = d2VORWbqTNygdM6Z51TZEg
Je soupçonne que l'utilisation de cinq modèles simples / naïfs pour les données manquantes pourrait être meilleure pour produire moins de biais et des intervalles de couverture qui incluent avec précision les vrais paramètres sous-jacents. Plutôt que de regrouper les estimations des paramètres, on peut faire mieux en utilisant des techniques bayésiennes (voir le travail avec les modèles d'imputation dans cette optique à https://www.google.com/url?sa=t&source=web&rct=j&ei=mqcAVP7RA5HoggSop4LoDw&url=http: //gking.harvard.edu/files/gking/files/measure.pdf&cd=5&ved=0CCUQFjAE&usg=AFQjCNFCZQwfWJDrrjzu4_5syV44vGOncA&sig2=XZUM14OMq_A01FyN4r61Zw ).
Oui, ce n'est pas vraiment une approbation retentissante des modèles standard d'imputation des données manquantes et pour citer une source, par exemple, http://m.circoutcome.ahajournals.org/content/3/1/98.short?rss=1&ssource=mfr : "Nous décrivons certains antécédents d'analyse de données manquantes et critiquons les méthodes ad hoc qui sont sujettes à de graves problèmes. Nous nous concentrons ensuite sur l'imputation multiple, dans laquelle les cas manquants sont d'abord remplis par plusieurs ensembles de valeurs plausibles pour créer plusieurs ensembles de données terminés. .. "où j'insérerais" (?) "après plausible car les modèles naïfs, pour une, ne sont généralement pas mieux décrits comme produisant des prédictions plausibles. Cependant, les modèles incorporant la variable dépendante y, elle-même, en tant que variable indépendante (appelée régression d'étalonnage) pourraient mieux répondre à cette caractérisation.
la source