La méthode de substitution moyenne pour remplacer les données manquantes est-elle obsolète? Y a-t-il des modèles plus sophistiqués à utiliser? Si c'est vrai, que sont-ils?
missing-data
Melissa Duncombe
la source
la source
What is MI
donne une liste de diverses ressources.Réponses:
Sauf qu'il n'est pas nécessaire de tirer sur les moustiques avec un canon (c'est-à-dire si vous avez une valeur manquante dans un million de points de données, laissez-la tomber), l'utilisation de la moyenne pourrait être pour le moins sous-optimale: le résultat peut être biaisé, et vous devez au moins corriger le résultat pour l'incertitude.
Il existe d'autres options, mais la plus simple à expliquer est l'imputation multiple. Le concept est simple: basé sur un modèle pour vos données elles-mêmes (par exemple, obtenu à partir des cas complets, bien que d'autres options soient disponibles, comme MICE), tirez des valeurs de la distribution associée pour `` compléter '' votre ensemble de données. Ensuite, dans cet ensemble de données terminé, vous n'avez plus de données manquantes et vous pouvez exécuter votre analyse d'intérêt.
Si vous ne faisiez cela qu'une seule fois (en fait, remplacer les valeurs manquantes par la moyenne en est une forme très tordue), cela s'appellerait une imputation unique, et il n'y a aucune raison pour que cela fonctionne mieux qu'un remplacement moyen.
Cependant: l'astuce consiste à le faire à plusieurs reprises (d'où l'imputation multiple), et à chaque fois faire votre analyse sur chaque ensemble de données complété (= imputé). Le résultat est généralement un ensemble d'estimations de paramètres ou similaire pour chaque ensemble de données complété. Dans des conditions relativement lâches, il est acceptable de faire la moyenne de vos estimations de paramètres sur tous ces ensembles de données imputés.
L'avantage est qu'il existe également une formule simple pour ajuster l'erreur standard à l'incertitude causée par les données manquantes.
Si vous voulez en savoir plus, vous voudrez probablement lire «L'analyse statistique avec des données manquantes» de Little et Rubin. Cela contient également d'autres méthodes (EM, ...) et plus d'explications sur comment / pourquoi / quand elles fonctionnent.
la source
Vous ne nous avez pas beaucoup parlé de la nature de vos données manquantes. Avez-vous vérifié MCAR ( manquant complètement au hasard )? Étant donné que vous ne pouvez pas supposer MCAR, la substitution moyenne peut conduire à des estimateurs biaisés.
En tant que point de départ non mathématique, je peux recommander les deux références suivantes:
la source
Si vos valeurs manquantes sont distribuées de façon aléatoire, ou si la taille de votre échantillon est petite, vous feriez mieux d'utiliser la moyenne. Je diviserais d'abord les données en deux parties: 1 avec les valeurs manquantes et l'autre sans, puis tester la différence de moyenne de certaines variables clés entre les deux échantillons. S'il n'y a pas de différence, vous avez la possibilité de remplacer la moyenne ou de supprimer entièrement les observations.
-Ralph Winters
la source
Les données manquantes sont un gros problème partout. J'aimerais que vous répondiez d'abord à la question suivante. 1) quel pourcentage d'âge des données manque? - si c'est plus de 10% des données que vous ne risquez pas de lui imputer avec moyenne. Parce que l'imputation d'un tel manquant avec la moyenne équivaut à dire à la boîte LR qui ressemble ... cette variable signifie la plupart des endroits (alors tirez une conclusion) et vous ne voulez pas que la boîte LR tire des conclusions sur vos suggestions. Maintenant, le moins que vous puissiez faire si vous ne voulez pas grand-chose est d'essayer de relier les valeurs disponibles de ces variables avec différentes valeurs des prédicteurs ou d'utiliser un sens commercial dans la mesure du possible .. par exemple ... si j'ai un manquant pour marriage_ind, l'un des les moyens pourraient être de voir l'âge médian des personnes mariées, (disons qu'il se révèle être 29), Je peux supposer qu'en général les gens (en Inde) se marient à 30 et 29 ans le suggèrent. PROC MI fait aussi quelque chose en interne pour vous mais d'une manière beaucoup plus sophistiquée .. donc mes 2 cents..voyez au moins 4-5 variables qui sont liées à vos manquements et essayez de former une corrélation..Cela peut être mieux que la moyenne.
la source