La méthode de substitution moyenne pour remplacer les données manquantes est-elle obsolète?

8

La méthode de substitution moyenne pour remplacer les données manquantes est-elle obsolète? Y a-t-il des modèles plus sophistiqués à utiliser? Si c'est vrai, que sont-ils?

Melissa Duncombe
la source
ce site pourrait répondre à votre question. Le lien What is MIdonne une liste de diverses ressources.
mpiktas

Réponses:

14

Sauf qu'il n'est pas nécessaire de tirer sur les moustiques avec un canon (c'est-à-dire si vous avez une valeur manquante dans un million de points de données, laissez-la tomber), l'utilisation de la moyenne pourrait être pour le moins sous-optimale: le résultat peut être biaisé, et vous devez au moins corriger le résultat pour l'incertitude.

Il existe d'autres options, mais la plus simple à expliquer est l'imputation multiple. Le concept est simple: basé sur un modèle pour vos données elles-mêmes (par exemple, obtenu à partir des cas complets, bien que d'autres options soient disponibles, comme MICE), tirez des valeurs de la distribution associée pour `` compléter '' votre ensemble de données. Ensuite, dans cet ensemble de données terminé, vous n'avez plus de données manquantes et vous pouvez exécuter votre analyse d'intérêt.

Si vous ne faisiez cela qu'une seule fois (en fait, remplacer les valeurs manquantes par la moyenne en est une forme très tordue), cela s'appellerait une imputation unique, et il n'y a aucune raison pour que cela fonctionne mieux qu'un remplacement moyen.

Cependant: l'astuce consiste à le faire à plusieurs reprises (d'où l'imputation multiple), et à chaque fois faire votre analyse sur chaque ensemble de données complété (= imputé). Le résultat est généralement un ensemble d'estimations de paramètres ou similaire pour chaque ensemble de données complété. Dans des conditions relativement lâches, il est acceptable de faire la moyenne de vos estimations de paramètres sur tous ces ensembles de données imputés.

L'avantage est qu'il existe également une formule simple pour ajuster l'erreur standard à l'incertitude causée par les données manquantes.

Si vous voulez en savoir plus, vous voudrez probablement lire «L'analyse statistique avec des données manquantes» de Little et Rubin. Cela contient également d'autres méthodes (EM, ...) et plus d'explications sur comment / pourquoi / quand elles fonctionnent.

Nick Sabbe
la source
1
+1 Je suppose que l'imputation unique fonctionne légèrement mieux que la substitution moyenne, car vous incorporez des informations supplémentaires (0 prédicteurs vs pprédicteurs). Cependant, je suis entièrement d'accord que MI est la voie à suivre.
Bernd Weiss
11

Vous ne nous avez pas beaucoup parlé de la nature de vos données manquantes. Avez-vous vérifié MCAR ( manquant complètement au hasard )? Étant donné que vous ne pouvez pas supposer MCAR, la substitution moyenne peut conduire à des estimateurs biaisés.

En tant que point de départ non mathématique, je peux recommander les deux références suivantes:

  1. Graham, Hohn W. (2009): Missing Data Analysis: Making It Work in the Real World.
  2. Allison, Paul (2002): Données manquantes. (voir section "Imputation", p. 11)
Bernd Weiss
la source
@ Bernd, la référence Graham est extrêmement bonne, elle m'a beaucoup aidé à maîtriser l'imputation multiple.
richiemorrisroe
2

Si vos valeurs manquantes sont distribuées de façon aléatoire, ou si la taille de votre échantillon est petite, vous feriez mieux d'utiliser la moyenne. Je diviserais d'abord les données en deux parties: 1 avec les valeurs manquantes et l'autre sans, puis tester la différence de moyenne de certaines variables clés entre les deux échantillons. S'il n'y a pas de différence, vous avez la possibilité de remplacer la moyenne ou de supprimer entièrement les observations.

-Ralph Winters

Ralph Winters
la source
1
Mais l'utilisation de la moyenne implique que vous prédisez la valeur à ce stade. Ce n'est pas ce qui se passe, ce qui se passe est une tentative de récupération d'une valeur aléatoire. Il semble que puisque vous avez également une estimation de la variance, vous devriez utiliser les deux (c.-à-d. Un tirage aléatoire de la distribution).
John
De plus, la substitution moyenne réduira la variance de vos estimations, ce qui rejettera toutes vos erreurs standard et intervalles de confiance pour le reste de votre analyse.
richiemorrisroe
Oui. Je proposais simplement que les populations des données manquantes vs non manquantes soient examinées avant de plonger aveuglément dans l'IM, ce qui peut prendre beaucoup de puissance de calcul au détriment des gains minimaux.
Ralph Winters
0

Les données manquantes sont un gros problème partout. J'aimerais que vous répondiez d'abord à la question suivante. 1) quel pourcentage d'âge des données manque? - si c'est plus de 10% des données que vous ne risquez pas de lui imputer avec moyenne. Parce que l'imputation d'un tel manquant avec la moyenne équivaut à dire à la boîte LR qui ressemble ... cette variable signifie la plupart des endroits (alors tirez une conclusion) et vous ne voulez pas que la boîte LR tire des conclusions sur vos suggestions. Maintenant, le moins que vous puissiez faire si vous ne voulez pas grand-chose est d'essayer de relier les valeurs disponibles de ces variables avec différentes valeurs des prédicteurs ou d'utiliser un sens commercial dans la mesure du possible .. par exemple ... si j'ai un manquant pour marriage_ind, l'un des les moyens pourraient être de voir l'âge médian des personnes mariées, (disons qu'il se révèle être 29), Je peux supposer qu'en général les gens (en Inde) se marient à 30 et 29 ans le suggèrent. PROC MI fait aussi quelque chose en interne pour vous mais d'une manière beaucoup plus sophistiquée .. donc mes 2 cents..voyez au moins 4-5 variables qui sont liées à vos manquements et essayez de former une corrélation..Cela peut être mieux que la moyenne.

ayush biyani
la source