J'ai eu ces deux expliqués plusieurs fois. Ils continuent de cuisiner mon cerveau. Missing Not at Random a du sens, et Missing Complet at Random a du sens ... c'est le Missing at Random qui n'en a pas autant.
Qu'est-ce qui donne naissance à des données qui seraient MAR mais pas MCAR?
missing-data
Fomite
la source
la source
Réponses:
Manquer au hasard (MAR) signifie que le manque peut être expliqué par des variables sur lesquelles vous disposez d'informations complètes. Ce n'est pas une hypothèse testable, mais il y a des cas où elle est raisonnable ou non.
Prenez par exemple les sondages d'opinion politique. Beaucoup de gens refusent de répondre. Si vous supposez que les raisons pour lesquelles les gens refusent de répondre sont entièrement basées sur des données démographiques, et si vous avez ces données démographiques sur chaque personne, alors les données sont MAR. On sait que certaines des raisons pour lesquelles les gens refusent de répondre peuvent être basées sur des données démographiques (par exemple, les personnes à faible revenu et à revenu élevé sont moins susceptibles de répondre que celles du milieu), mais il n'y a vraiment aucun moyen de savoir si cela est l'explication complète.
Ainsi, la question devient "est-elle suffisamment pleine?". Souvent, des méthodes comme l'imputation multiple fonctionnent mieux que d'autres méthodes tant que les données ne sont pas très manquantes, pas au hasard.
la source
Amelia
,mi
etmice
. Les similitudes et les différences sont fascinantes. (Amelia
« Sover impute
est tout à fait intéressant.)Je ne sais pas si c'est correct, mais la façon dont j'ai essayé de le comprendre est comme s'il y avait une matrice de possibilités 2x2 qui n'est pas tout à fait symétrique. Quelque chose comme:
Autrement dit, s'il y a un motif à l'absence d'une variable et que les données que nous avons ne peuvent pas l'expliquer, nous avons MNAR, mais si les données que nous avons (c'est-à-dire d'autres variables dans notre ensemble de données) peuvent l'expliquer, nous avons MAR. S'il n'y a aucun motif à la disparition, c'est MCAR.
Je suis peut-être loin d'ici. En outre, cela laisse ouverte la définition de «modèle» et «données explique». Je pense que «les données expliquent» comme signifiant que d'autres variables de votre ensemble de données l'expliquent, mais je crois que votre procédure peut également l'expliquer (par exemple, un bon exemple dans un autre thread est si vous avez trois variables de mesure qui mesurent la même chose et votre si les deux premières mesures sont trop en désaccord, vous prenez une troisième mesure).
Est-ce assez précis pour l'intuition, CV?
la source
J'avais aussi du mal à saisir la différence, alors peut-être que quelques exemples pourraient aider.
MCAR : Manque complètement au hasard , c'est super. Cela signifie que la non-réponse est complètement aléatoire. Votre enquête n'est donc pas biaisée.
MAR : Manque au hasard , pire situation. Imaginez que vous demandez le QI et que vous avez beaucoup plus de participantes que d'hommes. Heureusement pour vous, le QI n'est pas lié au sexe, vous pouvez donc contrôler le sexe (appliquer une pondération) pour réduire les biais.
MNAR : Ne manque pas au hasard , mauvais. Envisagez d'avoir une enquête sur le niveau de revenu. Et encore une fois, vous avez plus de femmes que d'hommes participants. Dans ce cas, c'est un problème, car le niveau de revenu est lié au sexe. Vos résultats seront donc biaisés. Pas facile de s'en débarrasser.
Vous voyez, c'est une relation "triangulaire" entre la variable cible (Y, comme le revenu), la variable auxiliaire (X, comme l'âge) et le comportement de réponse (R, le groupe de réponse). Si X est lié à R uniquement, bon sens (MAR). S'il y a une relation entre X et R et X et Y, c'est mauvais (MNAR).
la source