Distinguer manquant au hasard (MAR) du manquant complètement au hasard (MCAR)

13

J'ai eu ces deux expliqués plusieurs fois. Ils continuent de cuisiner mon cerveau. Missing Not at Random a du sens, et Missing Complet at Random a du sens ... c'est le Missing at Random qui n'en a pas autant.

Qu'est-ce qui donne naissance à des données qui seraient MAR mais pas MCAR?

Fomite
la source
Est-ce que votre question répond à cette autre question, Y a - t-il une bonne raison pour le nom «Missing at Random»? et les ressources qu'ils énumèrent?
Andy W
3
@AndyW Pour être franc, non. Une discussion intéressante sur les raisons pour lesquelles le nom est défectueux, et un article qui se cache derrière un mur d'abonnement.
Fomite

Réponses:

18

Manquer au hasard (MAR) signifie que le manque peut être expliqué par des variables sur lesquelles vous disposez d'informations complètes. Ce n'est pas une hypothèse testable, mais il y a des cas où elle est raisonnable ou non.

Prenez par exemple les sondages d'opinion politique. Beaucoup de gens refusent de répondre. Si vous supposez que les raisons pour lesquelles les gens refusent de répondre sont entièrement basées sur des données démographiques, et si vous avez ces données démographiques sur chaque personne, alors les données sont MAR. On sait que certaines des raisons pour lesquelles les gens refusent de répondre peuvent être basées sur des données démographiques (par exemple, les personnes à faible revenu et à revenu élevé sont moins susceptibles de répondre que celles du milieu), mais il n'y a vraiment aucun moyen de savoir si cela est l'explication complète.

Ainsi, la question devient "est-elle suffisamment pleine?". Souvent, des méthodes comme l'imputation multiple fonctionnent mieux que d'autres méthodes tant que les données ne sont pas très manquantes, pas au hasard.

Peter Flom - Réintégrer Monica
la source
5
Le Journal of Statistical Software ( en ligne) a un problème récent sur l' imputation multiple, et j'ai regardé les trois grands multiples forfaits pour R Imputation: Amelia, miet mice. Les similitudes et les différences sont fascinantes. ( Amelia« S over imputeest tout à fait intéressant.)
Wayne
1
Voici le lien vers le numéro JSS: jstatsoft.org/v45
gung -
11

Je ne sais pas si c'est correct, mais la façon dont j'ai essayé de le comprendre est comme s'il y avait une matrice de possibilités 2x2 qui n'est pas tout à fait symétrique. Quelque chose comme:

Pattern  /   Data Explains Pattern

            Yes         No

Yes         MAR        MNAR

No          --         MCAR

Autrement dit, s'il y a un motif à l'absence d'une variable et que les données que nous avons ne peuvent pas l'expliquer, nous avons MNAR, mais si les données que nous avons (c'est-à-dire d'autres variables dans notre ensemble de données) peuvent l'expliquer, nous avons MAR. S'il n'y a aucun motif à la disparition, c'est MCAR.

Je suis peut-être loin d'ici. En outre, cela laisse ouverte la définition de «modèle» et «données explique». Je pense que «les données expliquent» comme signifiant que d'autres variables de votre ensemble de données l'expliquent, mais je crois que votre procédure peut également l'expliquer (par exemple, un bon exemple dans un autre thread est si vous avez trois variables de mesure qui mesurent la même chose et votre si les deux premières mesures sont trop en désaccord, vous prenez une troisième mesure).

Est-ce assez précis pour l'intuition, CV?

Wayne
la source
-1

J'avais aussi du mal à saisir la différence, alors peut-être que quelques exemples pourraient aider.

MCAR : Manque complètement au hasard , c'est super. Cela signifie que la non-réponse est complètement aléatoire. Votre enquête n'est donc pas biaisée.

MAR : Manque au hasard , pire situation. Imaginez que vous demandez le QI et que vous avez beaucoup plus de participantes que d'hommes. Heureusement pour vous, le QI n'est pas lié au sexe, vous pouvez donc contrôler le sexe (appliquer une pondération) pour réduire les biais.

MNAR : Ne manque pas au hasard , mauvais. Envisagez d'avoir une enquête sur le niveau de revenu. Et encore une fois, vous avez plus de femmes que d'hommes participants. Dans ce cas, c'est un problème, car le niveau de revenu est lié au sexe. Vos résultats seront donc biaisés. Pas facile de s'en débarrasser.

Vous voyez, c'est une relation "triangulaire" entre la variable cible (Y, comme le revenu), la variable auxiliaire (X, comme l'âge) et le comportement de réponse (R, le groupe de réponse). Si X est lié à R uniquement, bon sens (MAR). S'il y a une relation entre X et R et X et Y, c'est mauvais (MNAR).

HonzaB
la source