J'ai un ensemble de données qui examine les demandes d'immigration et les acceptations de visa (octroi de visas). Les taux sont calculés pour les demandes de visa «acceptées» et «rejetées».
Cependant, l'ensemble de données contient également des valeurs pour les cas fermés. Normalement, c'est lorsque l'immigrant a cessé de se présenter aux rendez-vous, a migré ailleurs ou est décédé. Étant donné que ces chiffres ne sont pas utilisés lors du calcul des taux, les taux apparaissent souvent comme manquants (car les cas n'ont été ni acceptés ni rejetés).
Cela étant dit, si les seuls cas de cette année étaient «autrement clos», sera-t-il possible de laisser tomber ces observations? Une partie du problème que j'ai est que les années aléatoires dans le jeu de données seront supprimées, car les seules décisions pour cette année ont été fermées.
Les cas autrement fermés sont très arbitraires et, comme je l'ai mentionné, sont très probablement des cas où l'immigrant a migré ailleurs et a probablement utilisé le premier pays comme lieu de transit temporaire. Les données ne disent pas précisément pourquoi les immigrants sont partis, pourquoi ils ont été fermés, etc. Je ne sais pas vraiment comment gérer ces valeurs manquantes. Je ne pense pas que les méthodes d'imputation standard fonctionneraient ici, en raison des calculs de taux (mais je peux me tromper).
la source
Réponses:
La distinction importante n'est pas dans votre cas la distinction entre MCAR, MAR et NMAR, mais entre les valeurs réelles manquantes et les valeurs mécaniques manquantes. Les vraies valeurs manquantes sont des valeurs qui existent, mais pour une raison quelconque, elles n'ont pas été enregistrées. Les valeurs mécaniques manquantes n'existent pas, mais la structure rectangulaire d'un ensemble de données nous oblige à lui donner une valeur, par exemple le statut de grossesse si votre ensemble de données comprend également des hommes. Les techniques d'imputation sont conçues pour les vraies valeurs manquantes. Votre exemple est un cas de valeurs mécaniques manquantes; la décision n'a pas été prise, donc sa valeur n'existe pas. Si une partie importante des migrants partent, c'est une caractéristique importante du processus de migration, et l'imputation de ces valeurs masque cette caractéristique.
la source
Il est clair qu'un mélange d'au moins 2 processus de disparité différents.
Que faire à propos de MNAR est difficile. Supposer que de tels cas n'ont pas réussi peut être un peu extrême (ou très approprié, après tout, ils n'ont pas réussi). Ou imputez sous MAR et essayez de rendre ces cas moins réussis jusqu'à ce que vous atteigniez 0% et envisagiez cette plage de valeurs.
la source