80% des données manquantes dans une seule variable

Il y a une variable dans mes données qui ont 80% de données manquantes. Les données sont manquantes en raison de leur inexistence (c'est-à-dire du montant du prêt bancaire que l'entreprise doit). Je suis tombé sur un article disant que la méthode d'ajustement variable factice est la solution à ce problème. Cela signifie que je dois transformer cette variable continue en catégorique?

Est-ce la seule solution? Je ne veux pas laisser tomber cette variable car je pense théoriquement, c'est important pour ma question de recherche.

missing-data lcl23
la source

Réponses:

Les données sont-elles "manquantes" au sens où elles sont inconnues ou cela signifie-t-il simplement qu'il n'y a pas de prêt (donc le montant du prêt est nul)? Cela ressemble à ce dernier, auquel cas vous avez besoin d'un mannequin binaire supplémentaire pour indiquer s'il y a un prêt. Aucune transformation du montant du prêt n'est nécessaire (en dehors, peut-être, d'une ré-expression continue, telle qu'une racine ou un journal démarré, qui pourrait être indiqué en vertu d'autres considérations).

Cela fonctionne bien dans une régression. Un exemple simple est un modèle conceptuel de la forme

dependent variable (Y) = loan amount (X) + constant.

$\text{dependent variable (Y) = loan amount (X) + constant.}$

Avec l'ajout d'un indicateur de prêt ( ), le modèle de régression est $I$

Y = β_{I} I + β_{X} X + β_{0} + ϵ

$Y = \beta_I I + \beta_X X + \beta_0 + \epsilon$

avec représentant des erreurs aléatoires avec des attentes nulles. Les coefficients sont interprétés comme: $\epsilon$

est l'espérance de pour les situations sans prêt, car celles-ci sont caractérisées par et . $\beta_0$ $Y$ $X = 0$ $I = 0$

est la variation marginale de par rapport au montant du prêt ( ). $\beta_X$ $Y$ $X$

est l'ordonnée à l'origine des cas avec des prêts. $\beta_I + \beta_0$

whuber
la source

Ils ne seront pas traités comme manquants, ils évalueront la valeur sans prêt. Peut-être que vous n'avez fait aucun prêt «NA», auquel cas vous devez recoder ceux-ci à 0.

John

X

$X$

X = 0

$X=0$

I = 1

$I=1$

@ lcl23 Si j'ai bien compris la situation, l'imputation n'a aucun sens: vos données "manquantes" ne manquent pas; ils indiquent qu'aucun prêt n'a été souscrit.

whuber

I (X = 1)

$I(X=1)$

I (X = 0)

$I(X=0)$

1

$1$

β_{I}

$\beta_I$

0

$0$

Je pense que vous avez mal compris la suggestion de l'article: principalement parce que la suggestion n'a aucun sens. Vous auriez alors deux problèmes: comment recoder une variable et ses valeurs sont toujours manquantes. Ce qui a probablement été suggéré était de créer un indicateur de manque .

Une approche quelque peu pertinente de la gestion des données manquantes qui correspond approximativement à cette description consiste à ajuster pour un indicateur de manque . Il s'agit certainement d'une approche simple et facile, mais en général, elle est biaisée. Le biais peut être illimité dans sa méchanceté. Ce que cela fait, c'est d'adapter deux modèles et de faire la moyenne de leurs effets ensemble: le premier modèle est le modèle entièrement conditionnel , le second est un modèle factoriel complet. Le modèle entièrement conditionnel est le modèle de cas complet dans lequel chaque observation est supprimée et comporte des valeurs manquantes. Il est donc adapté à un sous-ensemble de 20% des données. Le second est un ajustement sur les 80% restants ne s'ajustant pas du tout à la valeur manquante. Ce modèle marginal estime les mêmes effets que le modèle complet lorsqu'il n'y a pas d'interaction non mesurée, lorsque la fonction de lien est pliable et lorsque les données sont manquantes au hasard (MAR). Ces effets sont ensuite combinés par une moyenne pondérée. Même dans des conditions idéales, aucune interaction non mesurée et des données complètement aléatoires (MCAR), l'approche par indicateur manquant conduit à des effets biaisés car le modèle marginal et le modèle conditionnel estiment différents effets. Même les prédictions sont biaisées dans ce cas.

Une bien meilleure alternative consiste à utiliser simplement l'imputation multiple. Même lorsque le facteur le plus souvent absent est mesuré à une très faible prévalence, l'IM fait un assez bon travail pour générer des réalisations sophistiquées de quelles valeurs possibles ont pu être. La seule hypothèse nécessaire ici est MAR.

AdamO
la source

Que signifie «la fonction de liaison est pliable»?

Matthew Drury

@MatthewDrury fondamentalement, la "collapsibilité" signifie que l'ajustement pour les variables qui prédisent le résultat mais pas le ou les effets principaux augmentera la précision, mais ne changera pas l'effet estimé.

AdamO

Cool, merci Adam. Je n'avais jamais entendu cette terminologie auparavant.

Matthew Drury