Je me demande si quelqu'un pourrait donner un aperçu de la raison pour laquelle l'imputation des données manquantes est meilleure que de simplement construire différents modèles pour les cas avec des données manquantes. Surtout dans le cas des modèles linéaires [généralisés] (je peux peut-être voir dans les cas non linéaires que les choses sont différentes)
Supposons que nous ayons le modèle linéaire de base:
Mais notre ensemble de données contient des enregistrements avec manquant. Dans l'ensemble de données de prédiction où le modèle sera utilisé, il y aura également des cas de manquant . Il semble y avoir deux façons de procéder:X 3
Plusieurs modèles
Nous pourrions diviser les données en cas et non et construire un modèle distinct pour chacun. Si nous supposons que est étroitement lié à le modèle de données manquant peut surpondérer pour obtenir la meilleure prédiction à deux prédicteurs. De plus, si les cas de données manquantes sont légèrement différents (en raison du mécanisme de données manquantes), il peut alors intégrer cette différence. En revanche, les deux modèles ne s'adaptent qu'à une partie des données chacun, et ne "s'entraident" pas, de sorte que l'ajustement peut être médiocre sur des ensembles de données limités.X 3 X 3 X 2 X 2
Imputation
Une imputation multiple de régression remplirait d'abord en construisant un modèle basé sur et , puis en échantillonnant au hasard pour maintenir le bruit dans les données imputées. Puisqu'il s'agit à nouveau de deux modèles, cela ne sera-t-il pas simplement le même que la méthode à modèles multiples ci-dessus? S'il est capable de surperformer - d'où vient le gain? Est-ce juste que l'ajustement pour est fait sur l'ensemble du plateau?X 1 X 2 X 1
ÉDITER:
Bien que la réponse de Steffan explique jusqu'à présent que l'ajustement du modèle de cas complet sur des données imputées surpassera l'ajustement sur des données complètes, et il semble évident que l'inverse est vrai, il y a encore un malentendu sur les prévisions de données manquantes.
Si j'ai le modèle ci-dessus, même parfaitement ajusté, ce sera en général un modèle de prévision terrible si je mets simplement zéro lors de la prévision. Imaginez, par exemple, que puis est complètement inutile ( ) lorsque est présent, mais serait toujours utile en l'absence de .X 2 β 2 = 0 X 3 X 3
La question clé que je ne comprends pas est: est-il préférable de construire deux modèles, un en utilisant et un en utilisant , ou est-il préférable de construire un seul modèle (complet) et d'utiliser imputation sur les ensembles de données de prévision - ou s'agit-il de la même chose?
En apportant la réponse de Steffan, il semblerait qu'il est préférable de construire le modèle de cas complet sur un ensemble de formation imputé, et inversement, il est probablement préférable de construire le modèle de données manquant sur l'ensemble de données complet avec rejeté. Cette deuxième étape est-elle différente de l'utilisation d'un modèle d'imputation dans les données de prévision?
Je suppose que vous souhaitez obtenir des estimations non biaisées des coefficients de régression. L'analyse des cas complets donne des estimations non biaisées de vos coefficients de régression à condition que la probabilité que X3 soit manquant ne dépend pas de Y. Cela est valable même si la probabilité de disparité dépend de X1 ou X2, et pour tout type d'analyse de régression.
Bien entendu, les estimations peuvent être inefficaces si la proportion de cas complets est faible. Dans ce cas, vous pouvez utiliser l'imputation multiple de X3 avec X2, X1 et Y pour augmenter la précision. Voir White et Carlin (2010) Stat Med pour plus de détails.
la source
Une étude de Harvard suggère une imputation multiple avec cinq prévisions des données manquantes (voici la référence, http://m.circoutcome.ahajournals.org/content/3/1/98.full ). Même dans ce cas, je rappelle des commentaires selon lesquels les modèles d'imputation peuvent ne pas produire encore d'intervalles de couverture pour les paramètres du modèle qui n'incluent pas les vraies valeurs sous-jacentes!
Dans cet esprit, il semble préférable d'utiliser cinq modèles naïfs simples pour la valeur manquante (en supposant de ne pas manquer au hasard dans la discussion actuelle) qui produisent une bonne répartition des valeurs, de sorte que les intervalles de couverture puissent, au moins, contenir les vrais paramètres .
D'après mon expérience dans la théorie de l'échantillonnage, beaucoup de ressources sont souvent dépensées pour sous-échantillonner la population de non-réponse qui, parfois, semble être très différente de la population de réponse. En tant que tel, je recommanderais un exercice similaire de régression des valeurs manquantes au moins une fois dans le domaine d'application particulier. Les relations non retrouvées dans une telle exploration des données manquantes peuvent être d'une valeur historique pour la construction de meilleurs modèles de prévision des données manquantes pour l'avenir.
la source