Quel est l'avantage de l'imputation sur la construction de plusieurs modèles en régression?

Je me demande si quelqu'un pourrait donner un aperçu de la raison pour laquelle l'imputation des données manquantes est meilleure que de simplement construire différents modèles pour les cas avec des données manquantes. Surtout dans le cas des modèles linéaires [généralisés] (je peux peut-être voir dans les cas non linéaires que les choses sont différentes)

Supposons que nous ayons le modèle linéaire de base:

$Y = \beta_1 X_1 + \beta_2 X_2 + \beta_3 X_3 + \epsilon$

Mais notre ensemble de données contient des enregistrements avec manquant. Dans l'ensemble de données de prédiction où le modèle sera utilisé, il y aura également des cas de manquant . Il semble y avoir deux façons de procéder: $X_3$ $X_3$

Plusieurs modèles

Nous pourrions diviser les données en cas et non et construire un modèle distinct pour chacun. Si nous supposons que est étroitement lié à le modèle de données manquant peut surpondérer pour obtenir la meilleure prédiction à deux prédicteurs. De plus, si les cas de données manquantes sont légèrement différents (en raison du mécanisme de données manquantes), il peut alors intégrer cette différence. En revanche, les deux modèles ne s'adaptent qu'à une partie des données chacun, et ne "s'entraident" pas, de sorte que l'ajustement peut être médiocre sur des ensembles de données limités. $X_3$ $X_3$ $X_3$ $X_2$ $X_2$

Imputation

Une imputation multiple de régression remplirait d'abord en construisant un modèle basé sur et , puis en échantillonnant au hasard pour maintenir le bruit dans les données imputées. Puisqu'il s'agit à nouveau de deux modèles, cela ne sera-t-il pas simplement le même que la méthode à modèles multiples ci-dessus? S'il est capable de surperformer - d'où vient le gain? Est-ce juste que l'ajustement pour est fait sur l'ensemble du plateau? $X_3$ $X_1$ $X_2$ $X_1$

ÉDITER:

Bien que la réponse de Steffan explique jusqu'à présent que l'ajustement du modèle de cas complet sur des données imputées surpassera l'ajustement sur des données complètes, et il semble évident que l'inverse est vrai, il y a encore un malentendu sur les prévisions de données manquantes.

Si j'ai le modèle ci-dessus, même parfaitement ajusté, ce sera en général un modèle de prévision terrible si je mets simplement zéro lors de la prévision. Imaginez, par exemple, que puis est complètement inutile ( ) lorsque est présent, mais serait toujours utile en l'absence de . $X_2 = X_3+\eta$ $X_2$ $\beta_2 = 0$ $X_3$ $X_3$

La question clé que je ne comprends pas est: est-il préférable de construire deux modèles, un en utilisant et un en utilisant , ou est-il préférable de construire un seul modèle (complet) et d'utiliser imputation sur les ensembles de données de prévision - ou s'agit-il de la même chose? $(X_1, X_2)$ $(X_1, X_2, X_3)$

En apportant la réponse de Steffan, il semblerait qu'il est préférable de construire le modèle de cas complet sur un ensemble de formation imputé, et inversement, il est probablement préférable de construire le modèle de données manquant sur l'ensemble de données complet avec rejeté. Cette deuxième étape est-elle différente de l'utilisation d'un modèle d'imputation dans les données de prévision? $X_3$

regression missing-data data-imputation Korone
la source

Réponses:

Je pense que la clé ici est de comprendre le mécanisme de données manquantes; ou au moins en exclure certains. Construire des modèles séparés revient à traiter les groupes manquants et non manquants comme des échantillons aléatoires. Si le manque sur X3 est lié à X1 ou X2 ou à une autre variable non observée, alors vos estimations seront probablement biaisées dans chaque modèle. Pourquoi ne pas utiliser l'imputation multiple sur l'ensemble de données de développement et utiliser les coefficients combinés sur un ensemble de prédiction à imputations multiples? Faites la moyenne des prévisions et vous devriez être bon.

ReliableResearch
la source

Mais si le manque est lié à X1 ou X2, alors il est certainement bon d'avoir deux modèles distincts - car ils incorporeront cette information. C'est-à-dire que quand à l'avenir j'aurai un X3 manquant, je saurai être biaisé dans la bonne direction.

Korone

Je suppose que vous souhaitez obtenir des estimations non biaisées des coefficients de régression. L'analyse des cas complets donne des estimations non biaisées de vos coefficients de régression à condition que la probabilité que X3 soit manquant ne dépend pas de Y. Cela est valable même si la probabilité de disparité dépend de X1 ou X2, et pour tout type d'analyse de régression.

Bien entendu, les estimations peuvent être inefficaces si la proportion de cas complets est faible. Dans ce cas, vous pouvez utiliser l'imputation multiple de X3 avec X2, X1 et Y pour augmenter la précision. Voir White et Carlin (2010) Stat Med pour plus de détails.

Stef van Buuren
la source

Ah, l'imputation consiste-t-elle à obtenir les bons coefficients? Les coefficients eux-mêmes ne m'intéressent pas - je veux juste maximiser mon pouvoir prédictif sur de nouvelles données (qui peuvent également manquer)

Korone

C'est très bien. Pour obtenir une puissance prédictive maximale, vous voudriez également des estimations précises et non biaisées des coefficients du modèle.

Stef van Buuren

Si je n'utilise que les cas complets, je ne peux pas utiliser ce modèle pour la prédiction lorsque j'ai des données manquantes, car les coefficients seront généralement incorrects (par exemple s'il existe une corrélation entre X2 et X3). Je dois donc soit imputer X3 lors de la prédiction, soit construire un deuxième modèle en X1 et X2 uniquement. La question est de savoir si cela se traduit par des prévisions différentes et quelle est la meilleure?

Korone

Ah, je pense que je comprends un point que vous soulevez: si j'adapte le modèle pour la prédiction de cas complets à l'aide de l'imputation, cela améliorera la prévision de cas complète, par rapport à l'ajustement avec uniquement les cas concurrents. La question restante est ce qui est le mieux pour les cas incomplets?

Korone

Supposons que beta_1 = beta_2 = 0 et beta_3 = 1. L'utilisation de X1 et X2 uniquement prédira une constante, tandis que la prédiction utilisant X3 expliquera une partie de la variance de Y et entraînera donc une baisse de l'erreur résiduelle. Ainsi, la version imputée produit de meilleures prédictions.

Stef van Buuren

Une étude de Harvard suggère une imputation multiple avec cinq prévisions des données manquantes (voici la référence, http://m.circoutcome.ahajournals.org/content/3/1/98.full ). Même dans ce cas, je rappelle des commentaires selon lesquels les modèles d'imputation peuvent ne pas produire encore d'intervalles de couverture pour les paramètres du modèle qui n'incluent pas les vraies valeurs sous-jacentes!

Dans cet esprit, il semble préférable d'utiliser cinq modèles naïfs simples pour la valeur manquante (en supposant de ne pas manquer au hasard dans la discussion actuelle) qui produisent une bonne répartition des valeurs, de sorte que les intervalles de couverture puissent, au moins, contenir les vrais paramètres .

D'après mon expérience dans la théorie de l'échantillonnage, beaucoup de ressources sont souvent dépensées pour sous-échantillonner la population de non-réponse qui, parfois, semble être très différente de la population de réponse. En tant que tel, je recommanderais un exercice similaire de régression des valeurs manquantes au moins une fois dans le domaine d'application particulier. Les relations non retrouvées dans une telle exploration des données manquantes peuvent être d'une valeur historique pour la construction de meilleurs modèles de prévision des données manquantes pour l'avenir.

AJKOER
la source