Régression multiple avec variable prédictive manquante

9

Supposons que l'on nous donne un ensemble de données de la forme et . On nous donne la tâche de prédire sur la base des valeurs de . Nous estimons deux régressions où: ( y , x 1 , x 2 , , x n - 1 ) y x y(y,x1,x2,,xn)(y,x1,x2,,xn1)yx

(1)y=f1(x1,,xn1,xn)(2)y=f2(x1,,xn1)

Nous estimons également une régression qui prédit des valeurs de basées sur des valeurs de , c'est-à-dire: ( x 1 , , x n - 1 ) x n = f 3 ( x 1 , , x n - 1 )xn(x1,,xn1)

(3)xn=f3(x1,,xn1)

Supposons maintenant que l'on nous donne des valeurs de , alors nous aurions deux méthodes différentes pour prédire :y(x1,,xn1)y

(4)y=f1(x1,,xn1,f3(x1,,xn1))(5)y=f2(x1,,xn1)

Laquelle serait la meilleure en général?

Je suppose que la première équation serait meilleure car elle utilise des informations provenant des deux formes de points de données alors que la deuxième équation utilise uniquement des informations provenant de points de données qui ont valeurs de prédicteur. Ma formation en statistique est limitée et j'aimerais donc demander conseil à un professionnel.n1

De plus, en général, quelle est la meilleure approche à l'égard des données qui contiennent des informations incomplètes? En d'autres termes, comment extraire le plus d'informations des données qui n'ont pas de valeurs dans toutes les dimensions?n

Xiaowen Li
la source
Estimer avec des réels vs estimer avec des estimations - vous décidez :)
PhD
C'est vraiment aussi simple que ça?
Xiaowen Li
La réponse peut être, cela dépend. Combien de données manquent? De combien de données disposez-vous globalement? Combien de prédicteurs avez-vous?
Joel W.21

Réponses:

6

+1, je pense que c'est une question vraiment intéressante et clairement formulée. Cependant, plus d'informations nous aideront à réfléchir à cette situation.

Par exemple, quelle est la relation entre et ? Il est fort possible qu'il n'y en ait pas, auquel cas la régression n'offre aucun avantage par rapport à la régression . (En fait, il est très légèrement désavantagé, dans le sens où les erreurs standard seront légèrement plus grandes, et donc les bêtas pourraient être légèrement plus éloignés, en moyenne, de leurs vraies valeurs.) S'il existe une fonction mappant à , alors, par définition, il y a là de vraies informations, et la régression sera meilleure dans la situation initiale. xny(1)(2)xny(1)

Ensuite, quelle est la nature de la relation entre et ? Est-ce qu'il y a un? Par exemple, lorsque nous menons des expériences, nous essayons (généralement) d'attribuer un nombre égal d'unités d'étude à chaque combinaison de valeurs des variables explicatives. (Cette approche utilise un multiple du produit cartésien des niveaux des IV et s'appelle un plan `` factoriel complet ''; il y a aussi des cas où les niveaux sont intentionnellement confondus pour enregistrer des données, appelés plans `` factoriels fractionnaires ''.) Si le les variables explicatives sont orthogonales, votre troisième régression donnera absolument, exactement 0. Par contre, dans une étude observationnelle, les covariables sont à peu près toujours(x1,,xn1)xncorrélée. Plus cette corrélation est forte, moins il y a d'informations dans . Ces faits moduleront les mérites relatifs de la régression et de la régression . xn(1)(2)

Cependant, (malheureusement peut-être), c'est plus compliqué que cela. L'un des concepts importants, mais difficiles, de la régression multiple est la multicolinéarité . Si vous essayez d'estimer la régression , vous constaterez que vous avez une multicolinéarité parfaite, et votre logiciel vous dira que la matrice de conception n'est pas inversible. Ainsi, alors que la régression peut très bien offrir un avantage par rapport à la régression , la régression ne le sera pas. (4)(1)(2)(4)

La question la plus intéressante (et celle que vous posez) est que se passe-t-il si vous utilisez la régression pour faire des prédictions sur utilisant les valeurs estimées issues des prédictions de régression ? (Autrement dit, vous n'êtes pas l' estimation de régression -Vous êtes brancher la sortie de l'équation de prédiction estimée dans la régression dans le modèle de prévision .) La chose est que vous n'êtes pas gagner en réalité toute nouvelle informations ici. Quelle que soit l'information présente dans les premières valeurs prédicteur pour chaque observation, elle est déjà utilisée de manière optimale par régressiony x n ( 3 ) ( 4 ) ( 3 ) ( 4 ) n - 1 ( 2 )(1)yxn(3)(4)(3)(4)n1(2), donc il n'y a pas de gain.

Ainsi, la réponse à votre première question est que vous pourriez tout aussi bien opter pour la régression pour vos prédictions afin d'économiser du travail inutile. Notez que j'ai abordé cela d'une manière assez abstraite, plutôt que de traiter la situation concrète que vous décrivez dans laquelle quelqu'un vous remet deux ensembles de données (je ne peux tout simplement pas imaginer que cela se produise). Au lieu de cela, je pense à cette question comme essayant de comprendre quelque chose d'assez profond sur la nature de la régression. Ce qui arrive à l'occasion, cependant, c'est que certaines observations ont des valeurs sur tous les prédicteurs, et que certaines autres observations (dans le même ensemble de données) manquent certaines valeurs sur certains des prédicteurs. Cela est particulièrement courant lorsqu'il s'agit de données longitudinales. Dans une telle situation, vous souhaitez étudier l' imputation multiple . (2)

gung - Réintégrer Monica
la source
Merci Gung pour votre réponse détaillée et vous aidez à modifier le libellé de ma question. Je répondrai une fois que j'interpréterai pleinement votre réponse. Pour votre information, il s'agit d'une étude observationnelle sur le prix des ampoules. inclut les heures de vie, la luminosité et la température de couleur de l'ampoule. Les informations sont collectées auprès de détaillants qui ne donnent généralement pas tout, ce qui entraîne la disparition de prédicteurs. Néanmoins, nous essayons de tirer le meilleur parti des informations que nous avons collectées. xn
Xiaowen Li
1
OK, je pensais qu'il s'agissait simplement de comprendre la régression. J'examinerais l'imputation multiple.
gung - Reinstate Monica
Merci Gung pour votre perspicacité. Vous avez raison: aucune nouvelle information n'est obtenue en utilisant l'équation 4. L'imputation s'avère être exactement ce dont j'avais besoin. Et vous avez raison, j'ai rencontré une colinéarité multiple, ce qui m'a donné une très grande valeur de p pour les coefficients. Ensuite, j'ai dû choisir entre réduire le nombre de variables, obtenir une valeur p plus faible pour les coefficients, ou obtenir un plus grand et un p plus grand. Je suppose que la vie est remplie de compromis. r2
Xiaowen Li
Merci encore pour vos discussions abstraites sur les régressions. Les statistiques peuvent être merveilleusement intrigantes si nous les considérons comme une méthode pour trouver la vérité. J'y reviendrai une fois que j'aurai fini avec mon ensemble de données :)
Xiaowen Li
Vous devriez vérifier l'imputation fractionnelle paramétrique. Il s'agit d'un travail effectué par Jae Kwang Kim de l'État de l'Iowa qui pourrait être parfait pour cette situation. Voir biomet.oxfordjournals.org/content/98/1/119.abstract
StatsStudent