Supposons que l'on nous donne un ensemble de données de la forme et . On nous donne la tâche de prédire sur la base des valeurs de . Nous estimons deux régressions où: ( y , x 1 , x 2 , ⋯ , x n - 1 ) y x y
Nous estimons également une régression qui prédit des valeurs de basées sur des valeurs de , c'est-à-dire: ( x 1 , ⋯ , x n - 1 ) x n = f 3 ( x 1 , ⋯ , x n - 1 )
Supposons maintenant que l'on nous donne des valeurs de , alors nous aurions deux méthodes différentes pour prédire :y
Laquelle serait la meilleure en général?
Je suppose que la première équation serait meilleure car elle utilise des informations provenant des deux formes de points de données alors que la deuxième équation utilise uniquement des informations provenant de points de données qui ont valeurs de prédicteur. Ma formation en statistique est limitée et j'aimerais donc demander conseil à un professionnel.
De plus, en général, quelle est la meilleure approche à l'égard des données qui contiennent des informations incomplètes? En d'autres termes, comment extraire le plus d'informations des données qui n'ont pas de valeurs dans toutes les dimensions?
la source
Réponses:
+1, je pense que c'est une question vraiment intéressante et clairement formulée. Cependant, plus d'informations nous aideront à réfléchir à cette situation.
Par exemple, quelle est la relation entre et ? Il est fort possible qu'il n'y en ait pas, auquel cas la régression n'offre aucun avantage par rapport à la régression . (En fait, il est très légèrement désavantagé, dans le sens où les erreurs standard seront légèrement plus grandes, et donc les bêtas pourraient être légèrement plus éloignés, en moyenne, de leurs vraies valeurs.) S'il existe une fonction mappant à , alors, par définition, il y a là de vraies informations, et la régression sera meilleure dans la situation initiale.Xn y ( 1 ) (2) xn y (1)
Ensuite, quelle est la nature de la relation entre et ? Est-ce qu'il y a un? Par exemple, lorsque nous menons des expériences, nous essayons (généralement) d'attribuer un nombre égal d'unités d'étude à chaque combinaison de valeurs des variables explicatives. (Cette approche utilise un multiple du produit cartésien des niveaux des IV et s'appelle un plan `` factoriel complet ''; il y a aussi des cas où les niveaux sont intentionnellement confondus pour enregistrer des données, appelés plans `` factoriels fractionnaires ''.) Si le les variables explicatives sont orthogonales, votre troisième régression donnera absolument, exactement 0. Par contre, dans une étude observationnelle, les covariables sont à peu près toujours(x1,⋯,xn−1) xn corrélée. Plus cette corrélation est forte, moins il y a d'informations dans . Ces faits moduleront les mérites relatifs de la régression et de la régression . xn (1) (2)
Cependant, (malheureusement peut-être), c'est plus compliqué que cela. L'un des concepts importants, mais difficiles, de la régression multiple est la multicolinéarité . Si vous essayez d'estimer la régression , vous constaterez que vous avez une multicolinéarité parfaite, et votre logiciel vous dira que la matrice de conception n'est pas inversible. Ainsi, alors que la régression peut très bien offrir un avantage par rapport à la régression , la régression ne le sera pas.(4) (1) (2) (4)
La question la plus intéressante (et celle que vous posez) est que se passe-t-il si vous utilisez la régression pour faire des prédictions sur utilisant les valeurs estimées issues des prédictions de régression ? (Autrement dit, vous n'êtes pas l' estimation de régression -Vous êtes brancher la sortie de l'équation de prédiction estimée dans la régression dans le modèle de prévision .) La chose est que vous n'êtes pas gagner en réalité toute nouvelle informations ici. Quelle que soit l'information présente dans les premières valeurs prédicteur pour chaque observation, elle est déjà utilisée de manière optimale par régressiony x n ( 3 ) ( 4 ) ( 3 ) ( 4 ) n - 1 ( 2 )(1) y xn (3) (4) (3) (4) n−1 (2) , donc il n'y a pas de gain.
Ainsi, la réponse à votre première question est que vous pourriez tout aussi bien opter pour la régression pour vos prédictions afin d'économiser du travail inutile. Notez que j'ai abordé cela d'une manière assez abstraite, plutôt que de traiter la situation concrète que vous décrivez dans laquelle quelqu'un vous remet deux ensembles de données (je ne peux tout simplement pas imaginer que cela se produise). Au lieu de cela, je pense à cette question comme essayant de comprendre quelque chose d'assez profond sur la nature de la régression. Ce qui arrive à l'occasion, cependant, c'est que certaines observations ont des valeurs sur tous les prédicteurs, et que certaines autres observations (dans le même ensemble de données) manquent certaines valeurs sur certains des prédicteurs. Cela est particulièrement courant lorsqu'il s'agit de données longitudinales. Dans une telle situation, vous souhaitez étudier l' imputation multiple .(2)
la source