J'étudie l'interaction entre deux variables ( et x 2 ). Il existe une grande corrélation linéaire entre ces variables avec r > 0,9 . De la nature du problème, je ne peux rien dire sur la causalité (si x 1 provoque x 2 ou l'inverse). Je voudrais étudier les écarts par rapport à la droite de régression, afin de détecter les valeurs aberrantes. Pour ce faire, je peux soit construire une régression linéaire de x 1 en fonction de x 2 , soit l'inverse. Mon choix d'ordre variable peut-il influencer mes résultats?
regression
outliers
linear-model
George
la source
la source
Réponses:
Cela peut sûrement (en fait, cela a même de l'importance en ce qui concerne les hypothèses sur vos données - vous ne faites que des hypothèses sur la distribution du résultat compte tenu de la covariable). Dans cette optique, vous pouvez rechercher un terme comme "variance de prédiction inverse". Quoi qu'il en soit, la régression linéaire ne dit rien sur la causalité! Au mieux, vous pouvez dire quelque chose sur la causalité grâce à une conception soignée.
la source
Pour rendre le cas symétrique, on peut régresser la différence entre les deux variables ( ) vs leur valeur moyenne.Δ x
la source
La régression standard minimise la distance verticale entre les points et la ligne, donc la commutation des 2 variables minimisera maintenant la distance horizontale (étant donné le même nuage de points). Une autre option (qui porte plusieurs noms) est de minimiser la distance perpendiculaire, cela peut être fait en utilisant des composants principaux.
Voici un code R qui montre les différences:
Pour rechercher des valeurs aberrantes, vous pouvez simplement tracer les résultats de l'analyse des principaux composants.
Vous pouvez également regarder:
la source
Vos variables x1 et x2 sont colinéaires. En présence de multicolinéarité, vos estimations de paramètres sont toujours non biaisées, mais leur variance est grande, c'est-à-dire que votre inférence sur la signification des estimations de paramètres n'est pas valide, et votre prédiction aura de grands intervalles de confiance.
L'interprétation des estimations des paramètres est également difficile. Dans le cadre de régression linéaire, l'estimation du paramètre sur x1 est la variation de Y pour une variation unitaire de x1 étant donné que chaque autre variable exogène du modèle est maintenue constante. Dans votre cas, x1 et x2 sont fortement corrélés, et vous ne pouvez pas maintenir x2 constant lorsque x1 change.
la source