L'ordre variable est-il important dans la régression linéaire

9

J'étudie l'interaction entre deux variables ( et ). Il existe une grande corrélation linéaire entre ces variables avec . De la nature du problème, je ne peux rien dire sur la causalité (si provoque ou l'inverse). Je voudrais étudier les écarts par rapport à la droite de régression, afin de détecter les valeurs aberrantes. Pour ce faire, je peux soit construire une régression linéaire de en fonction de , soit l'inverse. Mon choix d'ordre variable peut-il influencer mes résultats? $x_1$ $x_2$ $r>0.9$ $x_1$ $x_2$ $x_1$ $x_2$

regression outliers linear-model George
la source

Dans la recherche de valeurs aberrantes, vous devez d'abord régresser votre variable dépendante contre

et

et rechercher des valeurs aberrantes.

x_{1}

$x_{1}$

x_{2}

$x_{2}$

schenectady

La recherche de valeurs aberrantes est-elle l'objectif de votre enquête? Si c'est le cas, vous devez d'abord régresser votre variable dépendante contre

et

, puis effectuer des tests aberrants. Si vous trouvez une causalité possible, vous devriez envisager de réaliser une expérience conçue. Si le but de votre expérience est de trouver une relation entre vos deux variables indépendantes, regarder une occurrence des données collectées ne fera pas l'affaire.

x_{1}

$x_{1}$

x_{2}

$x_{2}$

schenectady

Pour moi, ce que vous entendez par valeurs aberrantes n'est pas clair. S'il y a des valeurs aberrantes dans vos données, elles affecteront le calcul de la droite de régression. Pourquoi recherchez-vous des valeurs aberrantes en

et

simultanément?

x_{1}

$x_1$

x_{2}

$x_2$

DQdlM

@schenectady Utilisez $$ pour LaTeX dans les commentaires, s'il vous plaît.

3

Cela peut sûrement (en fait, cela a même de l'importance en ce qui concerne les hypothèses sur vos données - vous ne faites que des hypothèses sur la distribution du résultat compte tenu de la covariable). Dans cette optique, vous pouvez rechercher un terme comme "variance de prédiction inverse". Quoi qu'il en soit, la régression linéaire ne dit rien sur la causalité! Au mieux, vous pouvez dire quelque chose sur la causalité grâce à une conception soignée.

Nick Sabbe
la source

3

Pour rendre le cas symétrique, on peut régresser la différence entre les deux variables ( ) vs leur valeur moyenne. $\Delta x$

Boris Gorelik
la source

3

La régression standard minimise la distance verticale entre les points et la ligne, donc la commutation des 2 variables minimisera maintenant la distance horizontale (étant donné le même nuage de points). Une autre option (qui porte plusieurs noms) est de minimiser la distance perpendiculaire, cela peut être fait en utilisant des composants principaux.

Voici un code R qui montre les différences:

library(MASS)

tmp <- mvrnorm(100, c(0,0), rbind( c(1,.9),c(.9,1)) )

plot(tmp, asp=1)

fit1 <- lm(tmp[,1] ~ tmp[,2])  # horizontal residuals
segments( tmp[,1], tmp[,2], fitted(fit1),tmp[,2], col='blue' )
o <- order(tmp[,2])
lines( fitted(fit1)[o], tmp[o,2], col='blue' )

fit2 <- lm(tmp[,2] ~ tmp[,1])  # vertical residuals
segments( tmp[,1], tmp[,2], tmp[,1], fitted(fit2), col='green' )
o <- order(tmp[,1])
lines( tmp[o,1], fitted(fit2)[o], col='green' )

fit3 <- prcomp(tmp)
b <- -fit3$rotation[1,2]/fit3$rotation[2,2]
a <- fit3$center[2] - b*fit3$center[1]
abline(a,b, col='red')
segments(tmp[,1], tmp[,2], tmp[,1]-fit3$x[,2]*fit3$rotation[1,2], tmp[,2]-fit3$x[,2]*fit3$rotation[2,2], col='red')

legend('bottomright', legend=c('Horizontal','Vertical','Perpendicular'), lty=1, col=c('blue','green','red'))

Pour rechercher des valeurs aberrantes, vous pouvez simplement tracer les résultats de l'analyse des principaux composants.

Vous pouvez également regarder:

Bland et Altman (1986), Méthodes statistiques pour évaluer l'accord entre deux méthodes de mesure clinique. Lancet, pp 307-310

Greg Snow
la source

0

Vos variables x1 et x2 sont colinéaires. En présence de multicolinéarité, vos estimations de paramètres sont toujours non biaisées, mais leur variance est grande, c'est-à-dire que votre inférence sur la signification des estimations de paramètres n'est pas valide, et votre prédiction aura de grands intervalles de confiance.

L'interprétation des estimations des paramètres est également difficile. Dans le cadre de régression linéaire, l'estimation du paramètre sur x1 est la variation de Y pour une variation unitaire de x1 étant donné que chaque autre variable exogène du modèle est maintenue constante. Dans votre cas, x1 et x2 sont fortement corrélés, et vous ne pouvez pas maintenir x2 constant lorsque x1 change.

yeveee
la source

L'ordre variable est-il important dans la régression linéaire

Réponses: