L'ajout de variables dans une régression multivariable modifie-t-il les coefficients des variables existantes?

16

Disons que j'ai une régression multivariable (plusieurs variables indépendantes) qui se compose de 3 variables. Chacune de ces variables a un coefficient donné. Si je décide d'introduire une 4ème variable et de relancer la régression, les coefficients des 3 variables d'origine vont-ils changer?

Plus largement: dans une régression multivariable (plusieurs variables indépendantes), le coefficient d'une variable donnée est-il influencé par le coefficient d'une autre variable?

Lukas Pleva
la source
1
Veuillez modifier la question pour être plus précis. Entendez- multivariablevous par là plusieurs variables indépendantes ("régression multiple") ou plusieurs variables dépendantes ("régression multivariée" ou "MAN (C) OVA")?
ttnphns
1
Si la réponse était non, il ne serait pas nécessaire de faire une régression multivariable en premier lieu! (nous pourrions simplement en faire plusieurs
univariables
1
C'est un point perspicace, @ user603, mais je pense qu'il pourrait toujours y avoir une place pour la régression multiple, en ce que si les autres variables étaient significativement liées à la réponse (bien que ce ne soit pas la variable explicative), elles peuvent réduire la variance résiduelle conduisant à une amélioration puissance et précision.
gung - Réintégrer Monica

Réponses:

23

Une estimation des paramètres dans un modèle de régression (par ) vont être modifiées si une variable X j , est ajouté au modèle qui est: β^iXj

  1. corrélée avec la variable correspondante de ce paramètre, (qui était déjà dans le modèle), etXi
  2. corrélé avec la variable de réponse, Y

Un bêta estimé ne changera pas lorsqu'une nouvelle variable est ajoutée, si l'un des éléments ci-dessus n'est pas corrélé. Notez que si elles ne sont pas corrélées dans la population ( par exemple, , ou ρ ( X j , Y ) = 0 ) est hors de propos. Ce qui importe, c'est que les deux corrélations d'échantillon sont exactement égales à 0 . Cela ne sera pratiquement jamais le cas dans la pratique, sauf si vous travaillez avec des données expérimentales où les variables ont été manipulées de manière à ce qu'elles ne soient pas corrélées par conception. ρ(Xi,Xj)=0 ρ(Xj,Y)=00

Notez également que la quantité que les paramètres changent peut ne pas être très significative (cela dépend, au moins en partie, de votre théorie). De plus, la quantité qu'ils peuvent changer est fonction de l'ampleur des deux corrélations ci-dessus.

Sur une note différente, il n'est pas vraiment correct de considérer ce phénomène comme "le coefficient d'une variable donnée [étant] influencé par le coefficient d'une autre variable". Ce ne sont pas les bêtas qui s'influencent mutuellement. Ce phénomène est le résultat naturel de l'algorithme utilisé par les logiciels statistiques pour estimer les paramètres de pente. Imaginez une situation où est causée à la fois par X i et X j , qui à leur tour sont corrélés entre eux. Si seulement X i est dans le modèle, une partie de la variation de Y due à X j sera attribuée de manière inappropriée à X iYXiXjXiYXjXi. Cela signifie que la valeur de est biaisée; c'est ce qu'on appelle le biais variable omis . Xi

gung - Réintégrer Monica
la source
Très bon point à souligner dans cette dernière phrase.
Glen_b -Reinstate Monica
@gung je sais que votre réponse est ancienne mais je viens d'essayer ce ideone.com/6CAkSR où j'ai créé et x 2 sont corrélés et x 1 n'est pas corrélé avec y . Mais quand j'ai ajouté x 1 au modèle, le paramètre de x2 a changé bien que x 1 ne soit pas corrélé avec y . vous avez dit dans votre réponse "en corrélation avec la variable de réponse, Y Un bêta estimé ne changera pas lorsqu'une nouvelle variable est ajoutée, si l'un des éléments ci-dessus n'est pas corrélé.". Ai-je tort? yx2x1yx1x1yY
floyd
1
Il doit être parfaitement non corrélé, et pas seulement corrélé de manière significative, @floyd. Si c'est le cas, la version bêta de n'aurait pas dû changer, sauf en cas d'erreur. s1
gung - Réintégrer Monica
@gung merci beaucoup d'avoir répondu. Connaissez-vous un moyen de créer des données aussi parfaites? je sais que cela ne peut pas arriver dans la vraie vie
floyd
3

Il est mathématiquement possible que les coefficients ne changent pas, mais il est peu probable qu'il n'y ait aucun changement du tout avec des données réelles, même si toutes les variables indépendantes sont indépendantes les unes des autres. Mais, lorsque c'est le cas, les changements (autres que dans l'interception) auront tendance à 0:

set.seed(129231)
x1 <- rnorm(100)
x2 <- rnorm(100)
x3 <- rnorm(100)
x4 <- rnorm(100)
y <- x1 + x2 + x3 + x4 + rnorm(100, 0, .2)
lm1 <- lm(y~x1+x2+x3)
coef(lm1)
lm2 <- lm(y~x1+x2+x3+x4)
coef(lm2)

Dans le monde réel, cependant, les variables indépendantes sont souvent liées les unes aux autres. Dans ce cas, l'ajout d'une 4e variable à l'équation modifiera les autres coefficients, parfois de beaucoup.

Ensuite, il y a des interactions possibles ... mais c'est une autre question.

Peter Flom - Réintégrer Monica
la source
1

De manière générale, oui, l'ajout d'une variable modifie presque toujours les coefficients antérieurs.

En effet, c'est essentiellement la cause du paradoxe de Simpson , où les coefficients peuvent changer, voire inverser le signe, en raison de covariables omises.

Pour que cela ne se produise pas, nous aurions besoin que les nouvelles variables soient orthogonales aux précédentes. Cela se produit souvent dans les expériences conçues, mais il est très peu probable que cela se produise dans les données où le modèle des variables indépendantes n'est pas planifié.

Glen_b -Reinstate Monica
la source