Disons que j'ai une régression multivariable (plusieurs variables indépendantes) qui se compose de 3 variables. Chacune de ces variables a un coefficient donné. Si je décide d'introduire une 4ème variable et de relancer la régression, les coefficients des 3 variables d'origine vont-ils changer?
Plus largement: dans une régression multivariable (plusieurs variables indépendantes), le coefficient d'une variable donnée est-il influencé par le coefficient d'une autre variable?
regression
multiple-regression
multivariable
Lukas Pleva
la source
la source
multivariable
vous par là plusieurs variables indépendantes ("régression multiple") ou plusieurs variables dépendantes ("régression multivariée" ou "MAN (C) OVA")?Réponses:
Une estimation des paramètres dans un modèle de régression (par ) vont être modifiées si une variable X j , est ajouté au modèle qui est:β^i Xj
Un bêta estimé ne changera pas lorsqu'une nouvelle variable est ajoutée, si l'un des éléments ci-dessus n'est pas corrélé. Notez que si elles ne sont pas corrélées dans la population ( par exemple, , ou ρ ( X j , Y ) = 0 ) est hors de propos. Ce qui importe, c'est que les deux corrélations d'échantillon sont exactement égales à 0 . Cela ne sera pratiquement jamais le cas dans la pratique, sauf si vous travaillez avec des données expérimentales où les variables ont été manipulées de manière à ce qu'elles ne soient pas corrélées par conception.ρ(Xi,Xj)=0 ρ(Xj,Y)=0 0
Notez également que la quantité que les paramètres changent peut ne pas être très significative (cela dépend, au moins en partie, de votre théorie). De plus, la quantité qu'ils peuvent changer est fonction de l'ampleur des deux corrélations ci-dessus.
Sur une note différente, il n'est pas vraiment correct de considérer ce phénomène comme "le coefficient d'une variable donnée [étant] influencé par le coefficient d'une autre variable". Ce ne sont pas les bêtas qui s'influencent mutuellement. Ce phénomène est le résultat naturel de l'algorithme utilisé par les logiciels statistiques pour estimer les paramètres de pente. Imaginez une situation où est causée à la fois par X i et X j , qui à leur tour sont corrélés entre eux. Si seulement X i est dans le modèle, une partie de la variation de Y due à X j sera attribuée de manière inappropriée à X iY Xi Xj Xi Y Xj Xi . Cela signifie que la valeur de est biaisée; c'est ce qu'on appelle le biais variable omis . Xi
la source
Il est mathématiquement possible que les coefficients ne changent pas, mais il est peu probable qu'il n'y ait aucun changement du tout avec des données réelles, même si toutes les variables indépendantes sont indépendantes les unes des autres. Mais, lorsque c'est le cas, les changements (autres que dans l'interception) auront tendance à 0:
Dans le monde réel, cependant, les variables indépendantes sont souvent liées les unes aux autres. Dans ce cas, l'ajout d'une 4e variable à l'équation modifiera les autres coefficients, parfois de beaucoup.
Ensuite, il y a des interactions possibles ... mais c'est une autre question.
la source
De manière générale, oui, l'ajout d'une variable modifie presque toujours les coefficients antérieurs.
En effet, c'est essentiellement la cause du paradoxe de Simpson , où les coefficients peuvent changer, voire inverser le signe, en raison de covariables omises.
Pour que cela ne se produise pas, nous aurions besoin que les nouvelles variables soient orthogonales aux précédentes. Cela se produit souvent dans les expériences conçues, mais il est très peu probable que cela se produise dans les données où le modèle des variables indépendantes n'est pas planifié.
la source