Signe retournant lors de l'ajout d'une variable de régression et avec une ampleur beaucoup plus grande

9

Configuration de base:

modèle de régression: où C est le vecteur des variables de contrôle.y=constant+β1x1+β2x2+β3x3+β4x4+αC+ϵ

Je suis intéressé par et m'attends à ce que et soient négatifs. Cependant, il existe un problème de multicolinéarité dans le modèle, le coefficient de corrélation est donné par, corr ( , 0,9345, corr ( , 0,1765, corr ( , 0,3019.β 1 β 2 x 1 x 2 ) = x 1 x 3 ) = x 2 x 3 ) =ββ1β2x1x2)=x1x3)=x2x3)=

Ainsi, et sont fortement corrélés, et ils devraient pratiquement fournir les mêmes informations. Je lance trois régressions: x 2x1x2

  1. exclure la variable ; 2. exclure la variable ; 3. modèle original avec et .x 2 x 1 x 2x1x2x1x2

Résultats:
pour les régressions 1 et 2, il fournit le signe attendu pour et respectivement et avec une magnitude similaire. Et et sont significatifs au niveau de 10% dans les deux modèles après avoir fait la correction HAC en erreur standard. est positif mais non significatif dans les deux modèles.β 1 β 2β2β1β2β 3β1β3

Mais pour 3, a le signe attendu, mais le signe pour est positif avec une magnitude deux fois supérieure à en valeur absolue. Et et sont tous deux insignifiants. De plus, l'amplitude de diminue presque de moitié par rapport aux régressions 1 et 2.β 2 β 1 β 1β1β2β1β1β 3β2β3

Ma question est:

Pourquoi en 3, le signe de devient positif et bien supérieur à en valeur absolue? Y a-t-il une raison statistique pour laquelle peut retourner le signe et a une grande ampleur? Ou est-ce parce que les modèles 1 et 2 souffrent d'un problème de variable omis qui a gonflé condition que ait un effet positif sur y? Mais alors, dans les modèles de régression 1 et 2, et devraient être positifs plutôt que négatifs, car l'effet total de et dans le modèle de régression 3 est positif.β 1 β 2 β 3 x 2 β 2 β 1 x 1 x 2β2β1β2β3x2β2β1x1x2

ting
la source

Réponses:

8

Pensez à cet exemple:

Collectez un ensemble de données basé sur les pièces dans les poches des personnes, la variable y / réponse est la valeur totale des pièces, la variable x1 est le nombre total de pièces et x2 est le nombre de pièces qui ne sont pas des quarts (ou quelle que soit la plus grande valeur des pièces communes sont destinées aux locaux).

Il est facile de voir que la régression avec x1 ou x2 donnerait une pente positive, mais en incluant les deux dans le modèle, la pente sur x2 deviendrait négative, car augmenter le nombre de petites pièces sans augmenter le nombre total de pièces signifierait remplacer grandes pièces avec des plus petites et réduisant la valeur globale (y).

La même chose peut se produire chaque fois que vous avez corrélé des variables x, les signes peuvent facilement être opposés entre le moment où un terme est seul et en présence d'autres.

Greg Snow
la source
3

Vous avez répondu à votre propre question - il y a colinéarité.

Un peu d'explication: et x 2 sont fortement colinéaires. Mais lorsque vous entrez les deux dans la régression, la régression tente de contrôler l'effet des autres variables. En d'autres termes, maintenez x 1 constant, que font les changements de x 2 sur y . Mais le fait qu'ils soient si étroitement liés signifie que cette question est idiote et que des choses étranges peuvent se produire.x1x2x1x2y

Peter Flom
la source
β1x1+β2x2β2x2β1x1dans le modèle 2, car la corrélation par paire de x1 x2 avec x3 n'est pas élevée (en fait, c'est ma partie déroutante). Mais comme la corrélation peut être très compliquée, et dans la pratique, je ne devrais pas m'attendre à cela car mon modèle n'est qu'une approximation du DGP et la corrélation avec d'autres variables compte.
ting
Si vous voulez entrer dans les mathématiques, je recommande fortement les livres de David Belsley.
Peter Flom
Super, merci beaucoup!!! Juste demandé les livres de la bibliothèque :)
ting
2

Pourquoi en 3, le signe de β2 devient positif et bien supérieur à β1 en valeur absolue? Y a-t-il une raison statistique pour laquelle β2 peut retourner le signe et a une grande ampleur?

La réponse simple est qu'il n'y a pas de raison profonde.

La façon d'y penser est que lorsque le multicollinéaire approche de la perfection, les valeurs spécifiques que vous finissez par obtenir du raccord deviennent de plus en plus dépendantes de détails de plus en plus petits des données. Si vous deviez échantillonner la même quantité de données de la même distribution sous-jacente et ensuite ajuster, vous pourriez obtenir des valeurs ajustées complètement différentes.

oneloop
la source