Configuration de base:
modèle de régression: où C est le vecteur des variables de contrôle.
Je suis intéressé par et m'attends à ce que et soient négatifs. Cependant, il existe un problème de multicolinéarité dans le modèle, le coefficient de corrélation est donné par, corr ( , 0,9345, corr ( , 0,1765, corr ( , 0,3019.β 1 β 2 x 1 x 2 ) = x 1 x 3 ) = x 2 x 3 ) =
Ainsi, et sont fortement corrélés, et ils devraient pratiquement fournir les mêmes informations. Je lance trois régressions: x 2
- exclure la variable ; 2. exclure la variable ; 3. modèle original avec et .x 2 x 1 x 2
Résultats:
pour les régressions 1 et 2, il fournit le signe attendu pour et respectivement et avec une magnitude similaire. Et et sont significatifs au niveau de 10% dans les deux modèles après avoir fait la correction HAC en erreur standard. est positif mais non significatif dans les deux modèles.β 1 β 2β 3
Mais pour 3, a le signe attendu, mais le signe pour est positif avec une magnitude deux fois supérieure à en valeur absolue. Et et sont tous deux insignifiants. De plus, l'amplitude de diminue presque de moitié par rapport aux régressions 1 et 2.β 2 β 1 β 1β 3
Ma question est:
Pourquoi en 3, le signe de devient positif et bien supérieur à en valeur absolue? Y a-t-il une raison statistique pour laquelle peut retourner le signe et a une grande ampleur? Ou est-ce parce que les modèles 1 et 2 souffrent d'un problème de variable omis qui a gonflé condition que ait un effet positif sur y? Mais alors, dans les modèles de régression 1 et 2, et devraient être positifs plutôt que négatifs, car l'effet total de et dans le modèle de régression 3 est positif.β 1 β 2 β 3 x 2 β 2 β 1 x 1 x 2
La réponse simple est qu'il n'y a pas de raison profonde.
La façon d'y penser est que lorsque le multicollinéaire approche de la perfection, les valeurs spécifiques que vous finissez par obtenir du raccord deviennent de plus en plus dépendantes de détails de plus en plus petits des données. Si vous deviez échantillonner la même quantité de données de la même distribution sous-jacente et ensuite ajuster, vous pourriez obtenir des valeurs ajustées complètement différentes.
la source