Que se passe-t-il lorsque j'inclus une variable au carré dans ma régression?

20

Je commence par ma régression OLS: où D est une variable fictive, les estimations deviennent différentes de zéro avec une faible valeur de p. Je fais ensuite un test Ramsey RESET et constate que j'ai une mauvaise déformation de l'équation, j'inclus donc au carré x: y = β 0 + β 1 x 1 + β 2 x 2 1 + β 3 D + ε

y=β0+β1x1+β2D+ε
y=β0+β1x1+β2x12+β3D+ε
  1. Qu'est-ce que le terme au carré explique? (Augmentation non linéaire de Y?)
  2. En faisant cela, mon estimation D ne varie plus de zéro, avec une valeur p élevée. Comment interpréter le terme au carré dans mon équation (en général)?

Edit: Amélioration de la question.

seini
la source
1
Raison probable: X12 et semblent expliquer la même variabilité en y
poisson régulier
3
Une chose qui pourrait aider est de centrer X avant de créer votre terme au carré (voir ici ). Quant à l'interprétation de votre terme au carré, je soutiens qu'il est préférable d'interpréter β1X1+β2X12 dans son ensemble (voir ici ). Une autre chose est que vous pourriez avoir besoin d'une interaction, ce qui signifie ajouter β4X1+β5X12 .
gung - Réintégrer Monica
Je ne pense pas que ce soit vraiment un double de cette question; la solution est différente (le centrage des variables fonctionne ici, mais pas là, sauf erreur de ma part)
Peter Flom - Reinstate Monica
@Peter, j'interprète cette question comme un sous-ensemble de "Pourquoi est-ce que lorsque j'ajoute une variable à mon modèle, l'estimation de l'effet / la valeur p pour certains autres changements de variable?", Qui est abordée dans l'autre question. Parmi les réponses à cette question sont colinéarité (qui Gung fait faire allusion dans sa réponse à cette question) / chevauchement contenu entre les prédicteurs (entre et (X1,X12) , que je soupçonne est le coupable dans ce cas). La même logique s'applique ici. Je ne sais pas quelle est la controverse, mais c'est bien si vous et d'autres n'êtes pas d'accord. À votre santé.
Macro

Réponses:

21

Eh bien, tout d'abord, la variable fictive est interprétée comme un changement d'interception. Autrement dit, votre coefficient vous donne la différence dans l'ordonnée à l'origine lorsque , c'est-à-dire lorsque , l'ordonnée à l'origine est . Cette interprétation ne change pas lors de l'ajout du carré . D = 1 D = 1 β 0 + β 3 x 1β3=1=1β0+β3X1

Maintenant, le point d'ajouter un carré à la série est que vous supposez que la relation se dissipe à un certain point. En regardant votre deuxième équation

y=β0+β1X1+β2X12+β3+ε

Prendre le dérivé par rapport aux rendementsX1

δyδX1=β1+2β2X1

La résolution de cette équation vous donne le tournant de la relation. Comme l'explique l'utilisateur 1493368, cela reflète en effet une forme en U inverse si et vice versa. Prenons l'exemple suivant:β1<0

y^=1,3+0,42X1-0,32X12+0,14

La dérivée wrt estX1

δyδX1=0,42-20,32X1

La résolution de vous donneX1

δyδX1=0X10,66

C'est le point où la relation a son tournant. Vous pouvez jeter un œil à la sortie de Wolfram-Alpha pour la fonction ci-dessus, pour une visualisation de votre problème.

Rappelez-vous, lorsque vous interprétez l'effet ceteris paribus d'un changement de sur , vous devez regarder l'équation:X1y

Δy=(β1+2β2X1)ΔX

Autrement dit, vous ne pouvez pas interpréter isolément, une fois que vous avez ajouté le régresseur carré !β1X12

En ce qui concerne votre insignifiant après avoir inclus le carré , il pointe vers un biais de mauvaise spécification.X1

altabq
la source
Salut. Si vous aviez plusieurs prédicteurs, devriez-vous utiliser des dérivées partielles ou des dérivées totales (diférentielles)?
skan
1
Une dérivée partielle est toujours la bonne voie à suivre ici. L'interprétation de tous les coefficients est ceteris paribus , c'est-à-dire que tout le reste est constant. C'est exactement ce que vous faites lorsque vous prenez une dérivée partielle.
altabq
Voir cette page UCLA IDRE pour compléter la grande réponse de @ altabq.
Cyrille
19

Un bon exemple d'inclusion d'un carré de variable provient de l'économie du travail. Si vous supposez en ytant que salaire (ou logarithme du salaire) et xen tant qu'âge, l'inclusion x^2signifie que vous testez la relation quadratique entre un âge et la rémunération. Le salaire augmente avec l'âge au fur et à mesure que les gens deviennent plus expérimentés, mais à un âge plus élevé, le salaire commence à augmenter à un rythme décroissant (les gens vieillissent et ils ne seront pas en aussi bonne santé pour travailler qu'auparavant) et à un moment donné, le salaire n'augmente pas ( atteint le niveau de salaire optimal) puis commence à baisser (ils prennent leur retraite et leurs gains commencent à diminuer). Ainsi, la relation entre le salaire et l'âge est en U inversé (effet du cycle de vie). En général, pour l'exemple mentionné ici, le coefficient sur agedevrait être positif et que surage^2Le point ici est qu'il devrait y avoir une base théorique / justification empirique pour l'inclusion du carré de la variable. La variable muette, ici, peut être considérée comme représentant le sexe du travailleur. Vous pouvez également inclure le terme d'interaction du sexe et de l'âge pour examiner si la différence de genre varie selon l'âge.

Métrique
la source