Comment le terme d'erreur de régression peut-il être corrélé avec les variables explicatives?

22

La première phrase de ce wiki Page réclamations « En économétrie, un problème d'endogénéité se produit lorsqu'une variable explicative est en corrélation avec le terme d'erreur. 1 »

Ma question est la suivante: comment cela peut-il arriver? La régression bêta n'est-elle pas choisie de telle sorte que le terme d'erreur soit orthogonal à l'espace des colonnes de la matrice de conception?

habitant du nord
la source
9
La régression bêta est choisie de telle sorte que le résidu soit orthogonal à l'espace de colonne de la matrice de conception. Et cela peut donner une horrible estimation de la vraie bêta si le terme d' erreur n'est pas orthogonal à l'espace de colonne de la matrice de conception! (c'est-à-dire si votre modèle ne satisfait pas aux hypothèses nécessaires pour estimer de manière cohérente les coefficients par régression).
Matthew Gunn
3
L'orthogonalité du terme d'erreur et de l'espace des colonnes de la matrice de conception n'est pas une propriété de votre méthode d'estimation (par exemple, la régression des moindres carrés ordinaires), c'est une propriété du modèle (par exemple, yi=a+bxi+ϵi ).
Matthew Gunn
Je pense que votre montage devrait être une nouvelle question parce que vous semblez avoir changé substantiellement ce que vous demandez. Vous pouvez toujours créer un lien vers celui-ci. (Je pense que vous devez aussi le formuler mieux - lorsque vous écrivez «quel serait l'effet», je ne sais pas exactement quoi ?) Notez que poser une nouvelle question produit généralement plus d'attention, ce qui serait un avantage pour vous sur l'édition d'un existant.
Silverfish

Réponses:

28

Vous confondez deux types de termes "erreur". Wikipédia a en fait un article consacré à cette distinction entre les erreurs et les résidus .

Dans une régression OLS, les résidus (vos estimations de l'erreur ou la perturbation sont en effet garantis à Uncorrelated avec les variables prédictives, en supposant la régression contient un terme d'interception.ε^

Mais les "vraies" erreurs peuvent bien être corrélées avec elles, et c'est ce qui compte comme endogénéité.ε

Pour garder les choses simples, considérons le modèle de régression (vous pouvez le voir décrit comme le " processus de génération de données " ou "DGP" sous-jacent , le modèle théorique que nous supposons pour générer la valeur de ):y

yi=β1+β2xi+εi

Il n'y a aucune raison, en principe, pour laquelle ne peut pas être corrélé avec ε dans notre modèle, mais nous préférerions qu'il ne viole pas les hypothèses OLS standard de cette manière. Par exemple, il se pourrait que y dépende d'une autre variable qui a été omise de notre modèle, et cela a été incorporé dans le terme de perturbation (le ε est l'endroit où nous regroupons toutes les choses autres que x qui affectent y ). Si cette variable omise est également corrélée avec x , alors ε sera à son tour corrélée avec x et nous avons une endogénéité (en particulier, biais de variable omise ).xεyεxyxεx

Lorsque vous estimez votre modèle de régression sur les données disponibles, nous obtenons

yi=β^1+β^2xi+ε^i

En raison de la façon dont fonctionne OLS *, les résidus ε seront décorrélé x . Mais cela ne signifie pas que nous avons évité endogénéité - il signifie simplement que nous ne pouvons pas détecter en analysant la corrélation entre ε et x , qui sera (jusqu'à erreur numérique) zéro. Et parce que les hypothèses OLS ont été violées, nous ne sommes plus garantis des belles propriétés, telles que l'impartialité, nous apprécions tellement OLS. Notre estimation β 2 sera biaisé.ε^xε^xβ^2


Le fait que ε est décorrélé avec x suit immédiatement des « équations normales »nous utilisons pour choisir nos meilleures estimations pour les coefficients.()ε^x

Si vous n'êtes pas habitué au paramètre de matrice et que je m'en tiens au modèle bivarié utilisé dans mon exemple ci-dessus, alors la somme des résidus au carré est et de trouver la valeur optimale b 1 = β 1 et b 2 =S(b1,b2)=i=1nεi2=i=1n(yib1b2xi)2b1=β^1qui minimisent cela, nous trouvons les équations normales, tout d'abord la condition de premier ordre pour l'ordonnée à l'origine estimée:b2=β^2

Sb1=i=1n2(yib1b2xi)=2i=1nε^i=0

ce qui montre que la somme (et donc la moyenne) des résidus est égal à zéro, donc la formule de la covariance entre ε et une variable x se réduit alors à uneε^x. Nous voyons que c'est zéro en considérant la condition de premier ordre pour la pente estimée, qui est que1n1i=1nxiε^i

Sb2=i=1n2xi(yib1b2xi)=2i=1nxiε^i=0

Si vous avez l'habitude de travailler avec des matrices, nous pouvons généraliser cela à une régression multiple en définissant ; la conditionpremier ordre pour minimiser S ( b ) à optimal b = β est:S(b)=εε=(yXb)(yXb)S(b)b=β^

dSdb(β^)=ddb(yybXyyXb+bXXb)|b=β^=2Xy+2XXβ^=2X(yXβ^)=2Xε^=0

Cela implique que chaque rangée de , et donc chaque colonne de X , est orthogonale à ε . Ensuite, si la matrice de conception X a une colonne d'unités (ce qui se produit si votre modèle a un terme d'interception), nous devons avoir n i = 1XXε^Xsi les résidus ont somme nulle et moyenne nulle. La covariance entre ε et une variablexestnouveau1i=1nε^i=0ε^xet pour toute variablexinclus dans notre modèlenous savonscette somme est égalezéro, parce que ε est orthogonale à chaque colonne de la matrice de conception. Par conséquentil est covariance égalzéro, et zéro corrélation entre ε et toute variable prédictivex.1n1i=1nxiε^ixε^ε^x

Si vous préférez une vue plus géométrique des choses , notre désir y réside aussi près que possible y en pythagoricien sorte de chemin , et le fait que y est contrainte à l'espace de la colonne de la matrice de conception X , que y doit être la projection orthogonale du y observé sur cet espace de colonne. D' où le vecteur des résidus ε = y - y est orthogonal à chaque colonne de X , y compris le vecteur de ceux 1 ny^y y^Xy^yε^=yy^X1nsi un terme d'interception est inclus dans le modèle. Comme précédemment, cela implique que la somme des résidus est nulle, d'où l'orthogonalité du vecteur résiduel avec les autres colonnes de assure qu'il n'est pas corrélé avec chacun de ces prédicteurs.X

Vecteurs dans l'espace sujet de régression multiple

Mais rien de ce que nous avons fait ici ne dit quoi que ce soit sur les vraies erreurs . En supposant qu'il est un terme d'interception dans notre modèle, les résidus ε ne sont pas corrélés avec x comme conséquence mathématique de la manière dont nous avons choisi d'estimer les coefficients de régression ß . La façon dont nous avons choisi notre β affecte nos valeurs prédites y et donc nos résidus ε = y - y . Si l' on choisit β par OLS, nous devons résoudre les équations normales et que celles - ci appliquer nos résidus estimésεε^xβ^β^y^ε^=yy^β^ ne sont pas corrélés avecx. Notre choix de β affecte y mais pasE(y)et impose donc aucune condition sur les vraies erreursε=y-E(y). Ce serait une erreur de penser que ε aquelque sorte « hérité »son avec non corrélationxde l'hypothèse OLS queεdoit être décorrélé avecx. L'incorrélation découle des équations normales.ε^xβ^y^E(y)ε=yE(y)ε^xεx

Silverfish
la source
1
votre signifie-t-il une régression à l'aide des données de population? Ou qu'est-ce que cela signifie précisément? yi=β1+β2xi+εi
habitant du nord
@ user1559897 Oui, certains manuels appellent cela la "ligne de régression de la population" ou PRL. C'est le modèle théorique sous-jacent de la population; vous pouvez également voir cela appelé le "processus de génération de données" dans certaines sources. (J'ai tendance à être un peu prudent en disant que c'est la "régression sur la population" ... si vous avez une population finie, par exemple 50 états des USA, sur laquelle vous effectuez la régression, alors ce n'est pas tout à fait vrai Si vous exécutez réellement une population sur certaines données de votre logiciel, vous parlez vraiment de la version estimée de la régression, avec les "chapeaux")
Silverfish
Je pense que je vois ce que vous dites. Si je vous comprends bien, le terme d'erreur dans le modèle pourrait également avoir une espérance non nulle car il s'agit d'un processus générateur théorique, et non d'une régression ols. yi=β1+β2xi+εi
habitant du nord
Il s'agit d'une excellente réponse du point de vue de l'inférence statistique. Selon vous, quel serait l'effet si l'exactitude des prévisions était la principale préoccupation? Voir l'édition de l'article.
habitant du nord
16

Exemple simple:

  • Let xi,1 be the number of burgers I buy on visit i
  • Let xi,2 be the number of buns I buy.
  • Let b1 be the price of a burger
  • Let b2 be the price of a bun.
  • Independent of my burger and bun purchases, let me spend a random amount a+ϵi where a is a scalar and ϵi is a mean zero random variable. We have E[ϵi|X]=0.
  • yi

Le processus de génération de données est:

yi=a+b1xi,1+b2xi,2+ϵi

If we ran that regression, we would get estimates a^, b^1, and b^2, and with enough data, they would converge on a, b1, and b2 respectively.

(Technical note: We need a little randomness so we don't buy exactly one bun for each burger we buy at every visit to the grocery store. If we did this, x1 and x2 would be collinear.)

An example of omitted variable bias:

Now let's consider the model:

yi=a+b1xi,1+ui

Observe that ui=b2xi,2+ϵi. Hence

Cov(x1,u)=Cov(x1,b2x2+ϵ)=b2Cov(x1,x2)+Cov(x1,ϵ)=b2Cov(x1,x2)

Is this zero? Almost certainly not! The purchase of burgers x1 and the purchase of buns x2 are almost certainly correlated! Hence u and x1 are correlated!

What happens if you tried to run the regression?

If you tried to run:

yi=a^+b^1xi,1+u^i

Your estimate b^1 would almost certainly be a poor estimate of b1 because the OLS regression estimates a^,b^,u^ would be constructed so that u^ and x1 are uncorrelated in your sample. But the actual u is correlated with x1 in the population!

What would happen in practice if you did this? Your estimate b^1 of the price of burgers would ALSO pickup the price of buns. Let's say every time you bought a $1 burger you tended to buy a $0.50 bun (but not all the time). Your estimate of the price of burgers might be $1.40. You'd be picking up the burger channel and the bun channel in your estimate of the burger price.

Matthew Gunn
la source
I like your burger bun example. You explained the problem from the perspective of statistical inference, ie inferring the effect of burger on price. Just wondering what the effect would be if all I care about is prediction, i.e prediction MSE on a test dataset? The intuition is that it is not going to be as good, but is there any theory to make it more precise? (this introduced more bias, but less variance, so the overall effect is not apparent to me. )
denizen of the north
1
@user1559897 If you just care about predicting spending, then predicting spending using the number of burgers and estimating b^1 as around $1.40 might work pretty well. If you have enough data, using the number of burgers and buns would undoubtedly work better. In short samples, L1 regularlization (LASSO) might send one of the coefficients b1 or b2 to zero. I think you're correctly recognizing that what you're doing in regression is estimating a conditional expectation function. My point is for that that function to capture causal effects, you need additional assumptions.
Matthew Gunn
3

Suppose that we're building a regression of the weight of an animal on its height. Clearly, the weight of a dolphin would be measured differently (in different procedure and using different instruments) from the weight of an elephant or a snake. This means that the model errors will be dependent on the height, i.e. explanatory variable. They could be dependent in many different ways. For instance, maybe we tend to slightly overestimate the elephant weights and slightly underestimate the snake's, etc.

So, here we established that it is easy to end up with a situation when the errors are correlated with the explanatory variables. Now, if we ignore this and proceed to regression as usual, we'll notice that the regression residuals are not correlated with the design matrix. This is because, by design the regression forces the residuals to be uncorrelated. Note, also that residuals are not the errors, they're the estimates of errors. So, regardless of whether the errors themselves are correlated or not with the independent variables the error estimates (residuals) will be uncorrelated by the construction of the regression equation solution.

Aksakal
la source