La première phrase de ce wiki Page réclamations « En économétrie, un problème d'endogénéité se produit lorsqu'une variable explicative est en corrélation avec le terme d'erreur. 1 »
Ma question est la suivante: comment cela peut-il arriver? La régression bêta n'est-elle pas choisie de telle sorte que le terme d'erreur soit orthogonal à l'espace des colonnes de la matrice de conception?
regression
habitant du nord
la source
la source
Réponses:
Vous confondez deux types de termes "erreur". Wikipédia a en fait un article consacré à cette distinction entre les erreurs et les résidus .
Dans une régression OLS, les résidus (vos estimations de l'erreur ou la perturbation sont en effet garantis à Uncorrelated avec les variables prédictives, en supposant la régression contient un terme d'interception.ε^
Mais les "vraies" erreurs peuvent bien être corrélées avec elles, et c'est ce qui compte comme endogénéité.ε
Pour garder les choses simples, considérons le modèle de régression (vous pouvez le voir décrit comme le " processus de génération de données " ou "DGP" sous-jacent , le modèle théorique que nous supposons pour générer la valeur de ):y
Il n'y a aucune raison, en principe, pour laquelle ne peut pas être corrélé avec ε dans notre modèle, mais nous préférerions qu'il ne viole pas les hypothèses OLS standard de cette manière. Par exemple, il se pourrait que y dépende d'une autre variable qui a été omise de notre modèle, et cela a été incorporé dans le terme de perturbation (le ε est l'endroit où nous regroupons toutes les choses autres que x qui affectent y ). Si cette variable omise est également corrélée avec x , alors ε sera à son tour corrélée avec x et nous avons une endogénéité (en particulier, biais de variable omise ).x ε y ε x y x ε x
Lorsque vous estimez votre modèle de régression sur les données disponibles, nous obtenons
En raison de la façon dont fonctionne OLS *, les résidus ε seront décorrélé x . Mais cela ne signifie pas que nous avons évité endogénéité - il signifie simplement que nous ne pouvons pas détecter en analysant la corrélation entre ε et x , qui sera (jusqu'à erreur numérique) zéro. Et parce que les hypothèses OLS ont été violées, nous ne sommes plus garantis des belles propriétés, telles que l'impartialité, nous apprécions tellement OLS. Notre estimation β 2 sera biaisé.ε^ x ε^ x β^2
Le fait que ε est décorrélé avec x suit immédiatement des « équations normales »nous utilisons pour choisir nos meilleures estimations pour les coefficients.(∗) ε^ x
Si vous n'êtes pas habitué au paramètre de matrice et que je m'en tiens au modèle bivarié utilisé dans mon exemple ci-dessus, alors la somme des résidus au carré est et de trouver la valeur optimale b 1 = β 1 et b 2 =S(b1,b2)=∑ni=1ε2i=∑ni=1(yi−b1−b2xi)2 b1=β^1 qui minimisent cela, nous trouvons les équations normales, tout d'abord la condition de premier ordre pour l'ordonnée à l'origine estimée:b2=β^2
ce qui montre que la somme (et donc la moyenne) des résidus est égal à zéro, donc la formule de la covariance entre ε et une variable x se réduit alors à uneε^ x . Nous voyons que c'est zéro en considérant la condition de premier ordre pour la pente estimée, qui est que1n−1∑ni=1xiε^i
Si vous avez l'habitude de travailler avec des matrices, nous pouvons généraliser cela à une régression multiple en définissant ; la conditionpremier ordre pour minimiser S ( b ) à optimal b = β est:S(b)=ε′ε=(y−Xb)′(y−Xb) S(b) b=β^
Cela implique que chaque rangée de , et donc chaque colonne de X , est orthogonale à ε . Ensuite, si la matrice de conception X a une colonne d'unités (ce qui se produit si votre modèle a un terme d'interception), nous devons avoir ∑ n i = 1X′ X ε^ X si les résidus ont somme nulle et moyenne nulle. La covariance entre ε et une variablexestnouveau1∑ni=1ε^i=0 ε^ x et pour toute variablexinclus dans notre modèlenous savonscette somme est égalezéro, parce que ε est orthogonale à chaque colonne de la matrice de conception. Par conséquentil est covariance égalzéro, et zéro corrélation entre ε et toute variable prédictivex.1n−1∑ni=1xiε^i x ε^ ε^ x
Si vous préférez une vue plus géométrique des choses , notre désir y réside aussi près que possible y en pythagoricien sorte de chemin , et le fait que y est contrainte à l'espace de la colonne de la matrice de conception X , que y doit être la projection orthogonale du y observé sur cet espace de colonne. D' où le vecteur des résidus ε = y - y est orthogonal à chaque colonne de X , y compris le vecteur de ceux 1 ny^ y y^ X y^ y ε^=y−y^ X 1n si un terme d'interception est inclus dans le modèle. Comme précédemment, cela implique que la somme des résidus est nulle, d'où l'orthogonalité du vecteur résiduel avec les autres colonnes de assure qu'il n'est pas corrélé avec chacun de ces prédicteurs.X
Mais rien de ce que nous avons fait ici ne dit quoi que ce soit sur les vraies erreurs . En supposant qu'il est un terme d'interception dans notre modèle, les résidus ε ne sont pas corrélés avec x comme conséquence mathématique de la manière dont nous avons choisi d'estimer les coefficients de régression ß . La façon dont nous avons choisi notre β affecte nos valeurs prédites y et donc nos résidus ε = y - y . Si l' on choisit β par OLS, nous devons résoudre les équations normales et que celles - ci appliquer nos résidus estimésε ε^ x β^ β^ y^ ε^=y−y^ β^ ne sont pas corrélés avecx. Notre choix de β affecte y mais pasE(y)et impose donc aucune condition sur les vraies erreursε=y-E(y). Ce serait une erreur de penser que ε aquelque sorte « hérité »son avec non corrélationxde l'hypothèse OLS queεdoit être décorrélé avecx. L'incorrélation découle des équations normales.ε^ x β^ y^ E(y) ε=y−E(y) ε^ x ε x
la source
Exemple simple:
Le processus de génération de données est:
If we ran that regression, we would get estimatesa^ , b^1 , and b^2 , and with enough data, they would converge on a , b1 , and b2 respectively.
(Technical note: We need a little randomness so we don't buy exactly one bun for each burger we buy at every visit to the grocery store. If we did this,x1 and x2 would be collinear.)
An example of omitted variable bias:
Now let's consider the model:
Observe thatui=b2xi,2+ϵi . Hence
Is this zero? Almost certainly not! The purchase of burgersx1 and the purchase of buns x2 are almost certainly correlated! Hence u and x1 are correlated!
What happens if you tried to run the regression?
If you tried to run:
Your estimateb^1 would almost certainly be a poor estimate of b1 because the OLS regression estimates a^,b^,u^ would be constructed so that u^ and x1 are uncorrelated in your sample. But the actual u is correlated with x1 in the population!
What would happen in practice if you did this? Your estimateb^1 of the price of burgers would ALSO pickup the price of buns. Let's say every time you bought a $1 burger you tended to buy a $0.50 bun (but not all the time). Your estimate of the price of burgers might be $1.40. You'd be picking up the burger channel and the bun channel in your estimate of the burger price.
la source
Suppose that we're building a regression of the weight of an animal on its height. Clearly, the weight of a dolphin would be measured differently (in different procedure and using different instruments) from the weight of an elephant or a snake. This means that the model errors will be dependent on the height, i.e. explanatory variable. They could be dependent in many different ways. For instance, maybe we tend to slightly overestimate the elephant weights and slightly underestimate the snake's, etc.
So, here we established that it is easy to end up with a situation when the errors are correlated with the explanatory variables. Now, if we ignore this and proceed to regression as usual, we'll notice that the regression residuals are not correlated with the design matrix. This is because, by design the regression forces the residuals to be uncorrelated. Note, also that residuals are not the errors, they're the estimates of errors. So, regardless of whether the errors themselves are correlated or not with the independent variables the error estimates (residuals) will be uncorrelated by the construction of the regression equation solution.
la source