Hypothèses pour dériver l'estimateur OLS

14

Quelqu'un peut-il m'expliquer brièvement pourquoi chacune des six hypothèses est nécessaire pour calculer l'estimateur OLS? Je n'ai découvert que la multicolinéarité - si elle existe, nous ne pouvons pas inverser la matrice (X'X) et à son tour estimer l'estimateur global. Qu'en est-il des autres (par exemple, linéarité, erreurs moyennes nulles, etc.)?

Ieva
la source
1
Recherchez-vous une explication conceptuelle ou avez-vous besoin d'une démonstration mathématique?
gung - Rétablir Monica
4
Les moindres carrés ordinaires sont une procédure numérique, vous n'avez pas besoin de beaucoup d'hypothèses pour le calculer (à part l'inversibilité). Les hypothèses sont nécessaires pour justifier l' inférence basée sur elle, voir ma réponse hier: stats.stackexchange.com/questions/148803/…
kjetil b halvorsen
1
De quelles "six hypothèses" parlez-vous exactement? Vous n'en mentionnez que trois.
whuber
Je fais référence à 1) la linéarité 2) l'absence de multicolinéarité 3) les erreurs moyennes nulles 4) les erreurs sphériques (homoscédasticité et non autocorrélation) 5) les régresseurs non stochastiques et 6) la distribution normale. Donc, si j'ai bien compris la réponse ci-dessous, seules les trois premières sont nécessaires pour dériver l'estimateur et d'autres ne sont nécessaires que pour s'assurer que l'estimateur est BLEU?
Ieva

Réponses:

23

Vous pouvez toujours calculer l'estimateur OLS, sauf dans le cas où vous avez une multicolinéarité parfaite. Dans ce cas, vous avez une dépendance multilinéaire parfaite dans votre matrice X. Par conséquent, l'hypothèse de rang complet n'est pas remplie et vous ne pouvez pas calculer l'estimateur OLS, en raison de problèmes d'invertibilité.

Techniquement, vous n'avez pas besoin des autres hypothèses OLS pour calculer l'estimateur OLS. Cependant, selon le théorème de Gauss – Markov, vous devez remplir l'hypothèse OLS (hypothèses clrm) pour que votre estimateur soit BLEU.

Vous pouvez trouver une discussion approfondie sur le théorème de Gauss – Markov et sa dérivation mathématique ici:

http://economictheoryblog.com/2015/02/26/markov_theorem/

En outre, si vous recherchez un aperçu de l'hypothèse OLS, c'est-à-dire combien il y en a, ce dont ils ont besoin et ce qui se passe si vous violez l'hypothèse OLS unique, vous trouverez ici une discussion détaillée:

http://economictheoryblog.com/2015/04/01/ols_assumptions/

J'espère que ça aide, bravo!

Simon Degonda
la source
14

Ce qui suit est basé sur des coupes simples, pour les séries chronologiques et les panneaux, il est quelque peu différent.

  1. Dans la population, et donc dans l'échantillon, le modèle peut s'écrire: C'est l'hypothèse de linéarité, qui est parfois mal comprise. Le modèle doit être linéaire dans les paramètres - à savoir leβk. Vous êtes libre de faire ce que vous voulez avec lesxieux-mêmes. Logs, carrés, etc. Si ce n'est pas le cas, le modèle ne peut pas être estimé par OLS - vous avez besoin d'un autre estimateur non linéaire.
    Y=β0+β1x1++βkxk+u=Xβ+u
    βkxi
  2. Un échantillon aléatoire (pour les coupes transversales) Ceci est nécessaire pour l'inférence et les propriétés de l'échantillon. Il est quelque peu hors de propos pour la mécanique pure d'OLS.
  3. Pas de colinéarité parfaite Cela signifie qu'il ne peut y avoir de relation parfaite entre les . C'est l'hypothèse qui garantit que ( X X ) est non singulier, de sorte que ( X X ) - 1 existe.xi(XX)(XX)1
  4. Zéro conditionnelle moyenne: . Cela signifie que vous avez correctement spécifié le modèle de façon à ce qu'il n'y ait pas de variables omises et que la forme fonctionnelle que vous estimez soit correcte par rapport au modèle de population (inconnu). C'est toujours l'hypothèse problématique avec OLS, car il n'y a aucun moyen de savoir s'il est réellement valide ou non.E(u|X)=0
  5. La variance du terme d'erreurs est constante, conditionnée à tout : V a r ( u | X ) = σ 2 Encore une fois, cela ne signifie rien pour la mécanique de l'OLS, mais cela garantit que les erreurs standard habituelles sont valides.XiVar(u|X)=σ2
  6. Normalité; le terme d'erreur u est indépendant de et suit u N ( 0 , σ 2 ) . Encore une fois, cela n'est pas pertinent pour la mécanique de l'OLS, mais garantit que la distribution d'échantillonnage du β k est normale, ^ β kN ( β k , V a r ( ^ β k ) ) .XiuN(0,σ2)βkβk^N(βk,Var(βk^))

Maintenant pour les implications.

  1. Sous 1 à 6 (les hypothèses du modèle linéaire classique), l'OLS est BLEU (meilleur estimateur linéaire sans biais), le meilleur dans le sens de la plus faible variance. Il est également efficace parmi tous les estimateurs linéaires, ainsi que tous les estimateurs qui utilisent une fonction du x. Plus important encore, sous 1 à 6, l'OLS est également l'estimateur sans biais de la variance minimale. Cela signifie que parmi tous les estimateurs non biaisés (et pas seulement linéaires), l'OLS présente la plus petite variance. OLS est également cohérent.

  2. Sous 1 à 5 (les hypothèses de Gauss-Markov), l'OLS est BLEU et efficace (comme décrit ci-dessus).

  3. Sous 1 à 4, l'OLS est non biaisé et cohérent.

En fait, OLS est également cohérent, sous une hypothèse plus faible que savoir que: ( 1 ) E ( u ) = 0 et ( 2 ) C o v ( x j , u ) = 0 . La différence avec les hypothèses 4 est que, dans cette hypothèse, vous n'avez pas besoin de clouer parfaitement la relation fonctionnelle.(4)(1) E(u)=0(2) Cov(xj,u)=0

Repmat
la source
Je pense que vous peignez une image trop sombre de la condition moyenne zéro. S'il y avait un biais, minimiser la somme des écarts au carré ne serait pas la chose appropriée à faire, mais d'un autre côté, vous pouvez capturer le biais en déplaçant l'équation de régression (en absorbant le biais en ), puis vous n'avez moyenne 0. En d' autres termes, 4 est à la fois impossible de vérifier et facile d'ignorer. β0
user3697176
Je suis désolé, mais je ne suis pas d'accord. Ou peut-être que je vous comprends mal? Pourriez-vous soit éloborer, soit donner une référence.
Repmat
Je ne parle pas d'estimation intentionnellement déformée (telle que la régression de crête), ce qui, je pense, n'était pas intéressé par le PO. Je parle d'un modèle de la forme dans laquelle --- pour une raison étrange --- le résiduel ϵ a une moyenne α 0 . Dans ce cas, il est facile de faire une transformation formelle en y = α + β 0 + β 1 x 1 + +y=β0+β1x1++βxxn+ϵϵα0 , où la moyenne de η est nulle. y=α+β0+β1x1++βxxn+ηη
user3697176
@ user3697176 Ce que vous écrivez n'est pas correct. Je viens de poster une réponse pour expliquer pourquoi.
Alecos Papadopoulos
Si l'hypothèse 1 n'est pas satisfaite, ne pouvons-nous pas encore utiliser l'OLS pour estimer la covariance de la population (même si nous savons qu'il n'y a pas de relation linéaire)?
max
7

Un commentaire dans une autre question a soulevé des doutes quant à l'importance de la condition , arguant qu'elle peut être corrigée par l'inclusion d'un terme constant dans la spécification de régression, et ainsi "il peut être facilement ignoré".E(uX)=0

Ce n'est pas le cas. L'inclusion d'un terme constant dans la régression absorbera la moyenne conditionnelle éventuellement non nulle du terme d'erreur si nous supposons que cette moyenne conditionnelle est déjà une constante et non une fonction des régresseurs . C'est l'hypothèse cruciale qui doit être faite indépendamment du fait que nous incluions ou non un terme constant:

E(uX)=const.

Si tel est le cas, alors la moyenne non nulle devient une nuisance que nous pouvons simplement résoudre en incluant un terme constant.

Mais si cela ne tient pas , (c'est-à-dire si la moyenne conditionnelle n'est pas une constante nulle ou non nulle ), l'inclusion du terme constant ne résout pas le problème: ce qu'il "absorbera" dans ce cas est une magnitude cela dépend de l'échantillon spécifique et des réalisations des régresseurs. En réalité, le coefficient inconnu attaché à la série de uns, n'est pas vraiment une constante mais variable, selon les régresseurs à travers la moyenne conditionnelle non constante du terme d'erreur.

Qu'est-ce que cela implique? Pour simplifier, supposons le cas le plus simple, où ( i indexe les observations) mais que E ( u ix i ) = h ( x i ) . C'est-à-dire que le terme d'erreur est indépendant de la moyenne des régresseurs, sauf de ses contemporains (dans X, nous n'en incluons pas une série de uns).E(uiXi)=0iE(uixi)=h(xi)X

Supposons que nous spécifions la régression avec l'inclusion d'un terme constant (un régresseur d'une série de termes).

y=a+Xβ+ε

et notation de compactage

y=Zγ+ε

, Z = [ 1 : X ] , γ = ( a , ß ) ' , ε = u - a .a=(a,a,a...)Z=[1:X]γ=(a,β)ε=ua

Ensuite, l'estimateur OLS sera

γ^=γ+(ZZ)1Zε

Pour être sans biais, nous avons besoin de . MaisE[εZ]=0

E[εixi]=E[uiaxi]=h(xi)a

qui ne peut pas être nul pour tout , puisque nous examinons le cas où h ( x i ) n'est pas une fonction constante. Doncih(xi)

E[εZ]0E(γ^)γ

et

Si , alors même si nous incluons un terme constant dans la régression, l'estimateur OLS ne sera pas sans biais , ce qui signifie également que le résultat de Gauss-Markov sur l'efficacité est perduE(uixi)=h(xi)h(xj)=E(ujxj) .

De plus, le terme d'erreur a une moyenne différente pour chaque i , et donc aussi une variance différente (c'est-à-dire qu'il est hétéroscédastique conditionnellement). Sa distribution conditionnelle aux régresseurs diffère donc selon les observations i . εii

Mais cela signifie que même si le terme d'erreur est supposée normale, la distribution de l'erreur d'échantillonnage γ - γ est normale , mais pas zéro moyenne Mormal, et biais inconnu. Et la variance sera différente. Doncuiγ^γ

Si , alors même si nous incluons un terme constant dans la régression, le test d'hypothèse n'est plus valide.E(uixi)=h(xi)h(xj)=E(ujxj)

En d'autres termes, les propriétés "échantillon fini" ont toutes disparu.

Il nous reste seulement la possibilité de recourir à une inférence asymptotiquement valide , pour laquelle nous devrons faire des hypothèses supplémentaires.

Autrement dit, l' exogénéité stricte ne peut pas être «facilement ignorée» .

Alecos Papadopoulos
la source
Je ne suis pas sûr de bien comprendre cela. N'est-ce pas supposer que la moyenne n'est pas une fonction des régresseurs équivalente à l'hypothèse d'homoscédasticité?
Batman
@Batman À quelle partie de mon message faites-vous référence?
Alecos Papadopoulos
Lorsque vous dites "L'inclusion d'un terme constant dans la régression absorbera la moyenne conditionnelle éventuellement non nulle du terme d'erreur si nous supposons que cette moyenne conditionnelle est déjà une constante et non une fonction des régresseurs. C'est l'hypothèse cruciale cela doit être fait indépendamment du fait que nous incluions ou non un terme constant. " N'est-ce pas en supposant que la moyenne conditionnelle n'est pas une fonction des régresseurs exactement ce que nous supposons lorsque nous supposons l'homoscédasticité?
Batman
E(uj2x) is also a constant, which is also needed for conditional homoskedasticity. In fact, mean-independence, E(ux)=const. together with conditional heteroskedasticity, E(u2x)=g(x) is a standard model variant.
Alecos Papadopoulos