Supposons la relation linéaire suivante: , où est la variable dépendante, une seule variable indépendante et le terme d'erreur.Y i X i u i
Selon Stock & Watson (Introduction à l'économétrie; chapitre 4 ), la troisième hypothèse des moindres carrés est que les quatrièmes moments de et sont non nuls et finis .u i ( 0 < E ( X 4 i ) < ∞ et 0 < E ( u 4 i ) < ∞ )
J'ai trois questions:
Je ne comprends pas bien le rôle de cette hypothèse. L'OLS est-il biaisé et incohérent si cette hypothèse ne tient pas ou avons-nous besoin de cette hypothèse pour l'inférence?
Stock et Watson écrivent «cette hypothèse limite la probabilité de tirer une observation avec des valeurs extrêmement grandes de ou ». Cependant, mon intuition est que cette hypothèse est extrême. Sommes-nous en difficulté si nous avons de grandes valeurs aberrantes (telles que les quatrièmes moments sont grands) mais si ces valeurs sont encore finies? Soit dit en passant: quelle est la définition sous-jacente d'une valeur aberrante?u i
Pouvons-nous reformuler ceci comme suit: "Les kurtosis de et sont non nuls et finis?"u i
la source
Réponses:
Vous n'avez pas besoin d'hypothèses sur les 4èmes moments pour la cohérence de l'estimateur OLS, mais vous avez besoin d'hypothèses sur les moments supérieurs de et ϵ pour la normalité asymptotique et pour estimer de manière cohérente ce qu'est la matrice de covariance asymptotique.X ϵ
Dans un certain sens cependant, c'est un point mathématique, technique, pas un point pratique. Pour que OLS fonctionne bien dans des échantillons finis, dans un certain sens, il faut plus que les hypothèses minimales nécessaires pour atteindre la cohérence asymptotique ou la normalité comme .n → ∞
Conditions suffisantes pour la cohérence:
Si vous avez l'équation de régression:
L'estimateur OLS b peut être écrit sous la forme: b = β + ( X ' Xb^
Par souci de cohérence , vous devez être en mesure d'appliquer la loi de Kolmogorov sur les grands nombres ou, dans le cas de séries chronologiques avec dépendance série, quelque chose comme le théorème ergodique de Karlin et Taylor afin que:
Les autres hypothèses nécessaires sont:
Alors et vous obtenez b p →ß( X′Xn)- 1( X′ϵn) →p0 b^→pβ
Si vous voulez que le théorème de la limite centrale s'applique, alors vous avez besoin d'hypothèses sur les moments supérieurs, par exemple, où g i = x i ϵ i . Le théorème central limite est ce que vous donne la normalité asymptotique de b et vous permet de parler des erreurs standard. Pour que le deuxième moment E [ g i g ′ i ] existe, vous avez besoin des 4èmes moments de x et ϵ pour exister. Vous voulez faire valoir que √E [ gjeg′je] gje= xjeϵje b^ E [ gjeg′je] X ϵ oùΣ=E[xix ′ i ϵ 2 i ]. Pour que cela fonctionne,Σdoit être fini.n--√( 1n∑jeX′jeϵje) →réN( 0 , Σ ) Σ = E [ xjeX′jeϵ2je] Σ
Une belle discussion (qui a motivé ce post) est donnée dans l' économétrie de Hayashi . (Voir aussi p. 149 pour les 4èmes moments et l'estimation de la matrice de covariance.)
Discussion:
Ces exigences sur les 4èmes moments sont probablement un point technique plutôt qu'un point pratique. Vous n'allez probablement pas rencontrer de distributions pathologiques où c'est un problème dans les données de tous les jours? C'est pour que les hypothèses les plus courantes ou d'autres OLS tournent mal.
Une autre question, sans aucun doute posée ailleurs sur Stackexchange, est la taille d'un échantillon dont vous avez besoin pour des échantillons finis afin de vous rapprocher des résultats asymptotiques. Il y a un certain sens dans lequel des valeurs aberrantes fantastiques conduisent à une convergence lente. Par exemple, essayez d'estimer la moyenne d'une distribution log-normale avec une variance très élevée. La moyenne de l'échantillon est un estimateur cohérent et non biaisé de la moyenne de la population, mais dans ce cas log-normal avec un excès de kurtosis fou, etc.
Fini et infini est une distinction extrêmement importante en mathématiques. Ce n'est pas le problème que vous rencontrez dans les statistiques quotidiennes. Les problèmes pratiques se situent davantage dans la catégorie petite vs grande. La variance, le kurtosis, etc. sont-ils suffisamment petits pour que je puisse obtenir des estimations raisonnables compte tenu de la taille de mon échantillon?
Exemple pathologique où l'estimateur OLS est cohérent mais pas asymptotiquement normal
Considérer:
Code pour le générer:
la source
Ces fondements théoriques des statistiques provoquent beaucoup de confusion lorsqu'ils se résument à des applications pratiques. Il n'y a pas de définition d'une valeur aberrante, c'est un concept intuitif. Pour la comprendre approximativement, l'observation devrait être un point de levier élevé ou un point d'influence élevé, par exemple pour lequel le diagnostic de suppression (DF beta) est très grand, ou pour lequel la distance de Mahalanobis dans les prédicteurs est grande (dans les statistiques univariées c'est juste un score Z). Mais revenons à des questions pratiques: si je mène une enquête aléatoire sur les personnes et le revenu de leur ménage, et sur 100 personnes, 1 des personnes que j'échantillon est un millionnaire, ma meilleure supposition est que les millionnaires sont représentatifs de 1% de la population . Dans une conférence sur les biostatistcs, ces principes sont discutés et soulignés que tout outil de diagnostic est essentiellement exploratoire [3].ce n'est pas "l'analyse qui exclut la valeur aberrante est celle que je crois", c'est "supprimer un point a complètement changé mon analyse".
La kurtosis est une quantité mise à l'échelle qui dépend du deuxième moment d'une distribution, mais l'hypothèse d'une variance finie non nulle pour ces valeurs est tacite car il est impossible que cette propriété se maintienne au quatrième moment mais pas au second. Donc, fondamentalement oui, mais dans l'ensemble je n'ai jamais inspecté ni kurtosis ni quatrième moment. Je ne les trouve pas comme une mesure pratique ou intuitive. En ce jour où un histogramme ou un nuage de points est produit par le claquement de doigts, il nous appartient d'utiliser des statistiques diagnostiques graphiques qualitatives, en inspectant ces graphiques.
[1] /math/79773/how-does-one-prove-that-lindeberg-condition-is-satisfied
[2] http://projecteuclid.org/download/pdf_1/euclid.ss/1177013818
[3] http://faculty.washington.edu/semerson/b517_2012/b517L03-2012-10-03/b517L03-2012-10-03.html
la source