Lorsque (c'est-à-dire que provient d'un modèle de régression linéaire), \ varepsilon \ sim \ mathcal {N} (0, \ sigma ^ 2 I) \ hspace {1em} \ Rightarrow \ hspace {1em} \ hat {e} = (I - H) Y \ sim \ mathcal {N} (0, (I - H) \ sigma ^ 2_ {}) et dans ce cas, les résidus \ hat {e} _1, \ ldots, \ hat { e} _n sont corrélés et non indépendants. Mais lorsque nous effectuons des diagnostics de régression et que nous voulons tester l'hypothèse \ varepsilon \ sim \ mathcal {N} (0, \ sigma ^ 2 I) , chaque manuel suggère d'utiliser des tracés Q – Q et des tests statistiques sur les résidus \ hat {e} qui ont été conçus pour tester si \ hat {e} \ sim \ mathcal {N} (0, \ sigma ^ 2 I) pour certains \ sigma ^ 2 \ in \ mathbb {R} .Y ε ∼ N ( 0 , σ 2 I )E 1 , ... , e n ε ~ N ( 0 , σ 2 I ) e e
Comment se fait-il que pour ces tests, les résidus soient corrélés et non indépendants? Il est souvent suggéré d'utiliser des résidus standardisés:
Pour reformuler la question: les résidus de régression OLS sont corrélés. Je comprends que dans la pratique, ces corrélations sont si petites (la plupart du temps? Toujours?), Elles peuvent être ignorées lors du test pour savoir si les résidus proviennent d'une distribution normale. Ma question est, pourquoi?
la source
Réponses:
Dans votre notation, est la projection et l'espace de colonne de , c'est-à-dire le sous-espace de tous les régresseurs. Par conséquent, est la projection sur tout ce qui est orthogonal au sous-espace couvert par tous les régresseurs.X M : = I n - HH X M: = Jen- H
Si , alors est singulièrement distribué normalement et les éléments sont corrélés, comme vous le dites.e ∈ R nX∈Rn×k e^∈Rn
Les erreurs sont inobservables et sont en général pas orthogonale au sous - espace engendré par . Pour des raisons d'argument, supposons que l'erreur . Si c'était vrai, nous aurions avec . Puisque , nous pourrions décomposer et obtenir le vrai .X ε ⊥ span ( X ) y = X β + ε = ˜ y + ε ˜ y ⊥ ε ˜ y =ε X ε⊥span(X) y=Xβ+ε=y~+ε y~⊥ε y εy~=Xβ∈span(X) y ε
Supposons que nous avons une base de , où le premier vecteur de base couvre le sous-espace et les autres span . En général, l'erreur aura des composants non nuls pour . Ces composants non nuls seront mélangés avec et ne peuvent donc pas être récupérés par projection sur .b1,…,bn Rn b1,…,bk span(X) bk+1,…,bn span(X)⊥ ε=α1b1+…+αnbn αi i∈{1,…,k} Xβ span(X)
Puisque nous ne pouvons jamais espérer récupérer les vraies erreurs et sont corrélées singulièrement à dimensions normales, nous pourrions transformer . Là, nous pouvons avoir ie est non singulier non corrélé et homoscédastique distribué normalement. Les résidus sont appelés résidus BLUS de Theil .e n e ∈ R n ↦ e * ∈ R n - k e * ~ N n - k ( 0 , σ 2 I n - k ) , e * e *ε e^ n e^∈Rn↦e∗∈Rn−k
Dans le court article sur le test des perturbations de régression pour la normalité, vous trouverez une comparaison des résidus OLS et BLUS. Dans le paramètre Monte Carlo testé, les résidus OLS sont supérieurs aux résidus BLUS. Mais cela devrait vous donner un point de départ.
la source