Pourquoi la corrélation des résidus n'a-t-elle pas d'importance lors des tests de normalité?

Lorsque (c'est-à-dire que provient d'un modèle de régression linéaire), et dans ce cas, les résidus sont corrélés et non indépendants. Mais lorsque nous effectuons des diagnostics de régression et que nous voulons tester l'hypothèse , chaque manuel suggère d'utiliser des tracés Q – Q et des tests statistiques sur les résidus qui ont été conçus pour tester si pour certains . $Y = AX + \varepsilon$ $Y$

ε \sim N (0, σ^{2} I) \Rightarrow \hat{e} = (I - H) Y \sim N (0, (I - H) σ_{}^{2})

$\varepsilon \sim \mathcal{N}(0, \sigma^2 I) \hspace{1em} \Rightarrow \hspace{1em} \hat{e} = (I - H) Y \sim \mathcal{N}(0, (I - H) \sigma^2_{})$

{\hat{e}}_{1}, \dots, {\hat{e}}_{n}

$\hat{e}_1, \ldots, \hat{e}_n$

ε \sim N (0, σ^{2} I)

$\varepsilon \sim \mathcal{N}(0, \sigma^2 I)$

\hat{e}

$\hat{e}$

\hat{e} \sim N (0, σ^{2} I)

$\hat{e} \sim \mathcal{N}(0, \sigma^2 I)$

σ^{2} \in R

$\sigma^2 \in \mathbb{R}$

Comment se fait-il que pour ces tests, les résidus soient corrélés et non indépendants? Il est souvent suggéré d'utiliser des résidus standardisés:

{\hat{e}}_{i}^{'} = \frac{{\hat{e}}_{i}}{\sqrt{1 - h_{i i}}},

$\hat{e}_i' = \frac{\hat{e}_i}{\sqrt{1 - h_{ii}}},$ mais cela ne fait que les rendre homoscédastiques, pas indépendants.

Pour reformuler la question: les résidus de régression OLS sont corrélés. Je comprends que dans la pratique, ces corrélations sont si petites (la plupart du temps? Toujours?), Elles peuvent être ignorées lors du test pour savoir si les résidus proviennent d'une distribution normale. Ma question est, pourquoi?

regression residuals non-independent Zoran Loncarevic
la source

Les rend homoscédastiques.

Scortchi - Réintégrer Monica

Vous posez des questions sur l'applicabilité de ces tests lorsque les résidus ont de fortes corrélations ou êtes-vous simplement préoccupé par la corrélation négative (très légère et sans conséquence) résultant de la procédure d'estimation des moindres carrés?

whuber

@whuber Je pose des questions sur la corrélation résultant de la procédure d'estimation des moindres carrés. S'ils sont légers et sans conséquence, je voudrais savoir pourquoi.

Zoran Loncarevic

Réponses:

Dans votre notation, est la projection et l'espace de colonne de , c'est-à-dire le sous-espace de tous les régresseurs. Par conséquent, est la projection sur tout ce qui est orthogonal au sous-espace couvert par tous les régresseurs. $H$ $X$ $M:=I_{n}-H$

Si , alors est singulièrement distribué normalement et les éléments sont corrélés, comme vous le dites. $X\in\mathbb{R}^{n\times k}$ $\hat{e}\in\mathbb{R}^{n}$

Les erreurs sont inobservables et sont en général pas orthogonale au sous - espace engendré par . Pour des raisons d'argument, supposons que l'erreur . Si c'était vrai, nous aurions avec . Puisque , nous pourrions décomposer et obtenir le vrai . $\varepsilon$ $X$ $\varepsilon\perp\operatorname{span}\left(X\right)$ $y=X\beta+\varepsilon=\tilde{y}+\varepsilon$ $\tilde{y}\perp\varepsilon$ $\tilde{y}=X\beta\in\operatorname{span}\left(X\right)$ $y$ $\varepsilon$

Supposons que nous avons une base de , où le premier vecteur de base couvre le sous-espace et les autres span . En général, l'erreur aura des composants non nuls pour . Ces composants non nuls seront mélangés avec et ne peuvent donc pas être récupérés par projection sur . $b_{1},\ldots,b_{n}$ $\mathbb{R}^{n}$ $b_{1},\ldots,b_{k}$ $\operatorname{span}\left(X\right)$ $b_{k+1},\ldots,b_{n}$ $\operatorname{span}\left(X\right)^{\perp}$ $\varepsilon=\alpha_{1}b_{1}+\ldots+\alpha_{n}b_{n}$ $\alpha_{i}$ $i\in\left\{1,\ldots,k\right\}$ $X\beta$ $\operatorname{span}\left(X\right)$

Puisque nous ne pouvons jamais espérer récupérer les vraies erreurs et sont corrélées singulièrement à dimensions normales, nous pourrions transformer . Là, nous pouvons avoir ie est non singulier non corrélé et homoscédastique distribué normalement. Les résidus sont appelés résidus BLUS de Theil . $\varepsilon$ $\hat{e}$ $n$ $\hat{e}\in\mathbb{R}^{n}\mapsto e^{*}\in\mathbb{R}^{n-k}$

e^{*} \sim N_{n - k} (0, σ^{2} I_{n - k}),

$\begin{equation} e^{*}\sim\mathcal{N}_{n-k}\left(0,\sigma^{2}I_{n-k}\right) \textrm{,} \end{equation}$

e^{*}

$e^{*}$

e^{*}

$e^{*}$

Dans le court article sur le test des perturbations de régression pour la normalité, vous trouverez une comparaison des résidus OLS et BLUS. Dans le paramètre Monte Carlo testé, les résidus OLS sont supérieurs aux résidus BLUS. Mais cela devrait vous donner un point de départ.

Marco Breitig
la source