J'expérimentais la relation entre les erreurs et les résidus à l'aide de simulations simples dans R. Une chose que j'ai trouvée est que, quelle que soit la taille de l'échantillon ou la variance d'erreur, j'obtiens toujours exactement pour la pente lorsque vous ajustez le modèle
Voici la simulation que je faisais:
n <- 10
s <- 2.7
x <- rnorm(n)
e <- rnorm(n,sd=s)
y <- 0.3 + 1.2*x + e
model <- lm(y ~ x)
r <- model$res
summary( lm(e ~ r) )
e
et r
sont fortement (mais pas parfaitement) corrélés, même pour de petits échantillons, mais je ne peux pas comprendre pourquoi cela se produit automatiquement. Une explication mathématique ou géométrique serait appréciée.
regression
least-squares
residuals
GoF_Logistic
la source
la source
lm(y~r)
,lm(e~r)
etlm(r~r)
, par conséquent , qui doivent tous être égaux. Ce dernier est évidemment . Essayez ces trois commandes pour voir. Pour que le dernier fonctionne, vous devez créer une copie de , comme . Pour plus d'informations sur les diagrammes géométriques de régression, voir stats.stackexchange.com/a/113207 .R
r
s<-r;lm(r~s)
Réponses:
la réponse de whuber est excellente! (+1) J'ai résolu le problème en utilisant la notation qui m'est la plus familière et j'ai pensé que la dérivation (moins intéressante, plus routinière) pourrait être utile d'inclure ici.
Soit le modèle de régression, pour X ∈ R n × p et ϵ le bruit. Ensuite , la régression de y sur les colonnes de X a les équations normales X T ( de Y - X β ) = 0 , les estimations rendement β = ( X T X ) - 1 X T y .y= Xβ∗+ ϵ X∈ Rn × p ϵ y X XT( y- Xβ^) =0,
La régression de sur r donne une pente estimée donnée par ( r T r ) - 1 r T ϵϵ r
puisqueI-Hest symétrique et idempotent etϵ∉im(X)presque sûrement.
De plus, cet argument est également valable si nous incluons une interception lorsque nous effectuons la régression des erreurs sur les résidus si une interception a été incluse dans la régression d'origine, car les covariables sont orthogonales (c.-à-d. , à partir des équations normales) .1Tr = 0
la source
la source