Pourquoi la pente est-elle toujours exactement 1 lors de la régression des erreurs sur les résidus en utilisant OLS?

10

J'expérimentais la relation entre les erreurs et les résidus à l'aide de simulations simples dans R. Une chose que j'ai trouvée est que, quelle que soit la taille de l'échantillon ou la variance d'erreur, j'obtiens toujours exactement pour la pente lorsque vous ajustez le modèle1

errorsβ0+β1×residuals

Voici la simulation que je faisais:

n <- 10 
s <- 2.7 

x <- rnorm(n) 
e <- rnorm(n,sd=s)
y <- 0.3 + 1.2*x + e

model <- lm(y ~ x) 
r <- model$res 

summary( lm(e ~ r) )

eet rsont fortement (mais pas parfaitement) corrélés, même pour de petits échantillons, mais je ne peux pas comprendre pourquoi cela se produit automatiquement. Une explication mathématique ou géométrique serait appréciée.

GoF_Logistic
la source
5
Dans le triangle plan OXY, avec la base OX, les altitudes des côtés YO et XY sont l'altitude du triangle lui-même. Afin, ces altitudes sont données par les coefficients de lm(y~r), lm(e~r)et lm(r~r), par conséquent , qui doivent tous être égaux. Ce dernier est évidemment . Essayez ces trois commandes pour voir. Pour que le dernier fonctionne, vous devez créer une copie de , comme . Pour plus d'informations sur les diagrammes géométriques de régression, voir stats.stackexchange.com/a/113207 . 1Rrs<-r;lm(r~s)
whuber
1
Merci @whuber. Souhaitez-vous faire une réponse pour que je puisse l'accepter, ou peut-être la marquer comme doublon?
GoF_Logistic
1
Je ne pense pas que ce soit un doublon, j'ai donc développé le commentaire en réponse.
whuber

Réponses:

11

la réponse de whuber est excellente! (+1) J'ai résolu le problème en utilisant la notation qui m'est la plus familière et j'ai pensé que la dérivation (moins intéressante, plus routinière) pourrait être utile d'inclure ici.

Soit le modèle de régression, pour X R n × p et ϵ le bruit. Ensuite , la régression de y sur les colonnes de X a les équations normales X T ( de Y - X β ) = 0 , les estimations rendement β = ( X T X ) - 1 X T y .y=Xβ+ϵXRn×pϵyXXT(yXβ^)=0,

β^=(XTX)1XTy.
Par conséquent , la régression a résidus pour H = X ( X T X ) - 1 X T .
r=yXβ^=(IH)y=(IH)ϵ,
H=X(XTX)1XT

La régression de sur r donne une pente estimée donnée par ( r T r ) - 1 r T ϵϵr puisqueI-Hest symétrique et idempotent etϵim(X)presque sûrement.

(rTr)1rTϵ=([(IH)ϵ]T[(IH)ϵ])1[(IH)ϵ]Tϵ=ϵT(IH)TϵϵT(IH)T(IH)ϵ=ϵT(IH)ϵϵT(IH)ϵ=1,
IHϵim(X)

De plus, cet argument est également valable si nous incluons une interception lorsque nous effectuons la régression des erreurs sur les résidus si une interception a été incluse dans la régression d'origine, car les covariables sont orthogonales (c.-à-d. , à partir des équations normales) .1Tr=0

user795305
la source
+1 C'est toujours agréable de voir une solution élaborée avec soin et clarté.
whuber
11

xeY=βx+ebβr=YbxO

Figure

βxeYbxYbxr

xOY(βx)YrrYrYererrr1


re=r+(βb)xY=e+βx=r+(2βb)xxxrr1xr

whuber
la source