Pourquoi RSS est-il distribué chi carré times np?

28

Je voudrais comprendre pourquoi, sous le modèle OLS, le RSS (somme résiduelle des carrés) est distribué

χ2(np)
( p étant le nombre de paramètres dans le modèle, le nombre d'observations).n

Je m'excuse d'avoir posé une question aussi fondamentale, mais il semble que je ne puisse pas trouver la réponse en ligne (ou dans mes manuels, plus orientés vers les applications).

Tal Galili
la source
4
Notez que les réponses démontrent que l'assertion n'est pas tout à fait correcte: la distribution de RSS est σ2 (pas np ) fois une distribution χ2(np)σ2 est la vraie variance des erreurs.
whuber

Réponses:

36

Je considère le modèle linéaire suivant: .y=Xβ+ϵ

Le vecteur des résidus est estimé par

ϵ^=yXβ^=(IX(XX)1X)y=Qy=Q(Xβ+ϵ)=Qϵ

.Q=IX(XX)1X

Observez que (la trace est invariante sous permutation cyclique) et que Q = Q = Q 2 . Les valeurs propres de Q sont donc 0 et 1 (quelques détails ci-dessous). Il existe donc une matrice unitaire V telle que (les matrices sont diagonalisables par des matrices unitaires si et seulement si elles sont normales.tr(Q)=npQ=Q=Q2Q01V )

VQV=Δ=diag(1,,1np times,0,,0p times)

Maintenant, nous allons ε .K=Vϵ^

Etant donné ε ~ N ( 0 , σ 2 Q ) , on a K ~ N ( 0 , σ 2 Δ ) et donc K n - p + 1 = ... = K n = 0 . Ainsiϵ^N(0,σ2Q)KN(0,σ2Δ)Knp+1==Kn=0

K2σ2=K2σ2χnp2

avec .K=(K1,,Knp)

De plus, comme est une matrice unitaire, nous avons égalementV

ϵ^2=K2=K2

Ainsi

RSSσ2χnp2

Enfin, notez que ce résultat implique que

E(RSSnp)=σ2

Puisque , le polynôme minimal de Q divise le polynôme z 2 - z . Ainsi, les valeurs propres de Q sont comprises entre 0 et 1 . Puisque tr ( Q ) = n - p est également la somme des valeurs propres multipliées par leur multiplicité, nous avons nécessairement que 1 est une valeur propre avec la multiplicité n - p et zéro est une valeur propre avec la multiplicité p .Q2Q=0Qz2zQ01tr(Q)=np1npp

ocram
la source
1
(+1) Good answer. One can restrict attention to orthogonal, instead of unitary, V since Q is real and symmetric. Also, what is SCR? I do not see it defined. By slightly rejiggering the argument, one can also avoid the use of a degenerate normal, in case that causes some consternation to those not familiar with it.
cardinal
2
@Cardinal. Good point. SCR ('Somme des Carrés Résiduels' in french) should have been RSS.
ocram
Thank you for the detailed answer Ocram! Some steps will require me to look more, but I have an outline to think about now - thanks!
Tal Galili
@Glen_b: Oh, I made an edit a couple of days ago to change SCR to SRR. I didn't remember that SCR is mentionned in my comment. Sorry for the confusion.
ocram
@Glen_b: It was supposed to mean RSS :-S Edited again. Thx
ocram
9

IMHO, the matricial notation Y=Xβ+ϵ complicates things. Pure vector space language is cleaner. The model can be written Y=μ+σG where G has the standard normal distributon on Rn and μ is assumed to belong to a vector subspace WRn.

Now the language of elementary geometry comes into play. The least-squares estimator μ^ of μ is nothing but PWY: the orthogonal projection of the observable Y on the space W to which μ is assumed to belong. The vector of residuals is PWY: projection on the orthogonal complement W of W in Rn. The dimension of W is dim(W)=ndim(W).

Finally,

PWY=PW(μ+σG)=0+σPWG,
and PWG has the standard normal distribution on W, hence its squared norm has the χ2 distribution with dim(W) degrees of freedom.

This demonstration uses only one theorem, actually a definition-theorem:

Definition and theorem. A random vector in Rn has the standard normal distribution on a vector space URn if it takes its values in U and its coordinates in one ( in all) orthonormal basis of U are independent one-dimensional standard normal distributions

(from this definition-theorem, Cochran's theorem is so obvious that it is not worth to state it)

Stéphane Laurent
la source
0

Once we've established that ϵ^=(IH)ϵ, we can apply the following lemma:


Lemma: If An×n is a symmetric and idempotent real matrix, then there exists a matrix U with orthonormal columns such that A=UUT. The matrix U is n×r, where r equals the rank of A.

Proof: The spectral theorem for symmetric matrices asserts A=UDUT where Dn×n is a diagonal matrix of the eigenvalues λ1,,λn of A and Un×n is an orthogonal matrix whose columns are the corresponding eigenvectors u1,,un. Since A is idempotent, each eigenvalue is either zero or one (reason: Au=λu implies λu=Au=A(Au)=Aλu=λ2u). Delete from U the columns corresponding to zero eigenvalue, leaving an n×r matrix; the diagonal matrix D becomes the identity. To determine r, note that the columns remaining in U each satisfy Aui=ui, hence they form a basis for the range of A; so rank(A)=r.


Applying the lemma, write IH=UUT where Un×r has orthonormal columns and r=rank(IH). Then ϵ^:=(IH)ϵ=U(UTϵ). Observe that N:=UTϵ is an r-dimensional random vector having multivariate normal distribution with mean zero and covariance matrix

Var(N)=E(UTϵ)(UTϵ)T=UTE(ϵϵT)U=σ2(UTU)=σ2Ir×r
and that
RSS:=ϵ^Tϵ^=(UN)T(UN)=NT(UTU)N=NTN.
Conclude RSS/σ2 is the sum of squares of r IID standard normal variables and therefore has chi-square(r) distribution.

To finish, we find r=nrank(X): Consider for vRn the decomposition v=Hv+(IH)v. Idempotency of H implies (Hv)T(IH)v=0 for all v,v, whence Rn is the direct sum of the subspaces range(H) and range(IH), and so

n=dimrange(H)+dimrange(IH)=rank(H)+rank(IH)=rank(X)+r.

grand_chat
la source