Je voudrais comprendre pourquoi, sous le modèle OLS, le RSS (somme résiduelle des carrés) est distribué
( étant le nombre de paramètres dans le modèle, le nombre d'observations).
Je m'excuse d'avoir posé une question aussi fondamentale, mais il semble que je ne puisse pas trouver la réponse en ligne (ou dans mes manuels, plus orientés vers les applications).
regression
distributions
least-squares
Tal Galili
la source
la source
Réponses:
Je considère le modèle linéaire suivant: .y= Xβ+ ϵ
Le vecteur des résidus est estimé par
où .Q=I−X(X′X)−1X′
Observez que (la trace est invariante sous permutation cyclique) et que Q ′ = Q = Q 2 . Les valeurs propres de Q sont donc 0 et 1 (quelques détails ci-dessous). Il existe donc une matrice unitaire V telle que (les matrices sont diagonalisables par des matrices unitaires si et seulement si elles sont normales.tr(Q)=n−p Q′=Q=Q2 Q 0 1 V )
Maintenant, nous allons ε .K=V′ϵ^
Etant donné ε ~ N ( 0 , σ 2 Q ) , on a K ~ N ( 0 , σ 2 Δ ) et donc K n - p + 1 = ... = K n = 0 . Ainsiϵ^∼N(0,σ2Q) K∼N(0,σ2Δ) Kn−p+1=…=Kn=0
avec .K⋆=(K1,…,Kn−p)′
De plus, comme est une matrice unitaire, nous avons égalementV
Ainsi
Enfin, notez que ce résultat implique que
Puisque , le polynôme minimal de Q divise le polynôme z 2 - z . Ainsi, les valeurs propres de Q sont comprises entre 0 et 1 . Puisque tr ( Q ) = n - p est également la somme des valeurs propres multipliées par leur multiplicité, nous avons nécessairement que 1 est une valeur propre avec la multiplicité n - p et zéro est une valeur propre avec la multiplicité p .Q2−Q=0 Q z2−z Q 0 1 tr(Q)=n−p 1 n−p p
la source
IMHO, the matricial notationY=Xβ+ϵ complicates things. Pure vector space language is cleaner. The model can be written Y=μ+σG where G has the standard normal distributon on Rn and μ is assumed to belong to a vector subspace W⊂Rn .
Now the language of elementary geometry comes into play. The least-squares estimatorμ^ of μ is nothing but PWY : the orthogonal projection of the observable Y on the space W to which μ is assumed to belong. The vector of residuals is P⊥WY : projection on the orthogonal complement W⊥ of W in Rn . The dimension of W⊥ is dim(W⊥)=n−dim(W) .
Finally,
This demonstration uses only one theorem, actually a definition-theorem:
Definition and theorem. A random vector inRn has the standard normal distribution on a vector space U⊂Rn if it takes its values in U and its coordinates in one (⟺ in all) orthonormal basis of U are independent one-dimensional standard normal distributions
(from this definition-theorem, Cochran's theorem is so obvious that it is not worth to state it)
la source
Once we've established thatϵ^=(I−H)ϵ , we can apply the following lemma:
Lemma: IfAn×n is a symmetric and idempotent real matrix, then there exists a matrix U with orthonormal columns such that A=UUT . The matrix U is n×r , where r equals the rank of A .
Proof: The spectral theorem for symmetric matrices assertsA=UDUT where Dn×n is a diagonal matrix of the eigenvalues λ1,…,λn of A and Un×n is an orthogonal matrix whose columns are the corresponding eigenvectors u1,…,un . Since A is idempotent, each eigenvalue is either zero or one (reason: Au=λu implies λu=Au=A(Au)=Aλu=λ2u ). Delete from U the columns corresponding to zero eigenvalue, leaving an n×r matrix; the diagonal matrix D becomes the identity. To determine r , note that the columns remaining in U each satisfy Aui=ui , hence they form a basis for the range of A ; so rank(A)=r .
Applying the lemma, writeI−H=UUT where Un×r has orthonormal columns and r=rank(I−H) . Then ϵ^:=(I−H)ϵ=U(UTϵ) . Observe that N:=UTϵ is an r -dimensional random vector having multivariate normal distribution with mean zero and covariance matrix
Var(N)=E(UTϵ)(UTϵ)T=UTE(ϵϵT)U=σ2(UTU)=σ2Ir×r
and that
RSS:=ϵ^Tϵ^=(UN)T(UN)=NT(UTU)N=NTN.
Conclude RSS/σ2 is the sum of squares of r IID standard normal variables and therefore has chi-square(r ) distribution.
To finish, we findr=n−rank(X) : Consider for v∈Rn the decomposition v=Hv+(I−H)v . Idempotency of H implies (Hv)T(I−H)v′=0 for all v,v′ , whence Rn is the direct sum of the subspaces range(H) and range(I−H) , and so n=dimrange(H)+dimrange(I−H)=rank(H)+rank(I−H)=rank(X)+r.
la source