Distribution de l'erreur de somme des carrés pour la régression linéaire?

12

Je sais que la distribution de la variance de l'échantillon C'est du fait que peut être exprimée sous forme de matrice, (où A: symétrique), et elle pourrait être à nouveau exprimée en: (où Q: orthonormé, D: matrice diagonale).

(XiX¯)2σ2χ(n1)2
(XiX¯)2n1σ2n1χ(n1)2
(XX¯)2xAxxQDQx

Qu'en est-il de , étant donné l'hypothèse ? (Yiβ^0β^1Xi)2(Yβ0β1X)N(0,σ2)

Je figure

(Yiβ^0β^1Xi)2σ2χ(n2)2.

Mais je ne sais pas comment le prouver ou le montrer.

Est-il distribué exactement comme ?χ(n2)2

KH Kim
la source
1
Est-ce des devoirs? Si oui, veuillez utiliser la balise Homework.
MånsT
Non ce n'est pas. Je pense que c'est vrai bcoz après tout, la somme des carrés est un carré de combinaison linéaire des constantes X données par Y. Mais est-ce? Une preuve simple comme celle-ci serait appréciée! math.stackexchange.com/questions/47009/…
KH Kim
Les descriptions que vous donnez à la fois dans la question et dans votre commentaire sont un peu confuses. Avez-vous écrit ce que doit être votre matrice pour la variance de l'échantillon? Cela vous aide-t-il à voir comment généraliser? A
cardinal
Corrigé pour D. Je pense que le point critique est que l'élément diagonal de D devrait être quelque chose comme (1,1,1, ..., 1,0,0). Existe-t-il un moyen de le prouver? ou Existe-t-il de toute façon que où sse / ,χ2(n)=χ2(n2)+χ2(1)+χ2(1)σ2χ2(n2)ei2/σ2χ2(n)
KH Kim

Réponses:

13

Nous pouvons le prouver pour le cas plus général des variables en utilisant la "matrice chapeau" et certaines de ses propriétés utiles. Ces résultats sont généralement beaucoup plus difficiles à énoncer en termes non matriciels en raison de l'utilisation de la décomposition spectrale.p

Maintenant dans la version matricielle des moindres carrés, la matrice chapeau est où a lignes et colonnes (colonne de celles pour ). Supposons que le classement complet des colonnes soit pratique - sinon, vous pouvez remplacer par le classement des colonnes de dans la suite. Nous pouvons écrire les valeurs ajustées comme ou en notation matricielle . En utilisant cela, nous pouvons écrire la somme des carrés comme:H=X(XTX)1XTXnp+1β0p+1XY^i=j=1nHijYjY^=HY

i=1(YYi^)2σ2=(YY^)T(YY^)σ2=(YHY)T(YHY)σ2
=YT(InH)Yσ2

Où est une matrice d'identité d'ordre . La dernière étape découle du fait que est une matrice idépotente, carInnH

H2=[X(XTX)1XT][X(XTX)1XT]=X(XTX)1XT=H=HHT=HTH

Maintenant, une propriété intéressante des matrices idépotentes est que toutes leurs valeurs propres doivent être égales à zéro ou à un. Soit un vecteur propre normalisé de de valeur propre , nous pouvons le prouver comme suit:eHl

He=leH(He)=H(le)
LHS=H2e=He=leRHS=lHe=l2e
le=l2el=0 or 1

(notez que ne peut pas être nul car il doit satisfaire ) Maintenant parce que est idépotent, est aussi, careeTe=1HInH

(InH)(InH)=IIHHI+H2=InH

Nous avons également la propriété que la somme des valeurs propres est égale à la trace de la matrice, et

tr(InH)=tr(In)tr(H)=ntr(X(XTX)1XT)=ntr((XTX)1XTX)
=ntr(Ip+1)=np1

Par conséquent doit avoir valeurs propres égaux à et valeurs propres égal à .IHnp11p+10

Maintenant nous pouvons utiliser la décomposition spectrale de où et est orthogonal (car est symétrique). Une autre propriété qui est utile est que . Cela permet de réduire la matriceIH=ADATD=(Inp10[np1]×[p+1]0[p+1]×[np1]0[p+1]×[p+1])AIHHX=XA

HX=X(IH)X=0ADATX=0DATX=0
(ATX)ij=0i=1,,np1j=1,,p+1

et nous obtenons:

i=1(YYi^)2σ2=YTADATYσ2=i=1np1(ATY)i2σ2

Maintenant, sous le modèle, nous avons et en utilisant la théorie normale standard, nous avons montrant que les composants de sont indépendants. En utilisant maintenant le résultat utile, nous avons cela pour . La distribution du chi carré avec degrés de liberté pour la somme des erreurs quadratiques suit immédiatement.YN(Xβ,σ2I)ATYN(ATXβ,σ2ATA)N(ATXβ,σ2I)ATY(ATY)iN(0,σ2)i=1,,np1np1

probabilitéislogique
la source
Wow, merci beaucoup. C'est vraiment magnifique! La forme matricielle est vraiment payante! En résumé, SSE / et est idempotent. Les matrices idempotentes ont des valeurs propres de 0 ou 1. La somme des valeurs propres est donc le nombre de valeurs propres 1. et puisque , et devient n-p +1. et la somme des valeurs propres d'une matrice est la somme des traces de la matrice! et peut être exprimée en . Ainsi, le premier devient avec D avec seulement np-1 diagonale 1. σ2=YT(IH)YIHtr(InH)=tr(In)tr(H)=tr(In)tr(X(XTX)1XT)=tr(In)tr((XTX)1XTX)tr(AB)=tr(BA)tr(InH)IHADATYT(IH)YYTADATY
KH Kim
1
Très bonne réponse!! Juste pour présenter une autre approche, nous pouvons plutôt choisir de définir une variable normale multivariée transformée et elle suivra toujours la même distribution si nous utilisons la propriété affine. Ensuite, la dernière fraction . v:=AYN(0,σ2I)YADAYσ2=vDvσ2=v[I000]vσ2=i=1trD(viσ)2
Daeyoung Lim