Comment dériver une matrice de coefficients de variance-covariance en régression linéaire

36

Je lis un livre sur la régression linéaire et j’ai du mal à comprendre la matrice de variance-covariance de :b

entrez la description de l'image ici

Les éléments en diagonale sont assez faciles, mais les éléments en diagonale sont un peu plus difficiles. Ce qui me laisse perplexe, c'est que

σ(b0,b1)=E(b0b1)E(b0)E(b1)=E(b0b1)β0β1

mais il n'y a aucune trace de et ici.β0β1

qed
la source
2
Quel est le livre?
Konstantinos
Neter et al., Modèles de régression linéaire appliquée, 1983, page 216. Vous pouvez trouver le même matériel dans Modèles de statistique appliqués, cinquième édition, page 207.
akavalar

Réponses:

53

C’est en fait une question intéressante qui remet en question votre compréhension de base d’une régression.

Commencez par éliminer toute confusion initiale concernant la notation. Nous examinons la régression:

y=b0+b1x+u^

où et sont les estimateurs des vrais et , et sont les résidus de la régression. Notez que la régression sous-jacente vraie et non optimisée est ainsi notée:b0b1β0β1u^

y=β0+β1x+u

Avec l'espérance de et la variance . Certains livres indiquent comme et nous adaptons cette convention ici. Nous utilisons également la notation matricielle, où b est le vecteur 2x1 qui contient les estimateurs de , à savoir . (Par souci de clarté également, je considère X comme fixé dans les calculs suivants.)E[u]=0E[u2]=σ2bβ^β=[β0,β1]b=[b0,b1]

Passons maintenant à votre question. Votre formule pour la covariance est en effet correcte, à savoir:

σ(b0,b1)=E(b0b1)E(b0)E(b1)=E(b0b1)β0β1

Je pense que vous voulez savoir comment on a les vrais coefficients non observés dans cette formule? En fait, ils sont annulés si nous allons encore plus loin en élargissant la formule. Pour voir cela, notons que la variance de la population de l'estimateur est donnée par:β0,β1

Var(β^)=σ2(XX)1

Cette matrice contient les variances dans les éléments diagonaux et les covariances dans les éléments hors diagonale.

Pour arriver à la formule ci-dessus, généralisons votre revendication en utilisant la notation matricielle. Notons donc la variance avec et l'attente avec .Var[]E[]

Var[b]=E[b2]E[b]E[b]

Nous avons essentiellement la formule de variance générale, utilisant simplement la notation matricielle. L'équation est résolue lors de la substitution dans l'expression standard de l'estimateur . Supposons également que soit un estimateur non biaisé. On obtient donc:b=(XX)1XyE[b]=β

E[((XX)1Xy)2]β22×2

Notez que nous avons à droite la matrice - 2x2, à savoir , mais vous pouvez déjà deviner ce qui se passera bientôt avec ce terme.β2bb

En remplaçant par notre expression correspondant au véritable processus de génération de données sous-jacent ci-dessus, nous avons:y

E[((XX)1Xy)2]β2=E[((XX)1X(Xβ+u))2]β2=E[((XX)1XX=Iβ+(XX)1Xu)2]β2=E[(β+(XX)1Xu)2]β2=β2+E[(XX)1Xu)2]β2

puisque . De plus, le terme quadratique s'annule comme prévu.E[u]=0β2

Nous avons donc:

Var[b]=((XX)1X)2E[u2]

Par linéarité des attentes. Notez que par hypothʻese et puisque est une matrice symétrique et donc la même que sa transposée. Finalement on arrive àE[u2]=σ2((XX)1X)2=(XX)1XX(XX)1=(XX)1XXK×K

Var[b]=σ2(XX)1

Maintenant que nous nous sommes débarrassés de tous termes . Intuitivement, la variance de l'estimateur est indépendante de la valeur du véritable coefficient sous-jacent, car il ne s'agit pas d'une variable aléatoire en soi. Le résultat est valable pour tous les éléments individuels de la matrice de covariance de variance, comme indiqué dans le livre. Il est donc également valable pour les éléments non diagonaux ainsi que pour . Le seul problème était que vous aviez appliqué la formule générale pour la variance qui ne reflétait pas cette annulation au début.ββ0β1

En fin de compte, la variance des coefficients est à et indépendante de . mais qu'est ce que ça veut dire? (Je crois que vous avez également demandé une compréhension plus générale de la matrice de covariance générale)σ2(XX)1β

Regardez la formule dans le livre. Il affirme simplement que la variance de l'estimateur augmente lorsque le vrai terme d'erreur sous-jacent est plus bruyant ( augmente), mais diminue lorsque l'écart de X augmente. Parce qu'avoir plus d'observations réparties autour de la valeur vraie, vous permet en général de construire un estimateur plus précis et donc plus proche du vrai . D'autre part, les termes de covariance sur les caractères hors diagonale deviennent pratiquement pertinents pour le test d'hypothèses sur des hypothèses conjointes telles que . À part ça, ils sont un peu fudge, vraiment. J'espère que cela clarifie toutes les questions.σ2βb0=b1=0

Majte
la source
et quand garder la propagation constante et diminuer les x, l'erreur type de l'interception devient plus petite, ce qui est logique.
Theta30
Je ne suis pas l'expansion de la place. Pourquoi n'est pas simplifié à ? ((XX)1X)2=((XX)1X)((XX)1X)=X2
David
2

Dans votre cas nous avons

XX=[nXiXiXi2]

Inversez cette matrice et vous obtiendrez le résultat souhaité.

mpiktas
la source
1

Il semble que soient les valeurs prévues (valeurs attendues). Ils font le basculement entre et . E ( b 0 ) = β 0 E ( b 1 ) = β 1β0β1E(b0)=β0E(b1)=β1

Drew75
la source
β 1β0 et sont généralement inconnus, à quoi peuvent-ils basculer? β1
Qed
Je pense comprendre la confusion et je pense qu’ils auraient peut-être dû écrire plutôt que . Voici un autre message qui passe par le calcul: link β 0β0β0
Drew75
2
@qed: pour échantillonner des estimations des quantités inconnues.
Glen_b -Reinstate Monica