Pour une régression linéaire simple, le coefficient de régression peut être calculé directement à partir de la matrice de variance-covariance , par
oùest l'indice de la variable dépendante etest l'indice de la variable explicative.
Si l'on n'a que la matrice de covariance, est-il possible de calculer les coefficients d'un modèle à multiples variables explicatives?
ETA: Pour deux variables explicatives, il apparaît que et de façon analogue pourβ2. Je ne vois pas immédiatement comment étendre cela à trois variables ou plus.
Réponses:
Oui, la matrice de covariance de toutes les variables - explicatives et réponses - contient les informations nécessaires pour trouver tous les coefficients, à condition qu'un terme d'interception (constant) soit inclus dans le modèle. (Bien que les covariances ne fournissent aucune information sur le terme constant, elles peuvent être trouvées à partir des moyennes des données.)
Une analyse
Que les données pour les variables explicatives être disposés comme vecteurs colonnes de dimension x 1 , x 2 , ... , x p , et la variable de réponse soit le vecteur colonne y , considéré comme une réalisation d'une variable aléatoire Y . Les estimations des moindres carrés ordinaires ß des coefficients dans le modèlen x1,x2,…,xp y Y β^
sont obtenus en assemblant les vecteurs de colonnes X 0 = ( 1 , 1 , … , 1 ) ′ , X 1 , … , X p en un tableau n × p + 1 X et en résolvant le système d'équations linéairesp+1 X0=(1,1,…,1)′,X1,…,Xp n×p+1 X
Il est équivalent au système
L'élimination gaussienne résoudra ce système. Il procède en joignant le matrice + 1 1p+1×p+1 et lep1nX′X vecteur + 1 1p+1 dans untableaup+1×p+2Aet en le réduisant en ligne. 1nX′y p+1×p+2 A
La première étape inspectera1n(X′X)11=1nX′0X0=1 A 1nX′0Xi=X¯¯¯¯i Ai+1,j+1=X′iXj will equal X¯¯¯¯iX¯¯¯¯j . This is just the formula for the covariance of Xi and Xj . Moreover, the number left in the i+1,p+2 position equals 1nX′iy−Xi¯¯¯¯¯¯y¯¯¯ , the covariance of Xi with y .
Thus, after the first step of Gaussian elimination the system is reduced to solving
and obviously--since all the coefficients are covariances--that solution can be found from the covariance matrix of all the variables.
(WhenC is invertible the solution can be written C−1(Cov(Xi,y))′ . The formulas given in the question are special cases of this when p=1 and p=2 . Writing out such formulas explicitly will become more and more complex as p grows. Moreover, they are inferior for numerical computation, which is best carried out by solving the system of equations rather than by inverting the matrix C .)
The constant term will be the difference between the mean ofy and the mean values predicted from the estimates, Xβ^ .
Example
To illustrate, the following
R
code creates some data, computes their covariances, and obtains the least squares coefficient estimates solely from that information. It compares them to the estimates obtained from the least-squares estimatorlm
.The output shows agreement between the two methods:
la source
cov(z)
from previous calculations.y
andx
andbeta.hat
. They
andx
are part of the original data. Is it possible to derive the intercept from the covariance matrix and means alone? Could you please provide the notation?