Moindres carrés généralisés: des coefficients de régression aux coefficients de corrélation?

10

Pour les moindres carrés avec un prédicteur:

y=βX+ϵ

Si et sont normalisés avant l'ajustement (c'est-à-dire ), alors:XyN(0,1)

  • β est le même que le coefficient de corrélation de Pearson, .r
  • β est le même dans la régression réfléchie:X=βy+ϵ

Pour les moindres carrés généralisés (GLS), est-ce la même chose? Autrement dit, si je standardise mes données, puis-je obtenir des coefficients de corrélation directement à partir des coefficients de régression?

De l'expérimentation de données, le GLS réfléchi conduit à différents coefficients et je ne suis pas sûr non plus de croire que les coefficients de régression correspondent à mes valeurs attendues pour la corrélation. Je sais que les gens citent des coefficients de corrélation GLS, donc je me demande comment ils y parviennent et donc ce qu'ils signifient vraiment?β

sqrt
la source

Réponses:

4

La réponse est oui, les coefficients de régression linéaire sont les corrélations des prédicteurs avec la réponse, mais uniquement si vous utilisez le bon système de coordonnées .

Pour voir ce que je veux dire, rappelez-vous que si et y sont centrés et normalisés, alors la corrélation entre chaque x i et y n'est que le produit scalaire x t i y . De plus, la solution des moindres carrés à la régression linéaire estX1,X2,,XnyXjeyXjety

β=(XtX)-1Xty

S'il arrive que (la matrice d'identité) alorsXtX=je

β=Xty

et nous récupérons le vecteur de corrélation. Il est souvent intéressant de refondre un problème de régression en termes de prédicteurs qui satisfont en trouvant des combinaisons linéaires appropriées des prédicteurs originaux qui rendent cette relation vraie (ou de manière équivalente, un changement linéaire de coordonnées); ces nouveaux prédicteurs sont appelés les principaux composants.X~jeX~tX~=je

Donc, dans l'ensemble, la réponse à votre question est oui, mais uniquement lorsque les prédicteurs sont eux-mêmes non corrélés . Sinon, l'expression

XtXβ=Xty

montre que les bêtas doivent être mélangés avec les correllations entre les prédicteurs eux-mêmes pour récupérer les corrélations prédicteur-réponse.

En remarque, cela explique également pourquoi le résultat est toujours vrai pour une régression linéaire variable. Une fois le vecteur prédicteur normalisé, alors:X

X0tX=jeXje=0

où est le vecteur d'interception de tous les uns. Ainsi, la matrice de données (à deux colonnes) satisfait automatiquement , et le résultat suit.X0XXtX=je

Matthew Drury
la source