Pourquoi le produit des coefficients de régression bivariés de la ligne sur- et de la ligne sur- est égal au carré de la corrélation?

11

Il existe un modèle de régression où avec et , qui a un coefficient de corrélation de .Oui=une+bXune=1,6b=0,4r=0,60302

Si et sont alors et que l'équation devient où et , elle a également une valeur de .XOuiX=c+Ouic=0,4545=0,9091r0,60302

J'espère que quelqu'un pourra expliquer pourquoi vaut également .(×b)0,50,60302

Mike
la source

Réponses:

17

b=rDakota du Sudy/Dakota du SudX et , donc .=rDakota du SudX/Dakota du Sudyb×=r2

De nombreux manuels de statistiques aborderaient ce sujet; J'aime Freedman et al., Statistics . Voir aussi ici et cet article wikipedia .

Karl
la source
10

Jetez un œil à Treize façons d'examiner le coefficient de corrélation - et en particulier les méthodes 3, 4, 5 seront les plus intéressantes pour vous.

Curieuse
la source
2
Cela aurait probablement dû être un commentaire. Notez que le lien est mort. J'ai mis à jour le lien et fourni une citation complète. Pouvez-vous élaborer ou fournir des informations supplémentaires afin que cela soit toujours utile même si le lien disparaît à nouveau?
gung - Rétablir Monica
2
L'article de Rodgers & Nicewander est résumé sur notre site à l' adresse stats.stackexchange.com/q/70969/22228 .
whuber
3

Rappelons que de nombreux textes introductifs définissent

SXy=je=1n(Xje-X¯)(yje-y¯)

Ensuite, en définissant comme x, nous avons S x x = n i = 1 ( x i - ˉ x ) 2 et de la même manière S y y = n i = 1 ( y i - ˉ y ) 2 .yXSXX=je=1n(Xje-X¯)2Syy=je=1n(yje-y¯)2

Les formules pour le coefficient de corrélation , la pente de la régression y- sur- x (votre b ) et la pente de la régression x- sur- y (votre d ) sont souvent données comme:ryXbXy

(1)r=SXySXXSyy(2)β^y sur X=SXySXX(3)β^X sur y=SXySyy

La multiplication de et ( 3 ) donne alors clairement le carré de ( 1 ) :(2)(3)(1)

β^y sur Xβ^X sur y=SXy2SXXSyy=r2

Alternativement, les numérateurs et les dénominateurs des fractions en , ( 2 ) et ( 3 ) sont souvent divisés par n ou ( n - 1 ) de sorte que les choses sont formulées en termes d'échantillon ou de variances et covariances estimées. Par exemple, à partir de ( 1 ) , le coefficient de corrélation estimé n'est que la covariance estimée, mise à l'échelle par les écarts-types estimés:(1)(2)(3)n(n-1)(1)

(4)r=Corr^(X,Oui)=Cov^(X,Oui)Dakota du Sud(X)^Dakota du Sud(Oui)^(5)β^y sur X=Cov^(X,Oui)Var(X)^(6)β^X sur y=Cov^(X,Oui)Var(Oui)^

(5)(6)

β^y sur Xβ^X sur y=Cov^(X,Oui)2Var(X)^Var(Oui)^=(Cov^(X,Oui)Dakota du Sud(X)^Dakota du Sud(Oui)^)2=r2

(4)

(sept)Cov^(X,Oui)=rDakota du Sud(X)^Dakota du Sud(Oui)^

(sept)(5)(6)β^y sur X=rDakota du Sud^(y)Dakota du Sud^(X)β^X sur y=rDakota du Sud^(X)Dakota du Sud^(y)r2


r=b=β^y sur Xβ^X sur y

yXXy

r=sgn(β^y sur X)β^y sur Xβ^X sur y

sgn+1-1

Silverfish
la source
1
Vous pourriez trouver cette réponse intéressante même si elle ne répond pas explicitement à la question posée ici.
Dilip Sarwate