Régression multiple ou coefficient de corrélation partiel? Et les relations entre les deux

35

Je ne sais même pas si cette question a du sens, mais quelle est la différence entre la régression multiple et la corrélation partielle (mis à part les différences évidentes entre corrélation et régression, ce que je ne vise pas)?

Je veux comprendre ce qui suit:
J'ai deux variables indépendantes ( , ) et une variable dépendante ( ). Maintenant, individuellement, les variables indépendantes ne sont pas corrélées avec la variable dépendante. Mais pour un donné, diminue lorsque diminue. Donc, est-ce que j'analyse cela au moyen d'une régression multiple ou d'une corrélation partielle ?x 2 y x 1 y x 2x1X2yX1 yX2

modifier pour améliorer, espérons-le, ma question: j'essaie de comprendre la différence entre régression multiple et corrélation partielle. Ainsi, lorsque diminue pour un donné lorsque diminue, cela est-il dû à l'effet combiné de et de sur (régression multiple) ou est-il dû à la suppression de l'effet de (corrélation partielle)?x 1 x 2 x 1 x 2 y x 1yX1X2X1X2yX1

utilisateur34927
la source
3
Quelle est la question de fond à laquelle vous essayez de répondre?
Gay - Rétablir Monica
Voir aussi la question très similaire stats.stackexchange.com/q/50156/3277 .
Heures

Réponses:

32

Le coefficient de régression linéaire multiple et la corrélation partielle sont directement liés et ont la même signification (valeur p). Le r partiel n'est qu'un autre moyen de normaliser le coefficient, ainsi que le coefficient bêta (coefficient de régression normalisé) . Donc, si la variable dépendante est et que les indépendants sont et alors y x 1 x 21yx1x2

Bêta:βX1=ryX1-ryX2rX1X21-rX1X22

Partiel r:ryX1.X2=ryX1-ryX2rX1X2(1-ryX22)(1-rX1X22)

Vous voyez que les numérateurs sont les mêmes, ce qui indique que les deux formules mesurent le même effet unique de . Je vais essayer d’expliquer comment les deux formules sont structurellement identiques et comment elles ne le sont pas.X1

Supposons que vous ayez normalisé z (moyenne 0, variance 1) les trois variables. Le numérateur est alors égal à la covariance entre deux types de résidus : les résidus (a) laissés dans la prédiction par [les deux variables standard] et les résidus (b) laissés dans la prédiction de par [les deux variables standard]. De plus, la variance des résidus (a) est ; la variance des résidus (b) est .x 2 x 1 x 2 1 - r 2 y x 2 1 - ryX2X1X21-ryX221-rX1X22

La formule de la corrélation partielle apparaît alors clairement comme celle de Plain Pearson , calculée ici entre les résidus (a) et les résidus (b): Pearson , nous le savons, est la covariance divisée par le dénominateur qui est la moyenne géométrique de deux variances différentes.rrr

Le coefficient standard bêta est structurellement similaire à Pearson , sauf que le dénominateur est la moyenne géométrique d'une variance avec soi-même . La variance des résidus (a) n'a pas été comptée; il a été remplacé par un deuxième comptage de la variance des résidus (b). Bêta est donc la covariance des deux résidus par rapport à la variance de l' un d'entre eux (en particulier, celle relative au prédicteur d'intérêt, ). Comme nous l’avons déjà remarqué, la corrélation partielle est la même covariance que leur variance hybride . Les deux types de coefficient sont des moyens de normaliser l'effet de dans le milieu d'autres prédicteurs.rx 1X1X1

Quelques conséquences numériques de la différence. Si R-carré de la régression multiple de par et se trouve être à 1, les deux corrélations partielles des prédicteurs avec la dépendance seront également une valeur absolue (mais les valeurs binaires ne seront généralement pas égales à 1). En effet, comme dit précédemment, est la corrélation entre les résidus de et les résidus de . Si ce qui n’est pas dans est exactement ce qui n’est pas dans il n’existe rien dans qui ne soit ni nix 1 x 2 r y x 1 . x 2 x 2 y x 2 x 1 y x 1 x 2 x 2 y 1 - r 2 y x 2 x 1 1 - r 2 x 1 x 2 r y x 1 . x 2 β x 1 y yyX1X2ryX1.X2y <- x2x1 <- x2X2y X2X1yX1X2 : ajustement complet. Quelle que soit la quantité de la partie non expliquée (par ) laissée dans (le ), si elle est capturée de manière relativement élevée par la partie indépendante de (par le ), le sera élevé. , en revanche, sera élevé uniquement si la partie inexpliquée de capturée est elle-même une partie substantielle de .X2y1-ryX22X11-rX1X22ryX1.X2βX1yy


À partir des formules ci-dessus, on obtient (et allant d'une régression à deux prédicteurs à une régression avec un nombre arbitraire de prédicteurs ) la formule de conversion entre bêta et r partiel correspondant:X1,X2,X3,...

ryX1.X=βX1var(eX1X)var(eyX),

où représente la collection de tous les prédicteurs sauf le courant ( ); sont les résidus de la régression de par et sont les résidus de la régression de de , les variables de ces deux régressions les saisissent de manière normalisée .x 1 e y X y X e x 1X x 1 XXX1eyXyXeX1XX1X

Remarque: si nous devons calculer des corrélations partielles de avec chaque prédicteur nous n’utilisons généralement pas cette formule, ce qui nécessite deux régressions supplémentaires. Au lieu de cela, les opérations de balayage (souvent utilisées dans les algorithmes de régression pas à pas et tous les sous-ensembles) seront effectuées ou la matrice de corrélation anti-image sera calculée.xyX


β x 1 = b x 1 σ x 11 bββX1=bX1σX1σy est la relation entre le brut et les coefficients normalisés en régression avec intercept.bβ

tnphns
la source
Merci. Mais comment puis-je décider avec qui, par exemple aux fins décrites dans ma question?
user34927
2
Évidemment, vous êtes libre de choisir: les numérateurs sont les mêmes, ils transmettent donc les mêmes informations. Quant à votre question (pas complètement clarifiée), elle semble concerner les sujets "peut regretter. Coef. Être 0 lorsque r n'est pas 0"; "peut regretter. coef. ne pas être 0 quand r est 0". Il y a beaucoup de questions à ce sujet sur le site. Par exemple, vous pouvez lire stats.stackexchange.com/q/14234/3277 ; stats.stackexchange.com/q/44279/3277 .
ttnphns
J'ai essayé de clarifier ma question ..
user34927
Fixer X1 ("x1 donné") = supprimer (contrôler) l’effet de X1. Il n’existe pas d’effet combiné en régression multiple (à moins d’ajouter l’interaction X1 * X2). Les effets de la régression multiple sont compétitifs. Les effets de régression linéaire sont en réalité des corrélations partielles.
ttnphns
1
Attendez un peu, @ user34927. to prove that the DV (Y) is significantly correlated with one of two IVs (X1) if the effect of the other IV (X2) is removedL'effet enlevé d' ? Si vous "supprimez" X2 de Y et X1, le corr. entre Y et X1 est la corrélation partielle . Si vous "supprimez" X2 de X1 seulement, le corr. entre Y et X1 est appelée la partie (ou semi-partielle) corrélation. Avez-vous vraiment demandé à ce sujet ?
ttnphns
0

Juste heurté à cette marche par hasard. Dans la réponse d'origine, dans la formule pour le facteur est manquant, c'est-à-dire où et .βX1 β x 1 = r y x 1 - r y x 2SSY/SSX1

βx1=ryX1-ryX2 rX1X21-rX1X22×SSYSSX1,
SSY=i(yiy¯)2SSX1=i(x1ix¯1)2
Brani
la source
Vous donnez la formule de . Ma réponse concernait β . bβ
ttnphns