Régression multiple ou coefficient de corrélation partiel? Et les relations entre les deux

Je ne sais même pas si cette question a du sens, mais quelle est la différence entre la régression multiple et la corrélation partielle (mis à part les différences évidentes entre corrélation et régression, ce que je ne vise pas)?

Je veux comprendre ce qui suit:
J'ai deux variables indépendantes ( , ) et une variable dépendante ( ). Maintenant, individuellement, les variables indépendantes ne sont pas corrélées avec la variable dépendante. Mais pour un donné, diminue lorsque diminue. Donc, est-ce que j'analyse cela au moyen d'une régression multiple ou d'une corrélation partielle ? $x_1$ $x_2$ $y$ $x_1$ $y$ $x_2$

modifier pour améliorer, espérons-le, ma question: j'essaie de comprendre la différence entre régression multiple et corrélation partielle. Ainsi, lorsque diminue pour un donné lorsque diminue, cela est-il dû à l'effet combiné de et de sur (régression multiple) ou est-il dû à la suppression de l'effet de (corrélation partielle)? $y$ $x_1$ $x_2$ $x_1$ $x_2$ $y$ $x_1$

multiple-regression regression-coefficients partial-correlation utilisateur34927
la source

Quelle est la question de fond à laquelle vous essayez de répondre?

Gay - Rétablir Monica

Voir aussi la question très similaire stats.stackexchange.com/q/50156/3277 .

Heures

Le coefficient de régression linéaire multiple et la corrélation partielle sont directement liés et ont la même signification (valeur p). Le r partiel n'est qu'un autre moyen de normaliser le coefficient, ainsi que le coefficient bêta (coefficient de régression normalisé) . Donc, si la variable dépendante est et que les indépendants sont et alors $^1$ $y$ $x_1$ $x_2$

Bêta: β_{X_{1}} = \frac{r_{y X_{1}} - r_{y X_{2}} r_{X_{1} X_{2}}}{1 - r_{X_{1} X_{2}}^{2}}

$\text{Beta:} \quad \beta_{x_1} = \frac{r_{yx_1} - r_{yx_2}r_{x_1x_2} }{1-r_{x_1x_2}^2}$

Partiel r: r_{y X_{1} . X_{2}} = \frac{r_{y X_{1}} - r_{y X_{2}} r_{X_{1} X_{2}}}{\sqrt{(1 - r_{y X_{2}}^{2}) (1 - r_{X_{1} X_{2}}^{2})}}

$\text{Partial r:} \quad r_{yx_1.x_2} = \frac{r_{yx_1} - r_{yx_2}r_{x_1x_2} }{\sqrt{ (1-r_{yx_2}^2)(1-r_{x_1x_2}^2) }}$

Vous voyez que les numérateurs sont les mêmes, ce qui indique que les deux formules mesurent le même effet unique de . Je vais essayer d’expliquer comment les deux formules sont structurellement identiques et comment elles ne le sont pas. $x_1$

Supposons que vous ayez normalisé z (moyenne 0, variance 1) les trois variables. Le numérateur est alors égal à la covariance entre deux types de résidus : les résidus (a) laissés dans la prédiction par [les deux variables standard] et les résidus (b) laissés dans la prédiction de par [les deux variables standard]. De plus, la variance des résidus (a) est ; la variance des résidus (b) est . $y$ $x_2$ $x_1$ $x_2$ $1-r_{yx_2}^2$ $1-r_{x_1x_2}^2$

La formule de la corrélation partielle apparaît alors clairement comme celle de Plain Pearson , calculée ici entre les résidus (a) et les résidus (b): Pearson , nous le savons, est la covariance divisée par le dénominateur qui est la moyenne géométrique de deux variances différentes. $r$ $r$

Le coefficient standard bêta est structurellement similaire à Pearson , sauf que le dénominateur est la moyenne géométrique d'une variance avec soi-même . La variance des résidus (a) n'a pas été comptée; il a été remplacé par un deuxième comptage de la variance des résidus (b). Bêta est donc la covariance des deux résidus par rapport à la variance de l' un d'entre eux (en particulier, celle relative au prédicteur d'intérêt, ). Comme nous l’avons déjà remarqué, la corrélation partielle est la même covariance que leur variance hybride . Les deux types de coefficient sont des moyens de normaliser l'effet de dans le milieu d'autres prédicteurs. $r$ $x_1$ $x_1$

Quelques conséquences numériques de la différence. Si R-carré de la régression multiple de par et se trouve être à 1, les deux corrélations partielles des prédicteurs avec la dépendance seront également une valeur absolue (mais les valeurs binaires ne seront généralement pas égales à 1). En effet, comme dit précédemment, est la corrélation entre les résidus de et les résidus de . Si ce qui n’est pas dans est exactement ce qui n’est pas dans il n’existe rien dans qui ne soit ni ni $y$ $x_1$ $x_2$ $r_{yx_1.x_2}$ y <- x2x1 <- x2 $x_2$ $y$ $x_2$ $x_1$ $y$ $x_1$ $x_2$ : ajustement complet. Quelle que soit la quantité de la partie non expliquée (par ) laissée dans (le ), si elle est capturée de manière relativement élevée par la partie indépendante de (par le ), le sera élevé. , en revanche, sera élevé uniquement si la partie inexpliquée de capturée est elle-même une partie substantielle de . $x_2$ $y$ $1-r_{yx_2}^2$ $x_1$ $1-r_{x_1x_2}^2$ $r_{yx_1.x_2}$ $\beta_{x_1}$ $y$ $y$

À partir des formules ci-dessus, on obtient (et allant d'une régression à deux prédicteurs à une régression avec un nombre arbitraire de prédicteurs ) la formule de conversion entre bêta et r partiel correspondant: $x_1,x_2,x_3,...$

r_{y X_{1} . X} = β_{X_{1}} \sqrt{\frac{var (e_{X_{1} \leftarrow X})}{var (e_{y \leftarrow X})}},

$r_{yx_1.X} = \beta_{x_1} \sqrt{ \frac {\text{var} (e_{x_1 \leftarrow X})} {\text{var} (e_{y \leftarrow X})}},$

où représente la collection de tous les prédicteurs sauf le courant ( ); sont les résidus de la régression de par et sont les résidus de la régression de de , les variables de ces deux régressions les saisissent de manière normalisée . $X$ $x_1$ $e_{y \leftarrow X}$ $y$ $X$ $e_{x_1 \leftarrow X}$ $x_1$ $X$

Remarque: si nous devons calculer des corrélations partielles de avec chaque prédicteur nous n’utilisons généralement pas cette formule, ce qui nécessite deux régressions supplémentaires. Au lieu de cela, les opérations de balayage (souvent utilisées dans les algorithmes de régression pas à pas et tous les sous-ensembles) seront effectuées ou la matrice de corrélation anti-image sera calculée. $y$ $x$

$^1$ $\beta_{x_1} = b_{x_1} \frac {\sigma_{x_1}}{\sigma_y}$ est la relation entre le brut et les coefficients normalisés en régression avec intercept. $b$ $\beta$

tnphns
la source

Merci. Mais comment puis-je décider avec qui, par exemple aux fins décrites dans ma question?

user34927

Évidemment, vous êtes libre de choisir: les numérateurs sont les mêmes, ils transmettent donc les mêmes informations. Quant à votre question (pas complètement clarifiée), elle semble concerner les sujets "peut regretter. Coef. Être 0 lorsque r n'est pas 0"; "peut regretter. coef. ne pas être 0 quand r est 0". Il y a beaucoup de questions à ce sujet sur le site. Par exemple, vous pouvez lire stats.stackexchange.com/q/14234/3277 ; stats.stackexchange.com/q/44279/3277 .

ttnphns

J'ai essayé de clarifier ma question ..

user34927

Fixer X1 ("x1 donné") = supprimer (contrôler) l’effet de X1. Il n’existe pas d’effet combiné en régression multiple (à moins d’ajouter l’interaction X1 * X2). Les effets de la régression multiple sont compétitifs. Les effets de régression linéaire sont en réalité des corrélations partielles.

ttnphns

Attendez un peu, @ user34927.

to prove that the DV (Y) is significantly correlated with one of two IVs (X1) if the effect of the other IV (X2) is removed

L'effet enlevé d' où ? Si vous "supprimez" X2 de Y et X1, le corr. entre Y et X1 est la corrélation partielle . Si vous "supprimez" X2 de X1 seulement, le corr. entre Y et X1 est appelée la partie (ou semi-partielle) corrélation. Avez-vous vraiment demandé à ce sujet ?

ttnphns

Régression multiple ou coefficient de corrélation partiel? Et les relations entre les deux

Réponses: