Relation entre

40

Disons que j'ai deux tableaux à dimension, un 1a1 et . Chacun contient 100 points de données. correspond aux données réelles et la prédiction du modèle. Dans ce cas, la valeur de serait: Entre-temps, cela serait égal à la valeur carrée du coefficient de corrélation, Maintenant, si j'échange les deux: a_2 correspond aux données réelles et a_1 correspond à la prédiction du modèle. À partir de l'équation (2)a2a1a2R2

R2=1SSresSStot  (1).
R2=(Correlation Coefficient)2(2).
a2a1(2), parce que le coefficient de corrélation importe peu ce qui vient en premier, la valeur R2 serait la même. Cependant, d'après l'équation (1) , SStot=i(yiy¯)2 , la valeur R2 changera, car SStot a changé si nous passons y de a1 à a2 ; pendant ce temps, SSres=i(fiy¯)2 ne change pas.

Ma question est la suivante: comment peuvent-ils se contredire?

Modifier :

  1. Je me demandais cela, sera la relation dans Eq. (2) tient toujours, s'il ne s'agit pas d'une simple régression linéaire, c'est-à-dire que la relation entre IV et DV n'est pas linéaire (pourrait être exponentielle / log)?

  2. Cette relation sera-t-elle toujours valide si la somme des erreurs de prédiction n'est pas égale à zéro?

Shawn Wang
la source
J'ai trouvé cette présentation très utile et non technique: google.com/…
ihadanny

Réponses:

19

Cela est vrai que changera ... mais vous avez oublié le fait que la somme de régression des carrés changera aussi. Considérons donc le modèle de régression simple et désignons le coefficient de corrélation par r 2 x y = S 2 x ySStot , où j'ai utilisé le sous-indicexypour souligner le fait quexest la variable indépendante etyla variable dépendante. Évidemment,r2 x y est inchangé si vous échangezxavecy. On peut facilement montrer queSSRxy=Syy(R2 x y ), oùSSRxyest la somme de régression des carrés et rxy2=Sxy2SxxSyyxyxyrxy2xySSRxy=Syy(Rxy2)SSRxy est la somme totale des carrés où x est indépendant et y est une variable dépendante. Donc: R 2 x y = S S R x ySyyxySSExyest la somme résiduelle de carrés correspondant oùxest indépendant etyest variable dépendante. Notez que dans ce cas, nous avonsSSExy=b2 x y Sxxavecb=Sxy

Rxy2=SSRxySyy=SyySSExySyy,
SSExyxySSExy=bxy2Sxx (Voir, par exemple, l'équation (34) - (41)ici.) Par conséquent:R2 x y =Syy- S 2 x yb=SxySxxClairement, l'équation ci-dessus est symétrique par rapport àxety. En d'autres termes:R2 x y =R2 y x . En résumé, lorsque vous modifiezxavecydans le modèle de régression simple, le numérateur et le dénominateur deR2 x y =SSRxy
Rxy2=SyySxy2Sxx2.SxxSyy=SyySxxSxy2Sxx.Syy.
xy
Rxy2=Ryx2.
xy changera de manière à ce queR2 x y =R2 y x .Rxy2=SSRxySyyRxy2=Ryx2.
Stat
la source
Merci beaucoup! J'ai remarqué que c'était peut-être là que j'avais tort: n'est valable que si 1) la prédiction du modèle est une ligne droite et 2) la moyenne de la prédiction du modèle est égale à la moyenne des points de l'échantillon. Si la relation entre DV et IV n'est pas une ligne droite ou si la somme des erreurs de prédiction est non nulle, la relation ne sera pas maintenue. Pourriez-vous s'il vous plaît laissez-moi savoir si cela est correct? R2=r2
Shawn Wang
1
Je pensais à cela parce que vous avez utilisé , alors que j'utilisais l'équation que je poste dans le OP. Ces deux équations ne sont équivalentes que lorsque la somme des erreurs de prédiction est égale à zéro. Par conséquent, dans mon OP, S S r e de s = Σ i ( f i - ˉ y ) 2 ne change pas pendant S S t o t changé, et par conséquent le R 2R2=SSreg/SStotSSres=i(fiy¯)2SStotR2est changé.
Shawn Wang
Avez-vous une référence pour savoir comment résoudre ce problème dans le cas général des Gaussiennes p-variables?
jmb
26

Une façon d'interpréter le coefficient de détermination est de regarder comme le coefficient de corrélation Pearson au carré entre les valeurs observées y i et les valeurs ajustées y i .R2yiy^i

La preuve complète permettant de déduire le coefficient de détermination R2 du coefficient de corrélation de Squared Pearson entre les valeurs observées yi et les valeurs ajustées y ^ i est disponible sous le lien suivant:

http://economictheoryblog.wordpress.com/2014/11/05/proof/

In my eyes it should be pretty easy to understand, just follow the single steps. I guess looking at it is essential to understand how the realtionship between the two key figures actually works.

Andreas Dibiasi
la source
6

In case of simple linear regression with only one predictor R2=r2=Corr(x,y)2. But in multiple linear regression with more than one predictors the concept of correlation between the predictors and the response does not extend automatically. The formula gets:

R2=Corr(yestimated,yobserved)2

The square of the correlation between the response and the fitted linear model.

aman
la source
5

@Stat has provided a detailed answer. In my short answer I'll show briefly in somewhat different way what is the similarity and difference between r and r2.

r is the standardized regression coefficient beta of Y by X or of X by Y and as such, it is a measure of the (mutual) effect size. Which is most clearly seen when the variables are dichotomous. Then r, for example, .30 means that 30% of cases will change its value to opposite in one variable when the other variable changes its value to the opposite.

r2, on the other hand, is the expression of the proportion of co-variability in the total variability: r2=(covσxσy)2=|cov|σx2|cov|σy2. Note that this is a product of two proportions, or, more precise to say, two ratios (a ratio can be >1). If loosely imply any proportion or ratio to be a quasi-probability or propensity, then r2 expresses "joint probability (propensity)". Another and as valid expression for the joint product of two proportions (or ratios) would be their geometric mean, propprop, which is very r.

(The two ratios are multiplicative, not additive, to stress the idea that they collaborate and cannot compensate for each other, in their teamwork. They have to be multiplicative because the magnitude of cov is dependent on both magnitudes σx2 and σy2 and, conformably, cov has to be divided two times in once - in order to convert itself to a proper "proportion of the shared variance". But cov, the "cross-variance", shares the same measurement units with both σx2 and σy2, the "self-variances", and not with σxσy, the "hybrid variance"; that is why r2, not r, is more adequate as the "proportion of shared variance".)

So, you see that meaning of r and r2 as a measure of the quantity of the association is different (both meanings valid), but still these coefficients in no way contradict each other. And both are the same whether you predict Y~X or X~Y.

ttnphns
la source
Thank you so much! I am starting to wonder whether I am using the wrong definition, that two definitions of R2 co-exist and they are not equivalent to each other. Could you please help me in the question that - if I am thinking about more generalized cases where the model is not a simple linear regression (could be exponential) - is my equation in the OP still correct for calculating R2? Is this a different quantity, also called R2, but different from the "coefficient of determination"?
Shawn Wang
Coefficient of determination or R-square is a wider concept than r^2 which is only about simple linear regression. Please read wikipedia en.wikipedia.org/wiki/Coefficient_of_determination.
ttnphns
Thanks again! That I do understand. My question is: for more complex regressions, can I still square the r value to get the coefficient of determination?
Shawn Wang
1
For a "complex regression", you get R-square, but you don't get r.
ttnphns
1

I think you might be mistaken. If R2=r2, I assume you have a bivariate model: one DV, one IV. I don't think R2 will change if you swap these, nor if you replace the IV with the predictions of the DV that are based on the IV. Here's code for a demonstration in R:

x=rnorm(1000); y=rnorm(1000)              # store random data
summary(lm(y~x))                          # fit a linear regression model (a)
summary(lm(x~y))                          # swap variables and fit the opposite model (b)
z=lm(y~x)$fitted.values; summary(lm(y~z)) # substitute predictions for IV in model (a)

If you aren't working with a bivariate model, your choice of DV will affect R2...unless your variables are all identically correlated, I suppose, but this isn't much of an exception. If all the variables have identical strengths of correlation and also share the same portions of the DV's variance (e.g. [or maybe "i.e."], if some of the variables are completely identical), you could just reduce this to a bivariate model without losing any information. Whether you do or don't, R2 still wouldn't change.

In all other cases I can think of with more than two variables, R2r2 where R2 is the coefficient of determination and r is a bivariate correlation coefficient of any kind (not necessarily Pearson's; e.g., possibly also a Spearman's ρ).

Nick Stauner
la source
1
I recently did Theil linear regression then calculated R2=0.1468 and SSR>SST. I have seen Excel produce R2-values as well, and at first I laughed at it, then slowly came understanding and it ceased to be funny. So is the general definition of R2 correct? What gives.
Carl