Disons que j'ai deux tableaux à dimension, un 1 et . Chacun contient 100 points de données. correspond aux données réelles et la prédiction du modèle. Dans ce cas, la valeur de serait: Entre-temps, cela serait égal à la valeur carrée du coefficient de corrélation, Maintenant, si j'échange les deux: a_2 correspond aux données réelles et a_1 correspond à la prédiction du modèle. À partir de l'équation (2)
Ma question est la suivante: comment peuvent-ils se contredire?
Modifier :
Je me demandais cela, sera la relation dans Eq. (2) tient toujours, s'il ne s'agit pas d'une simple régression linéaire, c'est-à-dire que la relation entre IV et DV n'est pas linéaire (pourrait être exponentielle / log)?
Cette relation sera-t-elle toujours valide si la somme des erreurs de prédiction n'est pas égale à zéro?
la source
Réponses:
Cela est vrai que changera ... mais vous avez oublié le fait que la somme de régression des carrés changera aussi. Considérons donc le modèle de régression simple et désignons le coefficient de corrélation par r 2 x y = S 2 x ySStot , où j'ai utilisé le sous-indicexypour souligner le fait quexest la variable indépendante etyla variable dépendante. Évidemment,r2 x y est inchangé si vous échangezxavecy. On peut facilement montrer queSSRxy=Syy(R2 x y ), oùSSRxyest la somme de régression des carrés et r2xy=S2xySxxSyy xy x y r2xy x y SSRxy=Syy(R2xy) SSRxy est la somme totale des carrés où x est indépendant et y est une variable dépendante. Donc: R 2 x y = S S R x ySyy x y oùSSExyest la somme résiduelle de carrés correspondant oùxest indépendant etyest variable dépendante. Notez que dans ce cas, nous avonsSSExy=b2 x y Sxxavecb=Sxy
la source
Une façon d'interpréter le coefficient de détermination est de regarder comme le coefficient de corrélation Pearson au carré entre les valeurs observées y i et les valeurs ajustées y i .R2 yi y^i
La preuve complète permettant de déduire le coefficient de détermination R2 du coefficient de corrélation de Squared Pearson entre les valeurs observées yi et les valeurs ajustées y ^ i est disponible sous le lien suivant:
http://economictheoryblog.wordpress.com/2014/11/05/proof/
In my eyes it should be pretty easy to understand, just follow the single steps. I guess looking at it is essential to understand how the realtionship between the two key figures actually works.
la source
In case of simple linear regression with only one predictorR2=r2=Corr(x,y)2 .
But in multiple linear regression with more than one predictors the concept of correlation
between the predictors and the response does not extend automatically. The formula gets:
The square of the correlation between the response and the fitted linear model.
la source
@Stat has provided a detailed answer. In my short answer I'll show briefly in somewhat different way what is the similarity and difference betweenr and r2 .
(The two ratios are multiplicative, not additive, to stress the idea that they collaborate and cannot compensate for each other, in their teamwork. They have to be multiplicative because the magnitude ofcov is dependent on both magnitudes σ2x and σ2y and, conformably, cov has to be divided two times in once - in order to convert itself to a proper "proportion of the shared variance". But cov , the "cross-variance", shares the same measurement units with both σ2x and σ2y , the "self-variances", and not with σxσy , the "hybrid variance"; that is why r2 , not r , is more adequate as the "proportion of shared variance".)
So, you see that meaning ofr and r2 as a measure of the quantity of the association is different (both meanings valid), but still these coefficients in no way contradict each other. And both are the same whether you predict Y~X or X~Y .
la source
I think you might be mistaken. IfR2=r2 , I assume you have a bivariate model: one DV, one IV. I don't think R2 will change if you swap these, nor if you replace the IV with the predictions of the DV that are based on the IV. Here's code for a demonstration in R:
If you aren't working with a bivariate model, your choice of DV will affectR2 ...unless your variables are all identically correlated, I suppose, but this isn't much of an exception. If all the variables have identical strengths of correlation and also share the same portions of the DV's variance (e.g. [or maybe "i.e."], if some of the variables are completely identical), you could just reduce this to a bivariate model without losing any information. Whether you do or don't, R2 still wouldn't change.
In all other cases I can think of with more than two variables,R2≠r2 where R2 is the coefficient of determination and r is a bivariate correlation coefficient of any kind (not necessarily Pearson's; e.g., possibly also a Spearman's ρ ).
la source