Coefficient de détermination (

21

Je veux saisir pleinement la notion de décrivant la quantité de variation entre les variables. Chaque explication Web est un peu mécanique et obtuse. Je veux "comprendre" le concept, pas seulement utiliser mécaniquement les chiffres.r2

Par exemple: heures étudiées vs score au test

r = 0,8

r2 = 0,64

  • Qu'est-ce que cela signifie?
  • 64% de la variabilité des résultats des tests peut s'expliquer par les heures?
  • Comment savons-nous cela simplement en quadrature?
JackOfAll
la source
votre question ne concerne pas R vs R-carré (vous comprenez que ), il s'agit de l'interprétation de r 2 . Veuillez reformuler le titre. 0.82=0.64r2
robin girard
une question similaire: stats.stackexchange.com/questions/28139/…
Abe
@amoeba a accepté, j'ai retiré la balise.
Brett
Vous avez besoin de pour déterminer la signification. Voir également, stats.stackexchange.com/a/265924/99274 . n
Carl

Réponses:

27

Commencez avec l'idée de base de la variation. Votre modèle de départ est la somme des écarts au carré de la moyenne. La valeur R ^ 2 est la proportion de cette variation qui est prise en compte en utilisant un modèle alternatif. Par exemple, le R au carré vous indique la part de la variation de Y dont vous pouvez vous débarrasser en additionnant les distances au carré d'une ligne de régression, plutôt que la moyenne.

Je pense que cela est parfaitement clair si nous pensons au problème de régression simple tracé. Considérons un nuage de points typique où vous avez un prédicteur X le long de l'axe horizontal et une réponse Y le long de l'axe vertical.

La moyenne est une ligne horizontale sur le graphique où Y est constant. La variation totale de Y est la somme des différences au carré entre la moyenne de Y et chaque point de données individuel. C'est la distance entre la ligne moyenne et chaque point individuel au carré et additionné.

Vous pouvez également calculer une autre mesure de variabilité après avoir obtenu la ligne de régression du modèle. Il s'agit de la différence entre chaque point Y et la droite de régression. Plutôt que chaque (Y - la moyenne) au carré, nous obtenons (Y - le point sur la droite de régression) au carré.

Si la ligne de régression est tout sauf horizontale, nous obtiendrons moins de distance totale lorsque nous utiliserons cette ligne de régression ajustée plutôt que la moyenne - c'est-à-dire qu'il y a moins de variation inexpliquée. Le rapport entre la variation supplémentaire expliquée et la variation d'origine est votre R ^ 2. C'est la proportion de la variation d'origine de votre réponse qui s'explique par l'ajustement de cette droite de régression.

entrez la description de l'image ici

Voici un code R pour un graphique avec la moyenne, la ligne de régression et les segments de la ligne de régression à chaque point pour aider à visualiser:

library(ggplot2)
data(faithful)

plotdata <- aggregate( eruptions ~ waiting , data = faithful, FUN = mean) 

linefit1 <- lm(eruptions ~ waiting, data = plotdata)

plotdata$expected <- predict(linefit1)
plotdata$sign <- residuals(linefit1) > 0

p <- ggplot(plotdata, aes(y=eruptions, x=waiting, xend=waiting, yend=expected) )  

p  + geom_point(shape = 1, size = 3) +
     geom_smooth(method=lm, se=FALSE) + 
     geom_segment(aes(y=eruptions, x=waiting, xend=waiting, yend=expected, colour = sign),  
                  data = plotdata) +
     theme(legend.position="none")  +
     geom_hline(yintercept = mean(plotdata$eruptions), size = 1)
Brett
la source
> Le rapport entre la variation expliquée et la variation d'origine est votre R ^ 2 Voyons si j'ai bien compris. Si la variation d'origine par rapport à la moyenne est de 100 et que la variation de régression est de 20, alors le rapport = 20/100 = .2 Vous dites que R ^ 2 = .2 b / c 20% de la variation moyenne (rouge) est pris en compte pour par la variation expliquée (vert) (Dans le cas de r = 1) Si la variation d'origine totalise 50, et la variation de régression totalise 0, alors le rapport = 0/50 = 0 = 0% de la variation par rapport à la moyenne ( rouge) s'explique par la variation expliquée (verte) je m'attendrais à ce que R ^ 2 soit 1, pas 0.
JackOfAll
1
R ^ 2 = 1- (SSR / SST) ou (SST-SSR) / SST. Donc, dans vos exemples, R ^ 2 = 0,80 et 1,00. La différence entre la droite de régression et chaque point est celle qui n'est pas expliquée par l'ajustement. Le reste est la proportion expliquée. Sinon, c'est exactement ça.
Brett
J'ai édité ce dernier paragraphe pour essayer de le rendre un peu plus clair. Sur le plan conceptuel (et informatique), tout ce dont vous avez besoin est là. Il serait peut-être plus clair d'ajouter réellement la formule et de faire référence au SST SSE et SSR, mais j'essayais ensuite d'y arriver conceptuellement
Brett
c'est-à-dire: R ^ 2 est la proportion de la variation totale de la moyenne (SST) qui est la différence n / b de la valeur de régression attendue et de la valeur moyenne (SSE). Dans mon exemple d'heures par rapport au score, la valeur de régression serait le score de test attendu basé sur la corrélation avec les heures étudiées. Toute variation supplémentaire par rapport à cela est attribuée à la SSR. Pour un point donné, la variable heures / régression étudiée explique x% de la variation totale par rapport à la moyenne (SST). Avec une valeur r élevée, "expliqué" est un gros pourcentage de SST par rapport à SSR. Avec une valeur r faible, "expliqué" est un pourcentage inférieur de SST par rapport à SSR.
JackOfAll
@BrettMagill, je pense que le lien vers l'image est cassé ...
Garrett
6

Une démonstration mathématique de la relation entre les deux est ici: corrélation de Pearson et analyse de régression des moindres carrés .

Je ne sais pas s'il existe une intuition géométrique ou toute autre intuition qui peut être proposée en dehors des mathématiques, mais si je peux en penser une, je mettrai à jour cette réponse.

Mise à jour: Intuition géométrique

xyy

y=x β+ϵ

y1,y2x1,x2

texte alternatif http://a.imageshack.us/img202/669/linearregression1.png

βx βyβxβ^βyy^=x β^

y=y^+ϵ^

yy^ϵ^β^

βx βϵ^

yyxyy12+y22yy^y^

Par le théorème de Pythagore, nous avons:

y2=y^2+ϵ^2

xy^2y2cos(θ)=y^y

Par conséquent, nous avons la relation requise:

yx

J'espère que cela pourra aider.


la source
J'apprécie votre tentative d'aider, mais malheureusement, cela n'a fait qu'empirer les choses 10 fois. Présentez-vous vraiment la trigonométrie pour expliquer r ^ 2? Tu es bien trop intelligent pour être un bon professeur!
JackOfAll
Je pensais que vous vouliez savoir pourquoi la corrélation ^ 2 = R ^ 2. En tout cas, différentes façons de comprendre le même concept sont utiles ou du moins c'est mon point de vue.
3

L' applet Regression By Eye pourrait être utile si vous essayez de développer une certaine intuition.

Il vous permet de générer des données, puis de deviner une valeur pour R , que vous pouvez ensuite comparer avec la valeur réelle.

ars
la source