Pourquoi l'équerrage donne une variance expliquée?

12

C'est peut-être une question fondamentale, mais je me demandais pourquoi une valeur dans un modèle de régression peut simplement être mise au carré pour donner un chiffre de variance expliquée?R

Je comprends que le coefficient peut donner la force d'une relation, mais je ne comprends pas comment la simple mise au carré de cette valeur donne une mesure de la variance expliquée.R

Une explication facile à cela?

Merci beaucoup pour votre aide!

David
la source
Cherchez-vous quelque chose d'intuitif ou de plus mathématique? Avez-vous parcouru certaines des autres questions sur et les coefficients de corrélation sur ce site? R2
cardinal
1
Par exemple, deux questions connexes sont ici et ici . Si vous jouez avec les équations là-bas, vous pourrez dériver l'équivalence mathématique. Mais, ni l'un ni l'autre ne sont susceptibles d'être particulièrement utiles du point de vue de l'intuition.
cardinal
Je vois cela dans le sens inverse. C'est R carré qui est défini comme 1-variance résiduelle / variance totale, puis R est la racine carrée postive de cela. Il se trouve que lorsque nous avons une régression linéaire simple, R carré se réduit au carré du coefficient de corrélation.
Michael R. Chernick
@Michael, vous aviez sans aucun doute l'intention de dire la racine carrée correctement signée plutôt que la positive .
cardinal
1
@cardinal, j'ai la même impression - (ou ) fait référence au coefficient de corrélation de l'échantillon et serait surpris de voir une référence largement utilisée qui l'utilise pour faire référence à la valeur absolue de la corrélation de l'échantillonrRr
Macro

Réponses:

15

Hand-wavingly, la corrélation peut être considéré comme une mesure de l'angle entre deux vecteurs, le vecteur dépendant et le vecteur indépendant . Si l'angle entre les vecteurs est , la corrélation est . La partie de expliquée par est de longueur et parallèle à (ou la projection de sur ). La partie non expliquée est de longueur et est orthogonal à . En termes de variances, nous avons Y X θ R cos ( θ ) Y X | | Y | | cos ( θ ) X Y X | | Y | | sin ( θ ) X σ 2 Y = σ 2 Y cos 2 ( θ ) + σ 2 Y sin 2 ( θ ) R 2 RRYXθRcos(θ)YX||Y||cos(θ)XYX||Y||sin(θ)X

σY2=σY2cos2(θ)+σY2sin2(θ)
où le premier terme à droite est la variance expliquée et le second la variance inexpliquée. La fraction qui est expliquée est donc , pas .R2R
Dilip Sarwate
la source
2
(+1) Il n'y a pas vraiment trop de mouvements des mains ici. Le point de vue géométrique est à mon avis le plus intuitif. Il y a probablement une figure open source de haute qualité qui décrit les choses précisément de cette façon.
cardinal
(+1) J'ai commencé à rédiger une dérivation directe selon laquelle était égal à la définition habituelle de tant que rapport de variances mais, ce faisant, J'ai remarqué qu'il ne fournissait que peu ou pas d'intuition (et donc cela ne serait probablement pas utile pour l'affiche originale) - je pense que c'est le cas! R 2cor(y,y^)2R2
Macro
1
Cela ne répond pas à la question mais montre comment le carré R est mentionné comme le carré du coefficient de corrélation sans aucune référence à R. Ainsi, les sources confirmant ou réfutant ma demande peuvent être difficiles à trouver. Ceci provient d'un article sur le coefficient de détermination dans Wikipedia:
Michael R. Chernick
Comme coefficient de corrélation au carré De même, après la régression des moindres carrés avec un modèle constant + linéaire (c'est-à-dire une régression linéaire simple), R2 est égal au carré du coefficient de corrélation entre les valeurs de données observées et modélisées (prédites).
Michael R. Chernick
Dans des conditions générales, une valeur R2 est parfois calculée comme le carré du coefficient de corrélation entre les valeurs de données originales et modélisées. Dans ce cas, la valeur n'est pas directement une mesure de la qualité des valeurs modélisées, mais plutôt une mesure de la qualité d'un prédicteur pouvant être construit à partir des valeurs modélisées (en créant un prédicteur révisé de la forme α + βƒi). Selon Everitt (2002, p. 78), cet usage est précisément la définition du terme «coefficient de détermination»: le carré de la corrélation entre deux variables (générales).
Michael R. Chernick