Pourquoi

Tout d’abord, j’apprécie que les discussions sur $r^2$ provoquent généralement des explications sur $R^2$ (c.-à-d. le coefficient de détermination en régression). Le problème auquel je cherche à répondre est de généraliser cela à toutes les instances de corrélation entre deux variables.

Donc, je suis perplexe sur la variance partagée depuis un bon moment. J'ai eu quelques explications, mais elles semblent toutes problématiques:

C'est juste un autre terme pour covariance. Cela ne peut pas être le cas, car la littérature sur l'analyse factorielle fait la différence entre l'ACP et l'EPT en déclarant que ce dernier explique la variance partagée et le premier ne le fait pas (l'APC tient évidemment compte de la covariance en ce qu'elle opère sur une matrice de covariance, donc partagée la variance doit être un concept distinct).
Il s'agit du coefficient de corrélation au carré ( $r^2$ ). Voir:
- http://www.philender.com/courses/linearmodels/notes1/var1.html , ou
- http://www.strath.ac.uk/aer/materials/4dataanalysisineducationalresearch/unit6/correlationcoefficient/

Cela a un peu plus de sens. Le problème ici est d'interpréter comment cela implique qu'il s'agit d'une variance partagée. Par exemple, une interprétation de la «variance de partage» est ${\rm cov}(A,B)/[{\rm var}(A)+{\rm var}(B)]$ . $r^2$ ne se réduit pas à cela, ni même à un concept facilement intuitif [ ${\rm cov}(A,B)^2/({\rm var}(A)\times{\rm var}(B))$ ; qui est un objet à 4 dimensions].

Les liens ci-dessus tentent tous deux de l'expliquer via un diagramme Ballentine. Ils n'aident pas. Premièrement, les cercles sont de taille égale (ce qui semble être important pour l'illustration pour une raison quelconque), ce qui ne tient pas compte des écarts inégaux. On pourrait supposer que ce sont les diagrammes de Ballentine pour les variables standardisées, donc la variance égale, auquel cas le segment qui se chevauchent expliquerait la covariance entre deux variables standardisées (la corrélation). Donc $r$ , ne pas $r^2$ .

TL; DR: Les explications de la variance partagée disent ceci:

En quadrillant le coefficient, vous savez combien de variance, en pourcentage, les deux variables partagent.

Pourquoi en serait-il ainsi?

correlation variance covariance r-squared Sue Doh Nimh
la source

Les deux points ("covariance" et "r-carré") sont des interprétations correctes. Je vous recommande cette ma réponse:

r^{2}

$r^2$ est le produit de deux grandeurs relatives de la covariance et est une probabilité quasi conjointe.

ttnphns

Au sein de l'EPT, ils disent généralement «variance commune», et non «variance partagée». La variance commune est le domaine de la colinéarité totale. En revanche, le terme "variance partagée" n'est pas tout à fait défini (votre question est de savoir comment le définir).

ttnphns

Les diagrammes de Venn (Ballentine) ne relient pas correctement le concept de

r^{2}

$r^2$ parce que la magnitude de la covariance n'est pas la zone d'intersection des deux cercles (variances). La covariance dépend des deux variances. La taille de la covariance peut être plus grande que la taille de la plus petite variance (ce qui est certainement impossible à montrer sur Venn par intersection).

ttnphns

Cela nous ramène à la définition régressionnelle de

r^{2}

$r^2$ comme

1 - S S r e s i d / S S t o t

$1-SSresid/SStot$ . Donc, si la situation est homoscédastique, vous pouvez vous voir facilement ...

ttnphns

La covariance est la "variance partagée", l'amplitude brute de if. Normalisé à une magnitude relative, il peut être de deux versions, r et r-sq. r-sq peut être interprété comme% de la variance partagée de la variance combinée.

ttnphns

On ne peut que deviner ce que pourrait signifier un auteur en particulier par «variance partagée». Nous pourrions espérer circonscrire les possibilités en considérant quelles propriétés ce concept devrait (intuitivement) avoir. On sait que "les variances s'ajoutent": la variance d'une somme $X+\varepsilon$ est la somme des variances de $X$ et $\varepsilon$ quand $X$ et $\varepsilon$ ont une covariance nulle. Il est naturel de définir la "variance partagée" des $X$ la somme étant la fraction de la variance de la somme représentée par la variance de $X$ . Cela suffit pour impliquer les écarts de partage des deux variables aléatoires $X$ et $Y$ doit être le carré de leur coefficient de corrélation.

Ce résultat donne un sens à l'interprétation d'un coefficient de corrélation au carré comme une "variance partagée": dans un sens approprié, c'est vraiment une fraction d'une variance totale qui peut être affectée à une variable de la somme.

Les détails suivent.

Principes et leurs implications

Bien sûr si $Y=X$ , leur "variance partagée" (appelons-la désormais "SV") devrait être de 100%. Mais si $Y$ et $X$ sont juste des versions échelonnées ou décalées les unes des autres? Par exemple, si $Y$ représente la température d'une ville en degrés F et $X$ représente la température en degrés C? Je voudrais suggérer que dans de tels cas $X$ et $Y$ devrait toujours avoir 100% SV, de sorte que ce concept restera significatif quelle que soit la façon dont $X$ et $Y$ pourrait être mesurée:

\begin{matrix} (1) & SV (α + β X, γ + δ Y) = SV (X, Y) \end{matrix}

$\operatorname{SV}(\alpha + \beta X, \gamma + \delta Y) = \operatorname{SV}(X,Y)\tag{1}$

pour tous les nombres $\alpha, \gamma$ et des nombres non nuls $\beta, \delta$ .

Un autre principe pourrait être que lorsque $\varepsilon$ est une variable aléatoire indépendante de $X$ , alors la variance de $X+\varepsilon$ peut être décomposé de façon unique en deux parties non négatives,

Var (X + ε) = Var (X) + Var (ε),

$\operatorname{Var}(X+\varepsilon) = \operatorname{Var}(X) + \operatorname{Var}(\varepsilon),$

suggérant que nous essayons de définir SV dans ce cas spécial comme

\begin{matrix} (2) & SV (X, X + ε) = \frac{Var (X)}{Var (X) + Var (ϵ)} . \end{matrix}

$\operatorname{SV}(X, X+\varepsilon) = \frac{\operatorname{Var}(X)}{\operatorname{Var}(X) + \operatorname{Var}(\epsilon)}.\tag{2}$

Étant donné que tous ces critères ne sont que du second ordre - ils ne concernent que les premier et deuxième moments des variables sous la forme d'attentes et de variances - assouplissons l'exigence selon laquelle $X$ et $\varepsilon$ être indépendant et exiger seulement qu'ils ne soient pas corrélés . Cela rendra l'analyse beaucoup plus générale qu'elle ne le serait autrement.

Les resultats

Ces principes - si vous les acceptez - conduisent à un concept unique, familier et interprétable. L'astuce sera de réduire le cas général au cas particulier d'une somme, où l'on pourra appliquer la définition $(2)$ .

Donné $(X,Y)$ , nous essayons simplement de décomposer $Y$ dans une version évoluée et décalée de $X$ plus une variable qui n'est pas corrélée avec $X$ : c'est-à-dire, trouvons (si c'est possible) des constantes $\alpha$ et $\beta$ et une variable aléatoire $\epsilon$ Pour qui

\begin{matrix} (3) & Y = α + β X + ε \end{matrix}

$Y = \alpha + \beta X + \varepsilon\tag{3}$

avec $\operatorname{Cov}(X, \varepsilon)=0$ . Pour que la décomposition ait une chance d'être unique, nous devons exiger

E [ε] = 0

$\mathbb{E}[\varepsilon]=0$

pour qu'une fois $\beta$ est trouvé, $\alpha$ est déterminé par

α = E [Y] - β E [X] .

$\alpha = \mathbb{E}[Y] - \beta\, \mathbb{E}[X].$

Cela ressemble énormément à une régression linéaire et c'est effectivement le cas. Le premier principe dit que nous pouvons redimensionner $X$ et $Y$ avoir une variance unitaire (en supposant qu'ils ont chacun une variance non nulle) et que lorsque cela est fait, les résultats de régression standard affirment la valeur de $\beta$ dans $(3)$ est la corrélation de $X$ et $Y$ :

\begin{matrix} (4) & β = ρ (X, Y) . \end{matrix}

$\beta = \rho(X,Y)\tag{4}.$

De plus, en prenant les variances de $(1)$ donne

1 = Var (Y) = β^{2} Var (X) + Var (ε) = β^{2} + Var (ε),

$1 = \operatorname{Var}(Y) = \beta^2 \operatorname{Var}(X) + \operatorname{Var}(\varepsilon) = \beta^2 + \operatorname{Var}(\varepsilon),$

impliquant

\begin{matrix} (5) & Var (ε) = 1 - β^{2} = 1 - ρ^{2} . \end{matrix}

$\operatorname{Var}(\varepsilon) = 1-\beta^2 = 1-\rho^2.\tag{5}$

par conséquent

\begin{aligned} SV (X, Y) & = SV (X, α + β X + ε) & (Model 3) \\ = SV (β X, β X + ε) & (Property 1) \\ = \frac{Var (β X)}{Var (β X) + Var (ϵ)} & (Definition 2) \\ = \frac{β^{2}}{β^{2} + (1 - β^{2})} = β^{2} & (Result 5) \\ = ρ^{2} & (Relation 4) . \end{aligned}

$\eqalign{ \operatorname{SV}(X,Y) &= \operatorname{SV}(X, \alpha+\beta X + \varepsilon) &\text{(Model 3)}\\ &= \operatorname{SV}(\beta X, \beta X + \varepsilon) &\text{(Property 1)}\\ &= \frac{\operatorname{Var}(\beta X)}{\operatorname{Var}(\beta X) + \operatorname{Var}(\epsilon)} & \text{(Definition 2)}\\ &= \frac{\beta^2}{\beta^2 + (1-\beta^2)} = \beta^2 &\text{(Result 5)}\\ & = \rho^2 &\text{(Relation 4)}. }$

Notez que parce que le coefficient de régression sur $Y$ (lorsqu'il est normalisé en fonction de la variance unitaire) est $\rho(Y,X)=\rho(X,Y)$ , la "variance partagée" elle-même est symétrique, justifiant une terminologie qui suggère l'ordre de $X$ et $Y$ n'a pas d'importance:

SV (X, Y) = ρ (X, Y)^{2} = ρ (Y, X)^{2} = SV (Y, X) .

$\operatorname{SV}(X,Y) = \rho(X,Y)^2 = \rho(Y,X)^2 = \operatorname{SV}(Y,X).$

whuber
la source

Pourquoi

Réponses:

Principes et leurs implications

Les resultats