Pourquoi le coefficient de corrélation entre les variables aléatoires X et XY a-t-il tendance à être de 0,7?

49

Tiré de Statistiques pratiques pour la recherche médicale où Douglas Altman écrit à la page 285:

... pour deux quantités quelconques X et Y, X sera corrélé à XY. En effet, même si X et Y sont des échantillons de nombres aléatoires, on s’attendrait à ce que la corrélation de X et XY soit de 0,7

J'ai essayé cela en R et cela semble être le cas:

x <- rnorm(1000000, 10, 2)
y <- rnorm(1000000, 10, 2)
cor(x, x-y)

xu <- sample(1:100, size = 1000000, replace = T)
yu <- sample(1:100, size = 1000000, replace = T)
cor(xu, xu-yu)

Pourquoi donc? Quelle est la théorie derrière cela?

pas de stock
la source
Pour quelle partie voulez-vous une explication? Voulez-vous simplement l'équation simplifiée de la corrélation qui résulte de la corrélation connue entre x et y et de la covariance entre x et xy? Ou voulez-vous simplement savoir pourquoi il y a une covariance ici?
Jean
Est - ce vrai pour tout et ? Supposons que et sont pas corrélés et que . Ensuite, je soupçonne que ne sera pas en corrélation avec . Y X Z Y = X - Z X X - YXYXZY=XZXXY
Henry

Réponses:

69

Si et sont des variables aléatoires non corrélées de variance égale , alors nous avons Par conséquent,Y σ 2 var ( X - Y )XYσ2ρX,X-Y=cov(X,X-Y)

var(XY)=var(X)+var(Y)=var(X)+var(Y)=2σ2,cov(X,XY)=cov(X,X)cov(X,Y)bilinearity of covariance operator=var(X)00 because X and Y are uncorrelated=σ2.
Σ n i = 1 (xi- ˉ x )((xi-yi)-( ˉ x - ˉ y ))
ρX,XY=cov(X,XY)var(X)var(XY)=σ2σ22σ2=12.
Donc, quand vous trouvez l'échantillon de corrélation de et pour un ensemble de données volumineux tiré d'une population avec ces propriétés, qui inclut les "nombres aléatoires" comme cas spécial, le résultat a tendance à être proche de la valeur de corrélation de la population xx-y{(xi,yi):1in}1
i=1n(xix¯)((xiyi)(x¯y¯))i=1n(xix¯)2i=1n((xiyi)(x¯y¯))2
xxy{(xi,yi):1in}120.7071
Dilip Sarwate
la source
Pourriez-vous s'il vous plaît expliquer un peu plus commentcov(X,X)-cov(X,Y)=s^2
nostock
5
cov (X, X) est un autre nom pour var (X). cov (X, Y) = 0 puisque X et Y sont supposés non corrélés (donc covariance = 0).
Dilip Sarwate
58

Une explication géométrique-statistique.

Imaginez que vous fassiez un diagramme de dispersion "à l'envers" où les sujets sont les axes et les variables et les points . C'est ce qu'on appelle une parcelle d' espace sujet (par opposition à la parcelle d' espace variable habituelle ). Comme il n’ya que 2 points à tracer, toutes les dimensions d’un tel espace, à l’exception de deux dimensions quelconques pouvant supporter les 2 points plus l’origine, sont redondantes et peuvent être supprimées en toute sécurité. Et nous nous retrouvons avec un avion. Nous dessinons des flèches vectorielles de l'origine aux points: ce sont nos variables et tant que vecteurs dans l'espace sujet des données.2 X Y X Yn 2 XYXY

Or, si les variables étaient centrées dans un espace sujet, le cosinus de l'angle entre leurs vecteurs est leur coefficient de corrélation . Sur l'image ci-dessous , les vecteurs et sont orthogonaux: leur . L'absence de corrélation était un préalable requis par @Dilip dans sa réponse.Y r = 0XYr=0

Également pour les variables centrées, leurs longueurs vectorielles dans un sujet sont leurs écarts-types . Sur la photo, et sont de longueur égale, des variances égales étaient également une condition préalable créée par @Dilip.YXY

Pour dessiner la variable ou la variable nous utilisons simplement l’addition ou la soustraction vectorielle que nous avons oubliée depuis l’école (déplacez le vecteur Y jusqu’à la fin du vecteur X et inversez la direction en cas de soustraction, - ceci est indiqué par des flèches grises sur la photo, - tracez ensuite un vecteur à l'endroit indiqué par la flèche grise).X + YXYX+Y

Il devient très clair que la longueur des vecteurs ou (l'écart type de ces variables) est, d'après le théorème de Pythagore, et que l'angle entre et ou est 45 degrés, qui cosinus - la corrélation - vautX + Y XYX+Y XX-YX+Y0,707 ...2σ2XXYX+Y0.707...

entrez la description de l'image ici

tnphns
la source
4
Un grand +1 pour partager cette approche.
whuber
(+1) C'est une manière très soignée de présenter cela!
Matt Krause
Ahh ... des photos! (+1) Bien fait. :-)
cardinal
11

Je crois qu’il ya aussi une simple intuition basée sur la symétrie. Puisque X et Y ont les mêmes distributions et une covariance de 0, la relation X ± Y avec X devrait "expliquer" la moitié de la variation de X ± Y; l'autre moitié doit être expliquée par Y. Donc, R 2 doit être égal à 1/2, ce qui signifie que R est 1 / √2 ≈ 0,707.

denn333
la source
Cela semble être une bonne intuition, mais notez que si , le moyen habituel d’écrire serait , et non pas ce qui pourrait dérouter certaines personnes même si sont algébriquement équivalents. rr2=12r 1/1/21/2
Gay - Rétablir Monica
Non, ce n'est vraiment pas plus standard. (Si vous avez besoin de preuves, recherchez la réponse la plus haute. Les 38 personnes qui ont déjà voté pour elle n'ont pas chicané avec la même notation.)
denn333
Je suis l'un de ces 38 ;-). La question qui se pose est la suivante: que pourra-t-il le plus facilement suivre une personne dont l’algèbre est relativement faible? Si , alors il est plus facile de voir que . r = r2=1/2r=1/2
gung - Réintégrer Monica
3

Voici un moyen simple de réfléchir à la raison pour laquelle il existe une corrélation.

Imaginez ce qui se passe lorsque vous soustrayez deux distributions. Si la valeur de x est basse, alors, en moyenne, x - ysera une valeur inférieure à celle obtenue si la valeur de x est élevée. Lorsque x augmente x - y, augmente en moyenne, et donc, une corrélation positive.

John
la source
4
Je ne pense pas que votre affirmation soit toujours vraie "Il y aura toujours une corrélation entre deux distributions aléatoires lorsqu'il y aura une relation mathématique." Par exemple, x <- rnorm(1e6, 0,1) y <- rnorm(1e6, 0,1) $cor((x-y)^2,x-y)$
curieux_cat
4
@curious_cat: Ou, peut-être pour être encore plus évocateur, laissez tomber le ytout. :-)
cardinal