Tiré de Statistiques pratiques pour la recherche médicale où Douglas Altman écrit à la page 285:
... pour deux quantités quelconques X et Y, X sera corrélé à XY. En effet, même si X et Y sont des échantillons de nombres aléatoires, on s’attendrait à ce que la corrélation de X et XY soit de 0,7
J'ai essayé cela en R et cela semble être le cas:
x <- rnorm(1000000, 10, 2)
y <- rnorm(1000000, 10, 2)
cor(x, x-y)
xu <- sample(1:100, size = 1000000, replace = T)
yu <- sample(1:100, size = 1000000, replace = T)
cor(xu, xu-yu)
Pourquoi donc? Quelle est la théorie derrière cela?
correlation
random-variable
intuition
pas de stock
la source
la source
Réponses:
Si et sont des variables aléatoires non corrélées de variance égale , alors nous avons Par conséquent,Y σ 2 var ( X - Y )X Y σ2 ρX,X-Y=cov(X,X-Y)
la source
cov(X,X)-cov(X,Y)=s^2
Une explication géométrique-statistique.
Imaginez que vous fassiez un diagramme de dispersion "à l'envers" où les sujets sont les axes et les variables et les points . C'est ce qu'on appelle une parcelle d' espace sujet (par opposition à la parcelle d' espace variable habituelle ). Comme il n’ya que 2 points à tracer, toutes les dimensions d’un tel espace, à l’exception de deux dimensions quelconques pouvant supporter les 2 points plus l’origine, sont redondantes et peuvent être supprimées en toute sécurité. Et nous nous retrouvons avec un avion. Nous dessinons des flèches vectorielles de l'origine aux points: ce sont nos variables et tant que vecteurs dans l'espace sujet des données.2 X Y X Yn 2 X Y X Y
Or, si les variables étaient centrées dans un espace sujet, le cosinus de l'angle entre leurs vecteurs est leur coefficient de corrélation . Sur l'image ci-dessous , les vecteurs et sont orthogonaux: leur . L'absence de corrélation était un préalable requis par @Dilip dans sa réponse.Y r = 0X Y r=0
Également pour les variables centrées, leurs longueurs vectorielles dans un sujet sont leurs écarts-types . Sur la photo, et sont de longueur égale, des variances égales étaient également une condition préalable créée par @Dilip.YX Y
Pour dessiner la variable ou la variable nous utilisons simplement l’addition ou la soustraction vectorielle que nous avons oubliée depuis l’école (déplacez le vecteur Y jusqu’à la fin du vecteur X et inversez la direction en cas de soustraction, - ceci est indiqué par des flèches grises sur la photo, - tracez ensuite un vecteur à l'endroit indiqué par la flèche grise).X + YX−Y X+Y
Il devient très clair que la longueur des vecteurs ou (l'écart type de ces variables) est, d'après le théorème de Pythagore, et que l'angle entre et ou est 45 degrés, qui cosinus - la corrélation - vautX + Y √X−Y X+Y XX-YX+Y0,707 ...2σ2−−−√ X X−Y X+Y 0.707...
la source
Je crois qu’il ya aussi une simple intuition basée sur la symétrie. Puisque X et Y ont les mêmes distributions et une covariance de 0, la relation X ± Y avec X devrait "expliquer" la moitié de la variation de X ± Y; l'autre moitié doit être expliquée par Y. Donc, R 2 doit être égal à 1/2, ce qui signifie que R est 1 / √2 ≈ 0,707.
la source
Voici un moyen simple de réfléchir à la raison pour laquelle il existe une corrélation.
Imaginez ce qui se passe lorsque vous soustrayez deux distributions. Si la valeur de x est basse, alors, en moyenne,
x - y
sera une valeur inférieure à celle obtenue si la valeur de x est élevée. Lorsque x augmentex - y
, augmente en moyenne, et donc, une corrélation positive.la source
x <- rnorm(1e6, 0,1) y <- rnorm(1e6, 0,1) $cor((x-y)^2,x-y)
$y
tout. :-)