Pourquoi l'indépendance implique-t-elle une corrélation nulle?

16

Tout d'abord, je ne demande pas ceci:

Pourquoi la corrélation zéro n'implique-t-elle pas l'indépendance?

Ceci est traité (plutôt gentiment) ici: /math/444408/why-does-zero-correlation-not-imply-independence

Ce que je demande, c'est le contraire ... disons que deux variables sont entièrement indépendantes l'une de l'autre.

Ne pourraient-ils pas avoir un tout petit peu de corrélation par accident?

Ne devrait-il pas en être ainsi ... l'indépendance implique une TRÈS PEU de corrélation?

Joshua Ronis
la source
5
Même les variables indépendantes auront presque toujours une corrélation SAMPLE non nulle, bien qu'elle soit probablement encore proche de zéro.
jsk
10
Comme l'a souligné @jsk, vous pouvez confondre la corrélation de l'échantillon avec la corrélation attendue
David
1
@David pourriez-vous expliquer? Je suis encore très débutant en statistique.
Joshua Ronis
3
@JoshuaRonis La corrélation d'échantillons est la corrélation que vous observez lorsque vous travaillez avec un tas de données. Vous l'utilisez pour vous faire une idée de la "vraie" corrélation entre deux variables. Plus l'échantillon est grand, meilleure est votre estimation. Par exemple, la corrélation entre les résultats de deux dés est indépendante, donc non corrélée, même si si vous les lancez dix fois ensemble, vous pouvez obtenir une corrélation (en raison d'un hasard aléatoire). (c.-à-d. vous avez une chance égale pour chacun)
David
1
Pas une dupe mais une discussion connexe: une corrélation non nulle implique-t-elle une dépendance?
SecretAgentMan

Réponses:

36

Par la définition du coefficient de corrélation, si deux variables sont indépendantes, leur corrélation est nulle. Il ne pouvait donc pas y avoir de corrélation par accident!

ρX,Y=E[XY]E[X]E[Y]E[X2][E[X]]2 E[Y2][E[Y]]2

Si X et Y sont indépendants, signifie E[XY]=E[X]E[Y] . Par conséquent, le numérateur de ρX,Y est nul dans ce cas.

Donc, si vous ne changez pas la signification de la corrélation, comme mentionné ici, ce n'est pas possible. À moins de clarifier votre définition de la corrélation.

OMG
la source
2
Et pourtant, nous avons des graphiques montrant clairement une corrélation (inverse) entre le nombre de pirates et la température moyenne mondiale. Comme le soulignent d'autres commentaires, il faut faire attention à la taille des échantillons, sans parler des `` apparitions accidentelles ''
Carl Witthoft
@OmG "si vous ne changez pas la signification de la corrélation, comme mentionné ici" Quand j'ai lu la question OP, j'ai eu une signification très différente de "corrélation". Pour moi: "Ne pourraient-ils pas avoir un tout petit peu de corrélation par accident?" implique très fortement de «mesurer» la corrélation, et lorsque vous mesurez la corrélation en réalité, vous trouverez très souvent «un tout petit peu de corrélation par accident».
industry7
1
@ industry7 je vois. Mais il doit être défini dans une méthode formelle. C'est qualitatif et on ne peut pas en parler ici.
OmG
@CarlWitthoft Le nombre de pirates et la température moyenne mondiale ne sont pas indépendants. Ils ont une cause commune (temps, développement, modernisation, etc.) qui crée une dépendance entre eux. "L'indépendance" ne signifie pas "ne cause pas"; cela signifie "non associé", et ces graphiques démontrent clairement l'association.
Noah
@Noah, je crains qu'un WHOOSH ne se soit produit. venganza.org
Carl Witthoft
19

r=0.ρ.]

Envisager des corrélations entre un million de paires d'échantillons indépendants de taille n=5 de la distribution exponentielle avec taux 1.

set.seed(616)
r = replicate( 10^6, cor(rexp(5), rexp(5))  )
mean(abs(r) > .5)
[1] 0.386212
mean(r)
[1] -0.0005904455

hist(r, prob=T, br=40, col="skyblue2")
  abline(v=c(-.5,.5), col="red", lwd=2)

enter image description here

Par exemple, voici le diagramme de dispersion du premier des millions de paires d'échantillons de taille 5, Pour qui r=-0,5716.

enter image description here

À cet égard, la distribution exponentielle n'a rien de spécial. La modification de la distribution parentale à la normale standard a donné les résultats suivants.

set.seed(2019)
...
mean(abs(r) > .5)
[1] 0.391061
mean(r)
[1] 1.43269e-05

enter image description here

En revanche, voici l'histogramme correspondant des corrélations pour des paires d'échantillons normaux de taille n=20.

enter image description here

Remarque: D'autres pages de ce site traitent de la distribution derplus en détail; l' un d'eux est ce Q & A .

BruceET
la source
6
Pour une petite taille d'échantillon, vous trouverez probablement des corrélations d'échantillon qui sont "sensiblement" différentes de zéro, mais vous n'êtes pas plus susceptible de trouver des corrélations qui sont significativement différentes de zéro. Même si votre estimation ponctuelle est loin d'être nulle, vous avez bien trop peu de données pour affirmer avec confiance que vous voyez une corrélation non nulle due à autre chose qu'au hasard. Avec seulement 5 paires, même les coefficients de corrélation supérieurs à 0,8 peuvent ne pas être significativement différents de 0.
Nuclear Wang
11

Réponse simple: si 2 variables sont indépendantes, alors la corrélation de population est nulle, alors que la corrélation d' échantillon sera typiquement petite, mais non nulle.

En effet, l'échantillon n'est pas une représentation parfaite de la population.

Plus l'échantillon est grand, mieux il représente la population, donc plus la corrélation sera faible. Pour un échantillon infini , la corrélation serait nulle.

Dave
la source
1
La formulation précise serait que pour tout p et ϵ, il y en a n de telle sorte que si la taille de l'échantillon est supérieure à n, alors la probabilité que la corrélation soit supérieure à ϵ est inférieur à p.
Accumulation
Oui, tout à fait correct! J'ai essayé de garder ma réponse aussi simple et conceptuelle que possible.
Dave
1

Cela peut être utile pour certaines personnes partageant la même compréhension intuitive. Nous avons tous vu quelque chose comme ça:

enter image description here

Ces données sont vraisemblablement indépendantes mais présentent clairement une corrélation (r=0,66). "Je pensais que l'indépendance implique une corrélation nulle!" dit l'élève.

Comme d'autres l'ont déjà souligné, les valeurs de l' échantillon sont corrélées, mais cela ne signifie pas que la population présente une corrélation non nulle.

Bien sûr, ces deux devraient être indépendants - étant donné que Nicolas Cage est apparu dans un record de 10 films cette année, nous ne devrions pas fermer la piscine locale pour l'été pour des raisons de sécurité.

Mais quand on vérifie combien de personnes se noient cette année, il y a une petite chance qu'un record de 1000 personnes se noie cette année.

Une telle corrélation est peu probable. Peut-être un sur mille. Mais c'est possible, même si les deux sont indépendants. Mais ce n'est qu'un cas. Considérez qu'il y a des millions d'événements possibles à mesurer, et vous pouvez voir la chance que la probabilité que deux se produisent pour donner une corrélation élevée est assez élevée (d'où l'existence de graphiques tels que celui ci-dessus).

Une autre façon de voir les choses est que garantir que deux événements indépendants donneront toujours des valeurs non corrélées est lui-même restrictif. Étant donné deux dés indépendants et les résultats du premier, il existe un certain ensemble de résultats (assez important) pour le deuxième dé qui donnera une corrélation non nulle. Limiter les résultats du deuxième dé pour ne donner aucune corrélation avec le premier est une violation flagrante de l'indépendance, car les lancers du premier dés affectent désormais la distribution des résultats.

Simon Alford
la source