Tout d'abord, je ne demande pas ceci:
Pourquoi la corrélation zéro n'implique-t-elle pas l'indépendance?
Ceci est traité (plutôt gentiment) ici: /math/444408/why-does-zero-correlation-not-imply-independence
Ce que je demande, c'est le contraire ... disons que deux variables sont entièrement indépendantes l'une de l'autre.
Ne pourraient-ils pas avoir un tout petit peu de corrélation par accident?
Ne devrait-il pas en être ainsi ... l'indépendance implique une TRÈS PEU de corrélation?
correlation
mathematical-statistics
covariance
independence
Joshua Ronis
la source
la source
Réponses:
Par la définition du coefficient de corrélation, si deux variables sont indépendantes, leur corrélation est nulle. Il ne pouvait donc pas y avoir de corrélation par accident!
SiX et Y sont indépendants, signifie E[XY]=E[X]E[Y] . Par conséquent, le numérateur de ρX,Y est nul dans ce cas.
Donc, si vous ne changez pas la signification de la corrélation, comme mentionné ici, ce n'est pas possible. À moins de clarifier votre définition de la corrélation.
la source
Envisager des corrélations entre un million de paires d'échantillons indépendants de taillen = 5 de la distribution exponentielle avec taux 1.
Par exemple, voici le diagramme de dispersion du premier des millions de paires d'échantillons de taille5 , Pour qui
r = - 0,5716.
À cet égard, la distribution exponentielle n'a rien de spécial. La modification de la distribution parentale à la normale standard a donné les résultats suivants.
En revanche, voici l'histogramme correspondant des corrélations pour des paires d'échantillons normaux de taillen = 20.
Remarque: D'autres pages de ce site traitent de la distribution der plus en détail; l' un d'eux est ce Q & A .
la source
Réponse simple: si 2 variables sont indépendantes, alors la corrélation de population est nulle, alors que la corrélation d' échantillon sera typiquement petite, mais non nulle.
En effet, l'échantillon n'est pas une représentation parfaite de la population.
Plus l'échantillon est grand, mieux il représente la population, donc plus la corrélation sera faible. Pour un échantillon infini , la corrélation serait nulle.
la source
Cela peut être utile pour certaines personnes partageant la même compréhension intuitive. Nous avons tous vu quelque chose comme ça:
Ces données sont vraisemblablement indépendantes mais présentent clairement une corrélation (r = 0,66 ). "Je pensais que l'indépendance implique une corrélation nulle!" dit l'élève.
Comme d'autres l'ont déjà souligné, les valeurs de l' échantillon sont corrélées, mais cela ne signifie pas que la population présente une corrélation non nulle.
Bien sûr, ces deux devraient être indépendants - étant donné que Nicolas Cage est apparu dans un record de 10 films cette année, nous ne devrions pas fermer la piscine locale pour l'été pour des raisons de sécurité.
Mais quand on vérifie combien de personnes se noient cette année, il y a une petite chance qu'un record de 1000 personnes se noie cette année.
Une telle corrélation est peu probable. Peut-être un sur mille. Mais c'est possible, même si les deux sont indépendants. Mais ce n'est qu'un cas. Considérez qu'il y a des millions d'événements possibles à mesurer, et vous pouvez voir la chance que la probabilité que deux se produisent pour donner une corrélation élevée est assez élevée (d'où l'existence de graphiques tels que celui ci-dessus).
Une autre façon de voir les choses est que garantir que deux événements indépendants donneront toujours des valeurs non corrélées est lui-même restrictif. Étant donné deux dés indépendants et les résultats du premier, il existe un certain ensemble de résultats (assez important) pour le deuxième dé qui donnera une corrélation non nulle. Limiter les résultats du deuxième dé pour ne donner aucune corrélation avec le premier est une violation flagrante de l'indépendance, car les lancers du premier dés affectent désormais la distribution des résultats.
la source