Pourquoi la corrélation zéro n'implique pas nécessairement l'indépendance

41

Si deux variables ont une corrélation nulle, pourquoi ne sont-elles pas nécessairement indépendantes? Les variables corrélées à zéro sont-elles indépendantes dans des circonstances particulières? Si possible, je cherche une explication intuitive, pas très technique.

Victor
la source
10
La corrélation est une mesure de la dépendance linéaire (association). il est possible que deux variables aléatoires soient non corrélées mais non linéairement dépendantes.
Mark L. Stone
Explication intuitive -> math.stackexchange.com/questions/444408/…
Siddhesh
6
La corrélation zéro implique l'indépendance si les variables sont normales à plusieurs variables. Ce n'est pas la même chose puisque chaque variable est normale - voir ici quelques diagrammes de dispersion de variables normales corrélées par le zéro mais dépendantes (chaque variable est individuellement normale)
Glen_b -Reinstate Monica
1
La corrélation (non qualifiée) pourrait inclure la corrélation de rang, etc., pour laquelle une dépendance monotone est en cause, etc.
Nick Cox
1
Pour les perspectives, je vous recommanderais de voir "corrélation de distance" dans Wikipedia comme mesure d'indépendance.
ttnphns

Réponses:

41

La corrélation mesure l'association linéaire entre deux variables données et il n'est pas obligé de détecter une autre forme d'association.

Donc, ces deux variables pourraient être associées de plusieurs autres manières non linéaires et la corrélation ne pourrait pas se distinguer du cas indépendant.

Comme exemple très didactique, artificiel et non réaliste, on peut considérer tel que pour et . Notez qu'ils ne sont pas seulement associés, mais que l'un est une fonction de l'autre. Néanmoins, leur corrélation est 0, car leur association est orthogonale à celle que la corrélation peut détecter.XP(X=x)=1/3x=1,0,1Y=X2

Marcelo Ventura
la source
1
Je recherchais des preuves de variances aléatoires non corrélées mais dépendantes, mais aucune des réponses directes à ma question ne révélait des faits intuitifs. Votre réponse, par contre, me donne un très bon angle de réflexion, merci beaucoup!
Stucash
1
@stucash mon plaisir! C’était un vieux exemple que j’avais appris
Marcelo Ventura
23

Il existe un manque généralisé de rigueur dans l'utilisation du mot "corrélation" pour la simple raison qu'il peut avoir des hypothèses et des significations très différentes. L’utilisation la plus simple, la plus vague et la plus courante est qu’il existe une vague association, relation ou manque d’indépendance entre une paire statique de variables aléatoires.

Ici, la métrique par défaut à laquelle on se réfère est généralement la corrélation de Pearson , qui est une mesure standardisée de l' association par paire et linéaire entre deux variables distribuées en continu. L'un des abus les plus fréquents chez Pearson est de le déclarer en pourcentage. Ce n'est certainement pas un pourcentage. La corrélation de Pearson , r , va de -1,0 à +1,0, 0 signifiant aucune association linéaire . L’utilisation par défaut de la corrélation de Pearson est un autre problème moins largement reconnu : il s’agit en fait d’une mesure assez stricte et non robuste de la linéarité nécessitant des variables à l’échelle d’intervalle comme entrée (voir l'excellent document de Paul Embrechts surCorrélation et dépendance dans la gestion des risques: propriétés et pièges ici: https://people.math.ethz.ch/~embrecht/ftp/pitfalls.pdf ).

Embrechts note qu'il existe de nombreuses hypothèses fallacieuses sur la dépendance qui commencent par des hypothèses sur la structure sous-jacente et la forme géométrique de ces relations:

Ces erreurs découlent d'une hypothèse naïve selon laquelle les propriétés de dépendance du monde elliptique sont également valables dans le monde non elliptique.

Embrechts décrit les copules comme une classe beaucoup plus large de métriques de dépendance utilisées dans la finance et la gestion des risques, dont la corrélation de Pearson n'est qu'un type.

Le département de statistique de Columbia a passé l'année universitaire 2013-2014 à développer une compréhension plus approfondie des structures de dépendance: linéaires, non linéaires, monotones, hiérarchiques, paramétriques, non paramétriques, potentiellement très complexes et présentant de grandes différences d'échelle. L’année s’est terminée par un atelier et une conférence de 3 jours qui ont rassemblé la plupart des principaux contributeurs dans ce domaine ( http://datascience.columbia.edu/workshop-and-conference-andparametric-measures-dependence-apr-28-may- 2 )

Parmi ces contributeurs, citons les frères Reshef, désormais célèbres pour leur article scientifique intitulé « Détecter de nouvelles associations dans de grands ensembles de données» en 2011 http://www.uvm.edu/~cdanfort/csc-reading-group/reshef-correlation-science-2011.pdf that a été largement critiqué (voir AndrewGelman.com pour un bon aperçu publié simultanément avec l’événement Columbia: http://andrewgelman.com/2014/03/14/maximal-information-coefficient ). Les Reshefs ont abordé toutes ces critiques dans leur présentation (disponible sur le site Web de la conférence de Columbia), ainsi que dans un algorithme MIC beaucoup plus efficace.

De nombreux autres statisticiens de premier plan ont participé à cet événement, dont Gabor Szekely, actuellement à la NSF à Washington. Szekely a développé ses corrélations de distance et de distance partielle . Deep Mukhopadhay, Temple U, présente son algorithme statistique unifié - un cadre pour les algorithmes unifiés de la science des données - basé sur un travail effectué avec Eugene Franzen http://www.fox.temple.edu/mcm_people/subhadeep-mukhopadhyay/ . Et plein d'autres. Pour moi, l’un des thèmes les plus intéressants était le large effet de levier et l’utilisation de Reproducing Kernel Hilbert Space (RKHS) et du chi-carré. S'il y avait une approche modale des structures de dépendance à cette conférence, c'était bien la RKHS.

Les manuels classiques de statistiques d’introduction traitent de manière superficielle de la dépendance et reposent généralement sur des présentations du même ensemble de visualisations de relations circulaires ou paraboliques. Des textes plus sophistiqués se plongeront dans Anscombe's Quartet , une visualisation de quatre jeux de données différents possédant des propriétés statistiques simples et similaires, mais des relations extrêmement différentes: https://en.wikipedia.org/wiki/Anscombe%27s_quartet

L'un des points forts de cet atelier était la multitude de structures et de relations de dépendance visualisées et présentées, allant bien au-delà du traitement standard et superficiel. Par exemple, les Reshefs avaient des dizaines d’images miniatures qui ne représentaient qu’un échantillon des non-linéarités possibles. Deep Mukhopadhay avait des images étonnantes de relations extrêmement complexes qui ressemblaient davantage à une vue satellite de l'Himalaya. Les auteurs de manuels de statistiques et de données doivent en prendre note.

À la sortie de la conférence de Columbia avec le développement et la visualisation de ces structures de dépendance par paire extrêmement complexes, il me restait de mettre en doute la capacité des modèles statistiques multivariés à saisir ces non-linéarités et complexités.

Mike Hunter
la source
2
Je viens de tomber sur cette discussion excellente et exhaustive sur les mesures d'association sur Quora: quora.com/…
Mike Hunter
6

Cela dépend de votre définition exacte de "corrélation", mais il n'est pas trop difficile de construire des cas dégénérés. "Indépendant" pourrait signifier quelque chose comme "pas de pouvoir prédictif, du tout, jamais", autant que "corrélation linéaire".

La corrélation linéaire, par exemple, n'indiquerait pas la dépendance à si le domaine de était .y=péché(2000X)X[0,1)

Andrew Charneski
la source
3

Fondamentalement, la dépendance de Y sur X signifie que la distribution des valeurs de Y dépend d’une manière ou d’une autre de la valeur de X. Cette dépendance peut être liée à la valeur moyenne de Y (cas habituel présenté dans la plupart des réponses) ou à toute autre caractéristique de Y.

Par exemple, supposons que X soit 0 ou 1. Si X = 0, alors que Y soit égal à 0, si X = 1, fixons Y à -1, 0 ou 1 (même probabilité). X et Y ne sont pas corrélés. Sur la moyenne, Y ne dépend pas de X car quelle que soit la valeur de X, la moyenne de Y est 0. Mais il est clair que la distribution des valeurs de Y dépend de la valeur de X. Dans ce cas, par exemple, la variance de Y est 0 lorsque X = 0 et> 0 lorsque X = 1, il existe donc au moins une dépendance à la variance, c'est-à-dire qu'il existe une dépendance.

Ainsi, la corrélation linéaire ne montre qu’un type de dépendance à la moyenne (dépendance linéaire), qui n’est à son tour qu’un cas particulier de dépendance.

Karpablanca
la source