Si deux variables ont une corrélation nulle, pourquoi ne sont-elles pas nécessairement indépendantes? Les variables corrélées à zéro sont-elles indépendantes dans des circonstances particulières? Si possible, je cherche une explication intuitive, pas très technique.
correlation
independence
Victor
la source
la source
Réponses:
La corrélation mesure l'association linéaire entre deux variables données et il n'est pas obligé de détecter une autre forme d'association.
Donc, ces deux variables pourraient être associées de plusieurs autres manières non linéaires et la corrélation ne pourrait pas se distinguer du cas indépendant.
Comme exemple très didactique, artificiel et non réaliste, on peut considérer tel que pour et . Notez qu'ils ne sont pas seulement associés, mais que l'un est une fonction de l'autre. Néanmoins, leur corrélation est 0, car leur association est orthogonale à celle que la corrélation peut détecter.X P( X= X ) = une / trois x = - 1 , 0 , 1 Y= X2
la source
Il existe un manque généralisé de rigueur dans l'utilisation du mot "corrélation" pour la simple raison qu'il peut avoir des hypothèses et des significations très différentes. L’utilisation la plus simple, la plus vague et la plus courante est qu’il existe une vague association, relation ou manque d’indépendance entre une paire statique de variables aléatoires.
Ici, la métrique par défaut à laquelle on se réfère est généralement la corrélation de Pearson , qui est une mesure standardisée de l' association par paire et linéaire entre deux variables distribuées en continu. L'un des abus les plus fréquents chez Pearson est de le déclarer en pourcentage. Ce n'est certainement pas un pourcentage. La corrélation de Pearson , r , va de -1,0 à +1,0, 0 signifiant aucune association linéaire . L’utilisation par défaut de la corrélation de Pearson est un autre problème moins largement reconnu : il s’agit en fait d’une mesure assez stricte et non robuste de la linéarité nécessitant des variables à l’échelle d’intervalle comme entrée (voir l'excellent document de Paul Embrechts surCorrélation et dépendance dans la gestion des risques: propriétés et pièges ici: https://people.math.ethz.ch/~embrecht/ftp/pitfalls.pdf ).
Embrechts note qu'il existe de nombreuses hypothèses fallacieuses sur la dépendance qui commencent par des hypothèses sur la structure sous-jacente et la forme géométrique de ces relations:
Embrechts décrit les copules comme une classe beaucoup plus large de métriques de dépendance utilisées dans la finance et la gestion des risques, dont la corrélation de Pearson n'est qu'un type.
Le département de statistique de Columbia a passé l'année universitaire 2013-2014 à développer une compréhension plus approfondie des structures de dépendance: linéaires, non linéaires, monotones, hiérarchiques, paramétriques, non paramétriques, potentiellement très complexes et présentant de grandes différences d'échelle. L’année s’est terminée par un atelier et une conférence de 3 jours qui ont rassemblé la plupart des principaux contributeurs dans ce domaine ( http://datascience.columbia.edu/workshop-and-conference-andparametric-measures-dependence-apr-28-may- 2 )
Parmi ces contributeurs, citons les frères Reshef, désormais célèbres pour leur article scientifique intitulé « Détecter de nouvelles associations dans de grands ensembles de données» en 2011 http://www.uvm.edu/~cdanfort/csc-reading-group/reshef-correlation-science-2011.pdf that a été largement critiqué (voir AndrewGelman.com pour un bon aperçu publié simultanément avec l’événement Columbia: http://andrewgelman.com/2014/03/14/maximal-information-coefficient ). Les Reshefs ont abordé toutes ces critiques dans leur présentation (disponible sur le site Web de la conférence de Columbia), ainsi que dans un algorithme MIC beaucoup plus efficace.
De nombreux autres statisticiens de premier plan ont participé à cet événement, dont Gabor Szekely, actuellement à la NSF à Washington. Szekely a développé ses corrélations de distance et de distance partielle . Deep Mukhopadhay, Temple U, présente son algorithme statistique unifié - un cadre pour les algorithmes unifiés de la science des données - basé sur un travail effectué avec Eugene Franzen http://www.fox.temple.edu/mcm_people/subhadeep-mukhopadhyay/ . Et plein d'autres. Pour moi, l’un des thèmes les plus intéressants était le large effet de levier et l’utilisation de Reproducing Kernel Hilbert Space (RKHS) et du chi-carré. S'il y avait une approche modale des structures de dépendance à cette conférence, c'était bien la RKHS.
Les manuels classiques de statistiques d’introduction traitent de manière superficielle de la dépendance et reposent généralement sur des présentations du même ensemble de visualisations de relations circulaires ou paraboliques. Des textes plus sophistiqués se plongeront dans Anscombe's Quartet , une visualisation de quatre jeux de données différents possédant des propriétés statistiques simples et similaires, mais des relations extrêmement différentes: https://en.wikipedia.org/wiki/Anscombe%27s_quartet
L'un des points forts de cet atelier était la multitude de structures et de relations de dépendance visualisées et présentées, allant bien au-delà du traitement standard et superficiel. Par exemple, les Reshefs avaient des dizaines d’images miniatures qui ne représentaient qu’un échantillon des non-linéarités possibles. Deep Mukhopadhay avait des images étonnantes de relations extrêmement complexes qui ressemblaient davantage à une vue satellite de l'Himalaya. Les auteurs de manuels de statistiques et de données doivent en prendre note.
À la sortie de la conférence de Columbia avec le développement et la visualisation de ces structures de dépendance par paire extrêmement complexes, il me restait de mettre en doute la capacité des modèles statistiques multivariés à saisir ces non-linéarités et complexités.
la source
Cela dépend de votre définition exacte de "corrélation", mais il n'est pas trop difficile de construire des cas dégénérés. "Indépendant" pourrait signifier quelque chose comme "pas de pouvoir prédictif, du tout, jamais", autant que "corrélation linéaire".
La corrélation linéaire, par exemple, n'indiquerait pas la dépendance à si le domaine de était .y= péché( 2000 x ) X [ 0 , 1 )
la source
Fondamentalement, la dépendance de Y sur X signifie que la distribution des valeurs de Y dépend d’une manière ou d’une autre de la valeur de X. Cette dépendance peut être liée à la valeur moyenne de Y (cas habituel présenté dans la plupart des réponses) ou à toute autre caractéristique de Y.
Par exemple, supposons que X soit 0 ou 1. Si X = 0, alors que Y soit égal à 0, si X = 1, fixons Y à -1, 0 ou 1 (même probabilité). X et Y ne sont pas corrélés. Sur la moyenne, Y ne dépend pas de X car quelle que soit la valeur de X, la moyenne de Y est 0. Mais il est clair que la distribution des valeurs de Y dépend de la valeur de X. Dans ce cas, par exemple, la variance de Y est 0 lorsque X = 0 et> 0 lorsque X = 1, il existe donc au moins une dépendance à la variance, c'est-à-dire qu'il existe une dépendance.
Ainsi, la corrélation linéaire ne montre qu’un type de dépendance à la moyenne (dépendance linéaire), qui n’est à son tour qu’un cas particulier de dépendance.
la source