La causalité implique-t-elle une corrélation?

118

La corrélation n'implique pas de causalité, car il pourrait y avoir de nombreuses explications à la corrélation. Mais la causalité implique-t-elle une corrélation? Intuitivement, je penserais que la présence de causalité signifie qu'il y a nécessairement une corrélation. Mais mon intuition ne m'a pas toujours bien servi en statistiques. La causalité implique-t-elle une corrélation?

Matthieu
la source
5
Le problème, c'est que si vous regardez "implicitement" dans un dictionnaire, vous verrez à la fois "suggérer" et "nécessiter".
rolando2
6
La corrélation n'implique pas de lien de causalité, mais remue les sourcils de manière suggestive et gesticule furtivement en prononçant «regarde là-bas». xkcd.com/552
jchristie
1
La question elle-même ne semble pas chercher une réponse factuelle spécifique, comme l'indique l'utilisation du mot implicite. La référence ci-dessus est comme un ultime peut-être. Ou plus probablement comme un mais je ne peux pas le prouver.
Jchristie

Réponses:

96

Comme beaucoup de réponses ci-dessus l'ont indiqué, la causalité n'implique pas de corrélation linéaire . Étant donné que bon nombre des concepts de corrélation proviennent de champs qui reposent fortement sur des statistiques linéaires, la corrélation est généralement considérée comme égale à la corrélation linéaire. L' article de Wikipédia est une bonne source pour cela, j'aime beaucoup cette image:

Exemples de corrélation

Regardez quelques figures dans la rangée du bas, par exemple la forme parabole du 4ème exemple. C'est un peu ce qui se passe dans la réponse @StasK (avec un peu de bruit ajouté). Y peut être entièrement causé par X mais si la relation numérique n'est pas linéaire et symétrique, vous aurez toujours une corrélation de 0.

Le mot que vous recherchez est une information mutuelle : c'est en quelque sorte la version non linéaire générale de la corrélation. Dans ce cas, votre affirmation serait vraie: la causalité implique une grande information mutuelle .

Artem Kaznatcheev
la source
3
Il est généralement, mais pas toujours vrai, qu'une information mutuelle élevée accompagne la causalité. Voir la réponse de @ gung où "si la cause est parfaitement corrélée à une autre variable causale ayant exactement l'effet inverse".
Neil G
5
L'argument de deux causes aux effets opposés qui s'annulent toujours n'a pas beaucoup de sens pour moi en tant que cause . Je peux toujours supposer que des licornes sont à l'origine de quelque chose et que les Gremlins annulent leurs efforts à la perfection. J'évite ça car c'est idiot. Mais peut-être que je vous ai mal compris.
Artem Kaznatcheev
11
Son exemple est plus extrême qu'il ne le faut. Il est possible que les variables booléennes et soient telles que et soient les causes de et que (mod 2). Alors, absents de la connaissance de , et n’ont aucune information mutuelle. est un facteur de confusion non découvert - ce que vous appelez des "gremlins" même s’il s’agit d’une chose très courante. C A B C C = A + B B A C BA,BCABCC=A+BBACB
Neil G
2
@NielG Je suis d'accord avec votre première phrase, mais pas la seconde. Ce n'est pas parce que A et B est à l'origine de C que cela signifie que A est à l'origine de C et B, mais je ne vois pas pourquoi la cause doit être distributive.
Artem Kaznatcheev
4
La raison pour laquelle A est quand même une cause de C, c'est parce que changer A changera toujours C. Donc, C dépend de A, même si on n'observe pas B.
Neil G
41

La réponse stricte est "non, la causalité n'implique pas nécessairement une corrélation".

Considérons et . Lien de causalité ne soit pas plus forte: détermine . Cependant, la corrélation entre et est 0. Démonstration: Les moments (conjoints) de ces variables sont: ; ; utilisant la propriété de la distribution normale standard que ses moments impairs sont tous égaux à zéro (peut être facilement déduite de sa fonction générant les moments, par exemple). Par conséquent, la corrélation est égale à zéro.Y = X 2 ~ χ 2 1 X Y X YXN(0,1)Y=X2χ12XYXYE[X]=0E[Y]=E[X2]=1

Cov[X,Y]=E[(X0)(Y1)]=E[XY]E[X]1=E[X3]E[X]=0

XN(0,1)(10,10)exp(|x|)XXXXsont associés à des valeurs supérieures ou inférieures de . Cependant, si vous prenez , alors , , et . Cela est parfaitement logique: pour chaque valeur de en dessous de zéro, il y a une valeur beaucoup plus probable de qui est au- dessus de zéro, donc les plus grandes valeurs de sont associées à des valeurs plus élevées de . (Ce dernier a une distribution non centrale de ; vous pouvez extraire la variance de la page Wikipedia et calculer la corrélation si cela vous intéresse.)YXN(3,1)E[X]=3E[Y]=E[X2]=10E[X3]=36X - X X Y χ 2Cov[X,Y]=E[XY]E[X]E[Y]=3630=60XXXYχ2

StasK
la source
2
@DQdlM: La variable aléatoire standard a des moments centraux impairs en train de disparaître , en raison de l'uniformité de la densité. Matthew: La réponse est non, comme l'a démontré StasK, car la corrélation n'est pas le seul type de dépendance.
Emre
3
@DQdlM: voir le graphique du milieu en bas de la première image de la page de corrélation de Wikipedia . C'est le cas de StasK. Cela ne fonctionne que lorsque x est également distribué autour de l'origine (c'est-à-dire, si , la corrélation sera assez élevée)XN(3,1)
naught101
3
PS Je suis tellement content que vous avez posté cette réponse. Il était difficile de croire que la question a duré si longtemps sans cette réponse. C’est exactement cet exemple qui m’est venu à l’esprit lorsque j’ai vu cette question, mais n’a pas eu le temps de la rédiger. Je suis heureux que vous avez pris le temps. À votre santé.
cardinal
3
@ cardinal: oui, je suppose que nous avons tous appris ce genre de contre-exemples simples à la maîtrise ... et oui, grâce à la dérivation de la covariance, il suffit que les premier et troisième moments soient nuls. Si vous avez un exemple non trivial de distribution asymétrique qui a un troisième moment égal à zéro (les masses de probabilité ajustées avec précision sur cinq ou six points ne comptent pas), je serais cependant très curieux de le voir.
StasK
3
Ici, on suppose que la «causalité» peut être exprimée en tant que fonction. C'est-à-dire que provoque si et seulement s'il existe une fonction mesurable, , telle que . Je suppose que nous pourrions passer le reste de notre vie à discuter de la validité de cet argument. Y f Y = f ( X )XYfY=f(X)
31

Essentiellement, oui.

La corrélation n'implique pas la causalité car il pourrait y avoir d'autres explications pour une corrélation au-delà de la cause. Mais pour que A soit une cause de B, ils doivent être associés d’une manière ou d’une autre . Ce qui signifie qu'il existe une corrélation entre eux - bien que cette corrélation ne doive pas nécessairement être linéaire.

Comme certains commentateurs l'ont suggéré, il est probablement plus approprié d'utiliser un terme comme «dépendance» ou «association» plutôt que corrélation. Bien que, comme je l’ai mentionné dans les commentaires, j’ai vu "corrélation ne signifie pas causalité" en réponse à une analyse bien au-delà de la simple corrélation linéaire; association entre A et B.

Fomite
la source
16
J'ai tendance à réserver le mot corrélation à la corrélation linéaire et à utiliser la dépendance pour les relations non linéaires qui peuvent ou non avoir une corrélation linéaire.
Memming
4
@Memming je le ferais aussi, à l'exception du fait que les gens disent "La corrélation n'implique pas la causalité" au sujet d'une association non linéaire assez complexe.
Fomite
Memming a raison. Vous devez définir la corrélation si vous ne voulez pas dire corrélation de Pearson.
Neil G
1
@NeilG Ou, d'ailleurs, on peut obtenir une corrélation de Pearson linéaire en transformant une variable ou l'autre. Le problème est que l'adage lui-même est trop simpliste.
Fomite
1
@EpiGrad: Les deux points positifs. Dans le langage courant, la corrélation est un peu plus de A coïncide avec plus de B. Je pense que votre réponse gagnerait à clarifier votre utilisation d'une définition large de corrélation.
Neil G
23

Ajout à la réponse de @EpiGrad. Je pense que pour beaucoup de gens, "corrélation" impliquera "corrélation linéaire". Et le concept de corrélation non linéaire pourrait ne pas être intuitif.

Donc, je dirais "non, ils ne doivent pas être corrélés mais ils doivent être liés ". Nous sommes d’accord sur le fond, mais pas sur la meilleure façon de le faire passer.

Un exemple d'une telle cause (du moins les gens pensent qu'elle est causale) est celui qui existe entre la probabilité de répondre à votre téléphone et le revenu. On sait que les personnes aux deux extrémités du spectre des revenus sont moins susceptibles de répondre au téléphone que les personnes du milieu. On pense que le modèle de causalité est différent pour les pauvres (par exemple, éviter les collecteurs de factures) et les riches (par exemple, éviter que les gens demandent des dons).

Peter Flom
la source
21

XY

Considérez le modèle causal suivant:

XYU

XUY

Maintenant, laisse:

Xbernoulli(0.5)Ubernoulli(0.5)Y=1XU+2XU

UP(Y|X)=P(Y)XYYX

XUYXUXYUY {X,U}YXYXYXYXYU

En bref, je dirais que: (i) la causalité suggère la dépendance; mais, (ii) la dépendance est une dépendance fonctionnelle / structurelle et peut ou non se traduire par la dépendance statistique spécifique à laquelle vous songez.

Carlos Cinelli
la source
Carlos, il est exact de dire que si nous connaissons l'ensemble des variables impliquées dans le modèle causal, ce problème (invisibilité statistique) disparaît?
markowitz
@markowitz, vous devez tout observer au niveau déterministe, donc pas dans un scénario très réaliste.
Carlos Cinelli
J'interprète votre réponse comme «oui». Vous avez raison, la situation que je supposais irréaliste; Je suis au courant. Cependant, la question ne portait que sur la logique que vous avez décrite et la finalité était de la saisir. Ma conviction était quelque chose comme «la causalité implique une association statistique» et les autres réponses de cette page ressemblent à ceci. Après tout, votre exemple est légèrement irréaliste, mais pas pour cette raison inintéressant. Il me semble que, également en général, la causalité sans association statistique est peu réaliste, mais théoriquement intéressante.
markowitz
1
@markowitz "l'invisibilité statistique" se produit lorsque le modèle n'est pas fidèle au graphique. Pour une annulation exacte, cela dépend d'un choix spécifique de paramétrage, de sorte que certaines personnes soutiennent qu'il est en effet peu probable. Cependant, la quasi-annulation peut être plausible car elle dépend d'un voisinage de paramètres, donc tout dépend du contexte. Le point ici est simplement que vous devez expliciter vos hypothèses de causalité parce que, logiquement, la causalité n’implique pas une association en soi, vous avez besoin d’hypothèses supplémentaires.
Carlos Cinelli
13

La cause et l'effet seront corrélées à moins qu'il n'y a pas de variation du tout de l'incidence et de l' ampleur de la cause et aucune variation du tout dans sa force de cause à effet. La seule autre possibilité serait que la cause soit parfaitement corrélée à une autre variable causale ayant exactement l'effet inverse. Fondamentalement, ce sont des conditions expérimentales. Dans le monde réel, la causalité impliquera une dépendance sous une forme ou une autre (bien que cela puisse ne pas être une corrélation linéaire ).

gung
la source
3
@NeilG, je me suis laissé aller à l' italique .
gung
1
Certaines théories impliquent réellement cela, par exemple de nombreux modèles de théorie des jeux. Certaines situations empiriques ne permettent pas de discerner une différence (bien qu’il y en ait réellement un en gung-italique): incluez des scénarios «neutres» de non-changement de gène lorsque la pression de sélection évolutive à deux niveaux pointe dans des directions différentes.
conjugateprior
1
J'aime la première exception, mais pas la deuxième exception. J'aime penser que l'activation de l'interrupteur provoque l'allumage de la lumière, mais s'il m'arrive d'inverser l'interrupteur pendant une panne de courant, rien ne se passe. Peut-être n'y avait-il pas vraiment de relation de cause à effet.
Emory
1
@ naught101, vous soulevez un bon point, qui a été discuté ailleurs sur cette page. J'ai édité ma réponse. Cependant, quand j'ai travaillé avec des gens, je ne pense pas qu'ils aient une conception forte de la corrélation comme nécessairement linéaire, même si je le leur dis. Bien qu'ils ne l'aient pas exprimé en ces termes, je pense que la plupart des gens comprennent que la «corrélation» est plus proche de la «fonction de». Néanmoins, je devrais être plus clair dans mon utilisation des termes, et cela aurait dû être le cas depuis le début.
gung
2
@emory: la cause de la lumière est en réalité la fermeture du circuit électrique (qui est provoquée par le basculement de l'interrupteur, avec les conditions environnementales incluant un réseau en fonctionnement). En cas de coupure de courant, appuyer sur l'interrupteur ne ferme pas le circuit, car il est cassé ailleurs. Donc, dans un sens, la panne est l'effet "opposé" dont parlait gung (la lumière est allumée, la panne est désactivée). Cela pourrait aussi être considéré comme un effet d'annulation.
naught101
2

Il y a d'excellentes réponses ici. Artem Kaznatcheev , Fomite et Peter Flom soulignent que la causalité impliquerait généralement une dépendance plutôt qu'une corrélation linéaire. Carlos Cinelli donne un exemple où il n'y a pas de dépendance, à cause de la manière dont la fonction génératrice est configurée.

Je voudrais ajouter un point sur la façon dont cette dépendance peut disparaître dans la pratique, dans les types de jeux de données avec lesquels vous pourriez bien travailler. Des situations comme celle de Carlos ne se limitent pas à de "simples conditions d’expérience".

Les dépendances disparaissent dans les processus d'autorégulation . L'homéostasie, par exemple, garantit que la température interne de votre corps reste indépendante de la température ambiante. La chaleur externe influe directement sur la température de votre corps, mais également sur les systèmes de refroidissement du corps (par exemple, la transpiration) qui maintiennent la température du corps stable. Si nous échantillonnons la température à des intervalles extrêmement rapides et en utilisant des mesures extrêmement précises, nous aurons une chance d’observer les dépendances de cause à effet, mais à des taux d’échantillonnage normaux, la température corporelle et la température externe apparaissent indépendantes.

Les processus autorégulateurs sont courants dans les systèmes biologiques; ils sont produits par l'évolution. Les mammifères qui ne régulent pas leur température corporelle sont éliminés par sélection naturelle. Les chercheurs qui travaillent avec des données biologiques doivent savoir que des dépendances de cause à effet peuvent disparaître de leurs jeux de données.

Lizzie Silver
la source
-3

Une cause sans corrélation ne serait-elle pas un rng?

À moins que, comme le suggère la réponse acceptée, vous utilisiez une interprétation incroyablement limitée du mot "corrélation", il s'agit d'une question idiote: si une chose en "cause" une autre, elle est par définition affectée d'une manière ou d'une autre, qu'il s'agisse d'un augmentation de la population, ou juste intensité.

droite?

Là encore, vous pourriez discuter de quelque chose de plus semblable à, la visibilité de quelque chose qui est affecté par quelque chose d'autre, ce qui, je suppose, ressemblerait à une causalité, mais en réalité vous ne mesurez pas ce que vous pensez que vous mesurez ...

Alors oui, je suppose que la réponse courte serait: "Oui, tant que vous ne pouvez pas créer d'entropie."

utilisateur3363155
la source