Aucune corrélation n'implique aucune causalité?

73

Je sais que la corrélation n'implique pas de causalité mais une absence de corrélation implique une absence de causalité?

utilisateur2088176
la source
46
Pour citer Andrew Gelman, "La corrélation n'implique même pas une corrélation".
Mike Hunter
9
Non. A peut être la cause de B, mais ne l’affecte que de manière non linéaire.
Neil G
3
"La corrélation est corrélée avec la causalité. (Mais pas beaucoup.)"
Adrian
7
S'il vous plaît regardez cette page pour la contrapositive. Si la causalité n'implique pas de corrélation, aucune corrélation n'implique aucune causalité.
EdM
4
Bien que ce soit un bon début pour signaler que la corrélation n'implique pas de lien de causalité, puis pour discuter de détails, j'ai longtemps pensé pourquoi choisir une corrélation? Je mets cela au dépourvu et l’idée séduisante pour les enseignants (moi aussi) que les élèves qui font un effort puisse se rappeler un slogan et l’utiliser dans leur réflexion. Mais la vérité est que peu de statistiques impliquent une causalité. Autrement dit, cet avertissement vient souvent du chapitre sur la corrélation ou de la leçon sur la corrélation, mais il appartient partout.
Nick Cox

Réponses:

76

une absence de corrélation implique-t-elle une absence de causalité?

Non, tout système contrôlé est un contre-exemple.

Sans relation de cause à effet, le contrôle est clairement impossible, mais un contrôle réussi signifie, en gros, qu'une quantité est maintenue constante, ce qui implique qu'elle ne sera pas corrélée à rien, y compris à tout ce qui la cause.

Donc, dans cette situation, ne conclure aucune relation de cause à effet par un manque de corrélation serait une erreur.

Voici un exemple un peu d'actualité .

conjuguéprior
la source
Une façon intuitive d'y penser
Repmat
+1, prise intéressante. Cependant, cela semble impliquer que la causalité pourrait être présente en l' absence de corrélation d' aucune sorte. Cela ne peut pas être vrai. Si un événement en cause un autre, il y aura une "sorte de corrélation présente, la constante que vous avez mentionnée sera sous la forme d'une corrélation non linéaire
Aksakal
1
+1 Bra vo! Quand j'ai vu le titre de la question dans la barre latérale, je me suis dit "Cela nécessite une réponse du point de vue des systèmes". Vous avez réussi.
Alexis
Si, d’une absence de corrélation, on supprime la causalité, le mode de fonctionnement restant sera-t-il susceptible d’être qualifié de "désinvolture"?
ttnphns
1
Je ne comprends pas bien comprendre la question de @ttphins, mais je pense que la réponse est la suivante: si vous cassez le câble de frein (ou déconnectez la pédale d'accélérateur), les collines commenceront à montrer leur impact causal sur la vitesse d'une voiture.
conjugateprior
30

Non, principalement parce que par corrélation, vous avez probablement une corrélation linéaire moyenne . Deux variables peuvent être corrélées de manière non linéaire et peuvent ne montrer aucune corrélation linéaire . Il est facile de construire un exemple comme celui-là, mais je vais vous donner un exemple plus proche de votre question (plus étroite).

Regardons la variable aléatoire et la fonction non aléatoire , avec laquelle nous créons une variable aléatoire . La dernière est clairement causée par la première variable, pas seulement corrélée. Tirons un nuage de points:xf(x)=x2y=f(x)

entrez la description de l'image ici

Belle image de corrélation non linéaire claire , mais dans ce cas, c'est aussi une causalité directe. Cependant, le coefficient de corrélation linéaire est non significatif, c'est-à-dire qu'il n'y a pas de corrélation linéaire malgré une corrélation non linéaire évidente, et même de causalité:

>> x=randn(100,1);
>> y=x.^2;
>> scatter(x,y)
>> [rho,pval]=corr(x,y)

rho =

    0.0140


pval =

    0.8904

MISE À JOUR: @Kodiologist est juste dans le commentaire. On peut montrer mathématiquement que le coefficient de corrélation linéaire pour ces deux variables est bien nul. Dans mon exemple, est la variable normale standard. Nous avons donc les éléments suivants: Par conséquent, la covariance (et par conséquent la corrélation) est égale à zéro: x

E[x]=0
E[x2]=1
E[xx2]=E[x3]=0
Cov[x,x2]=E[xx2]E[x]E[x2]=0

Nous obtiendrions le même résultat pour toute distribution symétrique, telle que l'uniforme .U[1,1]

Aksakal
la source
8
La non-signification n'implique pas la vérité de l'hypothèse nulle. Ce qui est important dans votre exemple, c'est que le coefficient de corrélation de population soit
égal à
1
Pourquoi croyez-vous que l'OP signifie corrélation linéaire?
user253751
@immibis, car la causalité doit aboutir à une sorte de corrélation non linéaire.
Aksakal
Pourquoi la corrélation est-elle égale à zéro? La covariance est , et en général pour une variable aléatoire alors .. Il est valable pour la norme normale cependantE[X3]E[X2]E[X]XE[X3]E[X2]E[X]X
Ant.
@Ant, j'utilise standard normal pour dans l'exemple MATLAB. J'ai mis à jour mon message pour le rendre clair. Merci de l'avoir signalé. x
Aksakal
18

Non . En particulier, les variables aléatoires peuvent être dépendantes mais non corrélées.

Voici un exemple. Supposons que j'ai une machine qui prend une seule entrée et produit un nombre aléatoire , qui est égal à ou avec une probabilité égale. Il est clair provoque . Soit maintenant une variable aléatoire uniformément répartie sur et sélectionnez avec , induisant une distribution jointe sur . et sont dépendants, puisquex[1,1]YxxxYX[1,1]Yx=X(X,Y)XY

P(X<12)P(|Y|<12)=1412=180=P(X<12,|Y|<12).

Cependant, la corrélation de et est 0, carYXY

Corr(X,Y)=Cov(X,Y)σXσY=E[XY]E[X]E[Y]σXσY=000σXσY=0.
Kodiologue
la source
1
En fait, ceci est un mauvais exemple à mon avis. X ne cause pas Y. Une variable binaire absente du modèle PresenceOfX est la cause réelle avec une corrélation de 1. Ce que vous prouvez est en réalité que la valeur de X n'influence pas Y.
user2088176
6
Je suis vraiment à une perte de la façon dont on pouvait sentir que le choix de ne cause pas . Peut-être devriez-vous préciser ce que vous entendez par "cause". YxY
Kodiologist
5
@ user2088176 Voici une preuve rapide que le choix de provoque . Utilisons un modèle contrefactuelle de la causalité, dans lequel est un indice dans un ensemble de distributions possibles pour . Si , alors est ou avec une probabilité égale. Si , alors est ou avec une probabilité égale. Comme les scénarios contrefactuels distingués par la valeur de impliquent des distributions distinctes pour , le choix de provoqueY x Y x = 1xYxY Y1x=12Y -112 x=312 Y3x=34Y -334 xYxY34xYxY .
Kodiologist
1
Cet exemple serait peut-être plus simple (et fonctionnerait toujours) si nous limitons à . [ 0 , 1 ]x[0,1]
JiK
3
Qu'en est-il de l'exemple simple et standard: et . Ils ne sont pas corrélées mais le -distributed est parfaitement dépendante de . X 2 χ 2 ( 1 ) X 2 XXN(0,1)X2χ2(1)X2X
Therkel
14

Peut-être que regarder du point de vue informatique aidera.

Comme exemple concret, prenons un générateur de nombres pseudo-aléatoires.

Existe-t-il une relation de cause à effet entre le germe que vous avez défini et la sortie du générateur?kth

Existe-t-il une corrélation mesurable?

Szabolcs
la source
7

La meilleure réponse à la question est que la corrélation est une relation statistique, mathématique et / ou physique alors que la causalité est une relation métaphysique. Vous ne pouvez pas LOGICIELLEMENT passer de corrélation (ou non corrélation) à causalité, sans un (grand) ensemble d’hypothèses liant la métaphysique à la physique. (Un exemple est que ce que deux personnes pourraient accepter d'être "un observateur rationnel" est dans une large mesure arbitraire et probablement ambigu). Si A paie B pour faire C qui donne D, quelle est la cause de D? Il n'y a tout simplement aucune raison rationnelle de choisir C ou B ou A (ou l'un des événements précurseurs de A). La théorie du contrôle traite des systèmes dans des domaines où ils sont sous contrôle. Une façon de maîtriser une variable dépendante consiste à réduire la réponse de cette variable à la plage possible de variation (contrôlée) de la variable indépendante par rapport au bruit statistique. Par exemple, nous savons que la pression atmosphérique est corrélée à la santé (essayez juste de respirer le vide), mais si nous contrôlons la pression atmosphérique à 1 +/- 0,001 atm, quelle est la probabilité que TOUTE variation de la pression atmosphérique affecte la santé?

Li Zhi
la source
La distinction que vous recherchez est "observée dans un échantillon" (corrélation) ou dépendance qui existe, qu'elle soit observée ou non dans un échantillon (physique). La métaphysique n’a aucun rôle à jouer dans cette explication (bien que certaines supposent une hypothèse physique). Les ressorts ont des limites élastiques, qu'ils les atteignent ou non. Ou dans un exemple plus simple: un morceau de sucre est soluble - un concept clairement causal impliquant, en gros, que si vous le laissez tomber dans le thé, il se dissolve. Mais cette propriété causale est purement due à sa structure physique . Les cubes de sucre seraient solubles même si nous n’avions jamais pensé en dissoudre un.
conjugateprior
1
Vous avez raison, bien sûr, de dire que sans hypothèses de causalité dans un argument, vous n’en tirez pas de conclusions causales. Mais il n’ya vraiment rien de très métaphysique à ce sujet!
conjugateprior
La théorie contrefactuelle de la causalité (par exemple, Pearl ou Woodward) est conçue pour donner un sens à «Si A paie B à C, ce qui donne D, quelle est la cause de D? Il n’ya tout simplement aucune raison rationnelle de choisir C, B ou A». . La seule idée démodée et inefficace que ces théories ont mise de côté, c'est que nous pouvons toujours affirmer qu'il est la cause de quelque chose. Bien sûr qu'il n'y en a pas.
conjugateprior
5

Oui , contrairement aux réponses précédentes. Je vais prendre la question comme non technique, en particulier la définition de "corrélation". Peut-être que je l'utilise trop largement, mais voyez ma deuxième puce. J'espère qu'il sera jugé approprié de discuter d'autres réponses ici, car elles éclairent différentes parties de la question. Je m'inspire de l'approche de Pearl en matière de causalité, et en particulier de celle que je traduis dans quelques articles avec Kevin Korb. Woodward a probablement le compte non technique le plus clair.

  • @conjugateprior dit "tout système contrôlé est un contre-exemple". Oui, à l'affirmation plus forte que la non-corrélation observée dans votre expérience n'implique aucune cause. Je vais supposer que la question est plus générale. Il est certain qu'une expérience aurait peut-être échoué à contrôler les causes de masquage ou à contrôler de manière inappropriée les effets courants et à masquer la corrélation. Mais si cause , il y aura une expérience contrôlée où cette relation est révélée. Presque toutes les définitions ou comptes de causalité la traitent comme une différence qui fait la différence. Donc pas de causalité sans (quelque sorte de) corrélation. S'il existe un lien direct dans un réseau causal bayésien, cela ne signifie pas quey x y x y y x yxyxyx fait toujours la différence pour , seulement il y a une expérience qui corrige toutes les autres causes de où remuer remue .yyxy

  • @aksakal a un bon exemple de la raison pour laquelle la causalité linéaire est insuffisante. D'accord, mais je veux être large et non technique. Si , il est incomplet de dire à un client que n'est pas corrélé avec . J'utiliserai donc très largement la corrélation pour désigner une différence de associée de manière fiable à une différence de . Il peut être non linéaire ou non paramétrique à votre guise. Les effets de seuil sont acceptables ( fait la différence avec , mais uniquement sur une plage finie, ou uniquement en étant supérieur ou inférieur à une valeur particulière, comme la tension dans les circuits numériques). y x x y x yy=x2yxxyxy

  • @Kodiologist crée un exemple où , doncmais pas de corrélation linéaire. Mais il existe clairement une relation à découvrir, donc corrélée au sens large.| y | = | x |y=Unif(x,x)|y|=|x|

  • @Szabolcs utilise des générateurs de nombres aléatoires pour montrer un flux de sortie conçu pour apparaître non corrélé. Comme les chiffres de , le flux semble aléatoire mais est déterministe. Je conviens qu'il est peu probable que l'on trouve la relation si on ne donne que les données, mais c'est là.π

  • @Li Zhi note que vous ne pouvez pas logiquement passer d'une corrélation à une causalité. Oui, pas de cause, pas de cause. Mais la question commence par la causalité: cela implique-t-il une corrélation? Dans l'exemple de la pression atmosphérique, nous avons un effet de seuil. Il existe une plage où la pression atmosphérique n'est pas corrélée avec la santé. En effet plausiblement où il n’a aucun effet causal sur la santé. Mais il y a une gamme où il fait. C'est suffisant. Mais probablement mieux de noter les plages où il y a et n’est pas un effet. Si , il existe une corrélation tout au long de la chaîne, car il y a un lien de causalité. Une observation répétée (ou une expérience) peut montrer que ne cause pas directementA DABCDAD mais la corrélation est là parce qu'il y a une histoire causale.

Je ne sais pas ce que @ user2088176 avait en tête, mais je pense que si nous prenons la question très généralement, alors la réponse est oui. Au moins, je pense que c'est la réponse requise de la littérature sur la découverte causale et du récit interventionniste de la causalité. Les causes sont des différences qui font la différence. Et cette différence sera révélée, dans certaines expériences, comme une association persistante.

ctwardy
la source
1
J'espérais aborder cette question sous un angle plus simple et non technique, comme vous l'avez fait. Que veut dire "cause"? Vraisemblablement, cela implique un changement dans quelque chose menant à un changement dans quelque chose d'autre. Je ne peux pas comprendre la causalité sans une sorte de corrélation.
Behacad
1
@ Behacad Je pense que le contraste est entre une sorte de corrélation (le genre de chose que vous pouvez observer) et une sorte de dépendance (qui peut ne jamais être déclenchée). Il existe des dépendances non déclenchées mais pas de corrélations non observées. C'est pourquoi la causalité a un élément contrefactuel dans sa définition, contrairement à la corrélation.
conjugateprior