Dans quelles conditions la corrélation implique-t-elle une causalité?

85

Nous savons tous que le mantra "la corrélation n'implique pas la causalité" est utilisé par tous les étudiants en statistiques de première année. Il y a quelques bons exemples ici pour illustrer l'idée.

Mais parfois , la corrélation n'implique la causalité. L'exemple suivant tire de cette page Wikipedia

Par exemple, il est possible de réaliser une expérience sur des jumeaux identiques connus pour obtenir systématiquement les mêmes notes aux tests. Un jumeau est envoyé étudier pendant six heures, tandis que l'autre est envoyé au parc d'attractions. Si leurs résultats aux tests divergeaient soudainement d'un grand degré, cela constituerait une preuve solide que les études (ou le fait d'aller au parc d'attractions) ont eu un effet causal sur les résultats des tests. Dans ce cas, la corrélation entre les résultats des études et des tests impliquerait presque certainement une causalité.

Existe-t-il d'autres situations où la corrélation implique une causalité?

Rob Hyndman
la source
16
La corrélation et une raison sous-jacente forte pour un lien suggèrent une causalité jusqu'à preuve du contraire, c'est probablement ce qu'il y a de mieux.
James
8
N'est-ce pas Karl Popper qui a dit que l'homme ne peut pas établir de causalité: les théories scientifiques sont de nature abstraite. Ils peuvent être falsifiables et le fait que nous rencontrions des difficultés pour falsifier quelque chose nous fait penser à la causalité ...
robin girard
3
Un contre-exemple intéressant de Jaynes: Nous avons la relation déductive "pas de nuages" implique "pas de pluie"; mais qui pourrait croire que "pas de nuages" est la cause physique de "pas de pluie"?
Probistislogic
4
Utilisons un terme différent de "impliquer", car dans le dictionnaire, il a les significations suivantes: 1. Suggérer et 2. Necessitate (!)
rolando2
Le jumelage de cet exemple a-t-il même un sens? Je veux dire que la causalité implicite est que les différences entre les méthodes / régimes d’étude entraînent des différences dans les résultats des tests des jumeaux. Mais c’est un échantillon d’un seul, et même avec un grand échantillon, il suffit d’un ensemble de jumeaux pour avoir la réaction opposée de casser l’hypothèse, à la manière du cygne noir ... @probabilityislogic: le concept "pas de nuages" at-il une apparence physique? sens? Si oui, alors je ne vois pas pourquoi la deuxième partie n'est pas crédible.
naught101

Réponses:

33

La corrélation n'est pas suffisante pour la causalité. On peut contourner l'exemple de Wikipedia en imaginant que ces jumeaux trichent toujours dans leurs tests en disposant d'un appareil qui leur donne les réponses. Le jumeau qui se rend au parc d’attractions perd l’appareil, d’où le faible degré.

Un bon moyen de résoudre ce problème consiste à penser à la structure du réseau bayésien susceptible de générer les quantités mesurées, comme le fait Pearl dans son livre Causality . Son point fondamental est de rechercher des variables cachées. S'il existe une variable cachée qui ne varie pas dans l'échantillon mesuré, la corrélation n'implique pas de lien de causalité. Exposez toutes les variables cachées et vous avez un lien de causalité.

Hbar
la source
J'ai du mal à comprendre pourquoi les directions de flèche dans un réseau bayésien correspondant ont un lien de causalité. Par exemple, A-> B et B-> A représentent différentes directions pour la causalité, mais les réseaux bayésiens pour ces deux structures sont équivalents
Yaroslav Bulatov
6
Ils ne sont pas équivalents face aux interventions.
Neil G
Ces réseaux bayésiens sont équivalents en ce sens que, compte tenu des données échantillonnées sur l'un d'entre eux, vous ne pouvez pas dire lequel.
Yaroslav Bulatov
4
Euh ... je ne connais pas vraiment les statistiques réelles ... mais "exposer toutes les variables cachées" n'est-il pas par définition impossible? Comment savoir s'il n'y a plus de variables "cachées"?
Craig Walker
4
@Craig C'est le point; ce n'est pas possible.
Justin L.
35

J'ajouterai simplement quelques commentaires supplémentaires sur la causalité vue d'un point de vue épidémiologique . La plupart de ces arguments sont tirés de Practical Psychiatric Epidemiology , de Prince et al. (2003).

La causalité, ou interprétation de causalité , sont de loin les aspects les plus difficiles de la recherche épidémiologique. Les études de cohorte et transversales pourraient toutes deux conduire à des effets de confusion, par exemple. Citant S. Menard ( Longitudinal Research , Sage University Paper 76, 1991), HB Asher dans Causal Modeling (Sage, 1976) proposait initialement de répondre à l'ensemble de critères suivant:

  • Les phénomènes ou les variables en question doivent être aléatoires, comme indiqué par exemple par les différences entre les groupes expérimental et témoin ou par une corrélation non nulle entre les deux variables.
  • La relation ne doit pas être imputable à une autre variable ni à un ensemble de variables, c’est-à-dire qu’elle ne doit pas être parasite, mais doit persister même lorsque d’autres variables sont contrôlées, comme indiqué par exemple par une randomisation réussie dans un plan expérimental (aucune différence entre les variables expérimentale et externe). contrôle) avant le traitement) ou par une corrélation partielle non nulle entre deux variables et une autre variable maintenue constante.
  • La cause supposée doit précéder ou être simultanée à l’effet supposé dans le temps, comme l’indique le changement de la cause ne se produisant pas plus tard que le changement associé de l’effet.

Alors que les deux premiers critères peuvent facilement être vérifiés à l'aide d'une étude transversale ou ordonnée, cette dernière ne peut être évaluée qu'avec des données longitudinales, à l'exception des caractéristiques biologiques ou génétiques pour lesquelles un ordre temporel peut être supposé sans données longitudinales. Bien entendu, la situation devient plus complexe dans le cas d’une relation de cause à effet non récursive.

J'aime aussi l'illustration suivante (chapitre 13 de la référence susmentionnée), qui résume l'approche adoptée par Hill (1965), qui comprend neuf critères différents liés à l'effet de causalité, cités également par @James. L'article original était en effet intitulé "L'environnement et la maladie: association ou causalité?" ( Version PDF ).

Hill1965

Enfin, le chapitre 2 du livre le plus célèbre de Rothman, Modern Epidemiology (1998, Lippincott Williams & Wilkins, 2e édition), propose une discussion très complète sur la causalité et l'inférence causale, à la fois d'un point de vue statistique et philosophique.

J'aimerais ajouter les références suivantes (extraites d'un cours en ligne d'épidémiologie) qui sont également très intéressantes:

Enfin, cette revue offre une perspective plus large de la modélisation causale, Inférence causale en statistique: vue d'ensemble (J Pearl, SS 2009 (3)).

chl
la source
18

Au cœur de votre question se trouve la question "Quand une relation est-elle causale?" Il ne suffit pas que la corrélation implique (ou non) une causalité.

Un bon livre sur ce sujet s’appelle Mostly Harmless Econometrics, publié par Johua Angrist et Jorn-Steffen Pischke. Ils partent de l'idéal expérimental où nous sommes en mesure de randomiser le "traitement" étudié d'une manière ou d'une autre, puis passent à d'autres méthodes permettant de générer cette randomisation afin de tirer des influences causales. Cela commence par l'étude d'expériences dites naturelles.

L'un des premiers exemples d'une expérience naturelle utilisée pour identifier des relations de cause à effet est le document d'Angrist de 1989 sur "Les gains à vie et la loterie au ère du Vietnam". Ce document tente d’estimer l’effet du service militaire sur les gains de toute une vie. L’estimation de tout effet causal pose un problème essentiel: il est possible que certains types de personnes s’engagent, ce qui peut fausser toute mesure de la relation. Angrist utilise l'expérience naturelle créée par le projet de loterie vietnamienne pour "assigner au hasard" le traitement "service militaire" à un groupe d'hommes.

Alors, quand avons-nous une causalité? Dans des conditions expérimentales. Quand est-ce qu'on se rapproche? Sous des expériences naturelles. Il existe également d’autres techniques qui nous rapprochent de la "causalité", c’est-à-dire qu’elles sont bien meilleures que la simple utilisation d’un contrôle statistique. Ils comprennent la discontinuité de la régression, la différence de différence, etc.

Graham Cookson
la source
15

Il existe également un problème avec le cas contraire, lorsque le manque de corrélation est utilisé comme preuve du manque de causalité. Ce problème est la non-linéarité; Lorsqu'on examine la corrélation, on vérifie généralement Pearson, qui n'est que la pointe de l'iceberg.


la source
14

Votre exemple est celui d'une expérience contrôlée . Le seul autre contexte que je connaisse où une corrélation peut impliquer une causalité est celui d'une expérience naturelle .

Fondamentalement, une expérience naturelle tire parti de l'affectation de certains répondants à un traitement qui se produit naturellement dans le monde réel. Puisque l'assignation des répondants aux groupes de traitement et de contrôle n'est pas contrôlée par l'expérimentateur, la corrélation avec le lien de causalité est peut-être plus faible dans une certaine mesure.

Voir les liens wiki pour plus d'informations sur les expériences contrôlées / naturelles.


la source
12

À mon avis, le groupe de travail sur les statistiques de l'APA l'a très bien résumé.

'' Inférer la causalité à partir de conceptions non randomisées est une entreprise risquée. Les chercheurs qui utilisent des conceptions non randomisées ont l'obligation supplémentaire d'expliquer la logique qui sous-tend les covariables incluses dans leurs conceptions et d'alerter le lecteur sur les hypothèses rivales plausibles qui pourraient expliquer leurs résultats. Même dans les expériences randomisées, l'attribution d'effets causaux à n'importe quel aspect de la condition de traitement nécessite le soutien d'expérimentations supplémentaires. '' - Groupe de travail sur l'APA

Jeromy Anglim
la source
11

Dans son allocution à la Royal Society of Medicine ( L'environnement et la maladie: association ou causalité? ), Sir Austin Bradford Hill explique neuf critères permettant de déterminer s'il existe une relation de cause à effet entre deux variables corrélées ou associées.

Elles sont:

  1. Force de l'association
  2. Cohérence: "a-t-il été observé à plusieurs reprises par différentes personnes, dans différents lieux, circonstances et époques?"
  3. Spécificité
  4. Temporalité: "quelle est la charrette et quel est le cheval?" - la cause doit précéder l'effet
  5. Gradient biologique (courbe dose-réponse) - de quelle manière l'ampleur de l'effet dépend-elle de celle de la variable causale (présumée)?
  6. Plausibilité - existe-t-il une explication probable de la causalité?
  7. Cohérence - la causalité contredirait-elle d'autres faits établis?
  8. Expérience - la manipulation expérimentale de la variable causale (soupçonnée) affecte-t-elle la variable dépendante (soupçonnée)
  9. Analogie - avons-nous déjà rencontré des relations causales similaires dans le passé?
James Scott-Brown
la source
9

Dans l'exemple des jumeaux, ce n'est pas seulement la corrélation qui suggère la causalité, mais aussi les informations associées ou les connaissances antérieures.

Supposons que j'ajoute une autre information. Supposons que le jumeau diligent a passé 6 heures à étudier pour un examen de statistiques, mais en raison d’une erreur regrettable, l’examen était dans l’histoire. Serions-nous toujours en train de conclure que l’étude était la cause de la performance supérieure?

Déterminer la causalité est autant une question philosophique que scientifique, d’où la tendance à invoquer des philosophes tels que David Hume et Karl Popper lorsqu’on discute de la causalité.

Il n’est pas surprenant que la médecine ait contribué de manière significative à l’établissement de la causalité par le biais de méthodes heuristiques, telles que les postulats de Koch pour établir la relation de cause à effet entre microbes et maladie. Celles-ci ont été étendues aux "postulats de Koch moléculaires" nécessaires pour montrer qu'un gène dans un agent pathogène code pour un produit qui contribue à la maladie causée par l'agent pathogène.

Malheureusement, je ne peux pas publier de lien hypertexte censé être beCAUSE. Je suis un nouvel utilisateur (ce n'est pas vrai) et je n'ai pas assez de "points de réputation". La vraie raison est à deviner.

Thylacoleo
la source
9

La corrélation seule n'implique jamais la causalité. C'est si simple.

Mais il est très rare de n'avoir qu'une corrélation entre deux variables. Souvent, vous savez également ce que sont ces variables et une théorie, ou des théories, suggérant pourquoi il pourrait exister une relation de cause à effet entre les variables. Si non, alors on se donne la peine de chercher une corrélation? (Cependant, les personnes qui exploitent des matrices de corrélation massives pour obtenir des résultats significatifs n'ont souvent pas de théorie fortuite - sinon, pourquoi se donner la peine d'exploiter les activités minières? Un contre-argument à cela est qu'il faut souvent explorer pour obtenir des idées de théories occasionnelles. Et ainsi de suite ...)

Une réponse à la critique commune "Oui, mais ce n'est qu'une corrélation: cela n'implique pas de causalité":

  1. Pour une relation occasionnelle, la corrélation est nécessaire. Un échec répété pour trouver une corrélation serait en effet une mauvaise nouvelle.
  2. Je ne vous ai pas simplement donné une corrélation.
  3. Continuez ensuite à expliquer les mécanismes causaux possibles expliquant la corrélation ...
AndyF
la source
2
Un contre-exemple à votre point n ° 1: dans un système chaotique, vous pourriez avoir une causalité sans corrélation évidente.
mkt
8

Une condition suffisante utile pour certaines définitions de causalité:

La causalité peut être invoquée lorsque l’une des variables corrélées peut être contrôlée (nous pouvons définir directement sa valeur) et que la corrélation est toujours présente.

Łukasz Lew
la source
2
Vous pouvez également utiliser le mot de Pearl pour "définir directement la valeur d'une variable": une intervention.
Neil G
8
  1. Presque toujours dans des essais randomisés
  2. Presque toujours dans les études d'observation lorsque quelqu'un mesure tous les facteurs de confusion (presque jamais)
  3. Parfois, lorsque quelqu'un mesure certains conseillers (algorithme IC * de découverte du DAG dans le livre de Pearl, Causality)
  4. Dans les modèles linéaires non gaussiens avec deux variables ou plus mais n'utilisant pas la corrélation comme mesure de relation ( LiNGAM )

La plupart des algorithmes de découverte sont implémentés dans Tetrad IV

Wojtek
la source
6

Une question connexe pourrait être: dans quelles conditions pouvez-vous extraire de manière fiable des relations de causalité à partir de données?

Un atelier NIPS de 2008 a tenté d’aborder cette question de manière empirique. L’une des tâches consistait à déduire le sens de la causalité à partir de l’observation de paires de variables où une variable était réputée en causer une autre, et la meilleure méthode était capable d’en extraire correctement la direction causale 80% du temps.

Yaroslav Bulatov
la source
3

Presque sûrement dans une expérience bien conçue. (Conçu, bien sûr, pour établir une telle connexion .)

ars
la source
3

Supposons que nous pensons que le facteur A est la cause du phénomène B. Ensuite, nous essayons de le faire varier pour voir si B change. Si B ne change pas et si nous pouvons supposer que tout le reste est inchangé, une preuve solide que A n'est pas la cause de B. Si B change, nous ne pouvons pas en conclure que A est la cause, car le changement de A aurait pu causer un changement dans la causalité réelle C, ce qui a amené B à changer.


la source
Pouvez-vous faire varier A?
RockScience
2

J'ai remarqué que la «preuve» était utilisée ici pour discuter du paradigme empirique. Il n'y a pas une telle chose. Vient d’abord l’hypothèse où l’idée est avancée; vient ensuite le test, dans des "conditions contrôlées" [note a] et si un défaut de preuve "suffisant" est rencontré, il avance au stade de l' hypothèse...période. Il n’existe aucune preuve, à moins que l’on puisse 1) réussir à être à chaque occurrence dudit événement [note b] et bien sûr 2) établir un lien de causalité. 1) est improbable dans un univers infini [notez que l'infini par nature ne peut pas être prouvé]. Pas de thé; aucune expérience n'est effectuée dans des conditions totalement contrôlées et plus les conditions sont contrôlées, moins il y a de ressemblance avec l'univers extérieur avec des lignes de causalité apparemment infinies. Note b; Remarquez, vous devez avoir parfaitement décrit le terme "événement", ce qui signifie sans doute un langage parfaitement correct = sans doute pas un langage humain. Pour une note finale, toute causalité remonte probablement au premier événement. Allez maintenant parler à tout le monde avec une théorie. Oui, j'ai étudié de manière formelle et informelle. À la fin; non, la proximité n'implique pas de causalité ni même autre chose qu'une corrélation temporaire.

Glenn Charles
la source
1

Si vous voulez déterminer si cause , et que vous exécutez la régressionXY

Y=bX+u

Alors est un estimateur sans biais de l’ effet causal de sur (c’est-à-dire ) si et seulement s’il n’existe aucune corrélation entre et , c’est donc . En effet peut être considéré comme toute autre chose qui provoque . Et donc, si cette hypothèse est vraie, b est une estimation non biaisée de l’effet de sur ceteris paribus (toutes choses étant égales par ailleurs).bXYE(b)=BXuE(u|X)=0u YXY

Être impartial est une propriété souhaitable d'un estimateur, mais vous voudriez également que votre estimateur soit efficace (faible variance) et cohérent (tend à être de la valeur). Voir les hypothèses de Gauss-Markov.

utilisateur172578
la source