Nous savons tous que le mantra "la corrélation n'implique pas la causalité" est utilisé par tous les étudiants en statistiques de première année. Il y a quelques bons exemples ici pour illustrer l'idée.
Mais parfois , la corrélation n'implique la causalité. L'exemple suivant tire de cette page Wikipedia
Par exemple, il est possible de réaliser une expérience sur des jumeaux identiques connus pour obtenir systématiquement les mêmes notes aux tests. Un jumeau est envoyé étudier pendant six heures, tandis que l'autre est envoyé au parc d'attractions. Si leurs résultats aux tests divergeaient soudainement d'un grand degré, cela constituerait une preuve solide que les études (ou le fait d'aller au parc d'attractions) ont eu un effet causal sur les résultats des tests. Dans ce cas, la corrélation entre les résultats des études et des tests impliquerait presque certainement une causalité.
Existe-t-il d'autres situations où la corrélation implique une causalité?
la source
Réponses:
La corrélation n'est pas suffisante pour la causalité. On peut contourner l'exemple de Wikipedia en imaginant que ces jumeaux trichent toujours dans leurs tests en disposant d'un appareil qui leur donne les réponses. Le jumeau qui se rend au parc d’attractions perd l’appareil, d’où le faible degré.
Un bon moyen de résoudre ce problème consiste à penser à la structure du réseau bayésien susceptible de générer les quantités mesurées, comme le fait Pearl dans son livre Causality . Son point fondamental est de rechercher des variables cachées. S'il existe une variable cachée qui ne varie pas dans l'échantillon mesuré, la corrélation n'implique pas de lien de causalité. Exposez toutes les variables cachées et vous avez un lien de causalité.
la source
J'ajouterai simplement quelques commentaires supplémentaires sur la causalité vue d'un point de vue épidémiologique . La plupart de ces arguments sont tirés de Practical Psychiatric Epidemiology , de Prince et al. (2003).
La causalité, ou interprétation de causalité , sont de loin les aspects les plus difficiles de la recherche épidémiologique. Les études de cohorte et transversales pourraient toutes deux conduire à des effets de confusion, par exemple. Citant S. Menard ( Longitudinal Research , Sage University Paper 76, 1991), HB Asher dans Causal Modeling (Sage, 1976) proposait initialement de répondre à l'ensemble de critères suivant:
Alors que les deux premiers critères peuvent facilement être vérifiés à l'aide d'une étude transversale ou ordonnée, cette dernière ne peut être évaluée qu'avec des données longitudinales, à l'exception des caractéristiques biologiques ou génétiques pour lesquelles un ordre temporel peut être supposé sans données longitudinales. Bien entendu, la situation devient plus complexe dans le cas d’une relation de cause à effet non récursive.
J'aime aussi l'illustration suivante (chapitre 13 de la référence susmentionnée), qui résume l'approche adoptée par Hill (1965), qui comprend neuf critères différents liés à l'effet de causalité, cités également par @James. L'article original était en effet intitulé "L'environnement et la maladie: association ou causalité?" ( Version PDF ).
Enfin, le chapitre 2 du livre le plus célèbre de Rothman, Modern Epidemiology (1998, Lippincott Williams & Wilkins, 2e édition), propose une discussion très complète sur la causalité et l'inférence causale, à la fois d'un point de vue statistique et philosophique.
J'aimerais ajouter les références suivantes (extraites d'un cours en ligne d'épidémiologie) qui sont également très intéressantes:
Enfin, cette revue offre une perspective plus large de la modélisation causale, Inférence causale en statistique: vue d'ensemble (J Pearl, SS 2009 (3)).
la source
Au cœur de votre question se trouve la question "Quand une relation est-elle causale?" Il ne suffit pas que la corrélation implique (ou non) une causalité.
Un bon livre sur ce sujet s’appelle Mostly Harmless Econometrics, publié par Johua Angrist et Jorn-Steffen Pischke. Ils partent de l'idéal expérimental où nous sommes en mesure de randomiser le "traitement" étudié d'une manière ou d'une autre, puis passent à d'autres méthodes permettant de générer cette randomisation afin de tirer des influences causales. Cela commence par l'étude d'expériences dites naturelles.
L'un des premiers exemples d'une expérience naturelle utilisée pour identifier des relations de cause à effet est le document d'Angrist de 1989 sur "Les gains à vie et la loterie au ère du Vietnam". Ce document tente d’estimer l’effet du service militaire sur les gains de toute une vie. L’estimation de tout effet causal pose un problème essentiel: il est possible que certains types de personnes s’engagent, ce qui peut fausser toute mesure de la relation. Angrist utilise l'expérience naturelle créée par le projet de loterie vietnamienne pour "assigner au hasard" le traitement "service militaire" à un groupe d'hommes.
Alors, quand avons-nous une causalité? Dans des conditions expérimentales. Quand est-ce qu'on se rapproche? Sous des expériences naturelles. Il existe également d’autres techniques qui nous rapprochent de la "causalité", c’est-à-dire qu’elles sont bien meilleures que la simple utilisation d’un contrôle statistique. Ils comprennent la discontinuité de la régression, la différence de différence, etc.
la source
Il existe également un problème avec le cas contraire, lorsque le manque de corrélation est utilisé comme preuve du manque de causalité. Ce problème est la non-linéarité; Lorsqu'on examine la corrélation, on vérifie généralement Pearson, qui n'est que la pointe de l'iceberg.
la source
Votre exemple est celui d'une expérience contrôlée . Le seul autre contexte que je connaisse où une corrélation peut impliquer une causalité est celui d'une expérience naturelle .
Fondamentalement, une expérience naturelle tire parti de l'affectation de certains répondants à un traitement qui se produit naturellement dans le monde réel. Puisque l'assignation des répondants aux groupes de traitement et de contrôle n'est pas contrôlée par l'expérimentateur, la corrélation avec le lien de causalité est peut-être plus faible dans une certaine mesure.
Voir les liens wiki pour plus d'informations sur les expériences contrôlées / naturelles.
la source
À mon avis, le groupe de travail sur les statistiques de l'APA l'a très bien résumé.
la source
Dans son allocution à la Royal Society of Medicine ( L'environnement et la maladie: association ou causalité? ), Sir Austin Bradford Hill explique neuf critères permettant de déterminer s'il existe une relation de cause à effet entre deux variables corrélées ou associées.
Elles sont:
la source
Dans l'exemple des jumeaux, ce n'est pas seulement la corrélation qui suggère la causalité, mais aussi les informations associées ou les connaissances antérieures.
Supposons que j'ajoute une autre information. Supposons que le jumeau diligent a passé 6 heures à étudier pour un examen de statistiques, mais en raison d’une erreur regrettable, l’examen était dans l’histoire. Serions-nous toujours en train de conclure que l’étude était la cause de la performance supérieure?
Déterminer la causalité est autant une question philosophique que scientifique, d’où la tendance à invoquer des philosophes tels que David Hume et Karl Popper lorsqu’on discute de la causalité.
Il n’est pas surprenant que la médecine ait contribué de manière significative à l’établissement de la causalité par le biais de méthodes heuristiques, telles que les postulats de Koch pour établir la relation de cause à effet entre microbes et maladie. Celles-ci ont été étendues aux "postulats de Koch moléculaires" nécessaires pour montrer qu'un gène dans un agent pathogène code pour un produit qui contribue à la maladie causée par l'agent pathogène.
Malheureusement, je ne peux pas publier de lien hypertexte censé être beCAUSE. Je suis un nouvel utilisateur (ce n'est pas vrai) et je n'ai pas assez de "points de réputation". La vraie raison est à deviner.
la source
La corrélation seule n'implique jamais la causalité. C'est si simple.
Mais il est très rare de n'avoir qu'une corrélation entre deux variables. Souvent, vous savez également ce que sont ces variables et une théorie, ou des théories, suggérant pourquoi il pourrait exister une relation de cause à effet entre les variables. Si non, alors on se donne la peine de chercher une corrélation? (Cependant, les personnes qui exploitent des matrices de corrélation massives pour obtenir des résultats significatifs n'ont souvent pas de théorie fortuite - sinon, pourquoi se donner la peine d'exploiter les activités minières? Un contre-argument à cela est qu'il faut souvent explorer pour obtenir des idées de théories occasionnelles. Et ainsi de suite ...)
Une réponse à la critique commune "Oui, mais ce n'est qu'une corrélation: cela n'implique pas de causalité":
la source
Une condition suffisante utile pour certaines définitions de causalité:
La causalité peut être invoquée lorsque l’une des variables corrélées peut être contrôlée (nous pouvons définir directement sa valeur) et que la corrélation est toujours présente.
la source
La plupart des algorithmes de découverte sont implémentés dans Tetrad IV
la source
Une question connexe pourrait être: dans quelles conditions pouvez-vous extraire de manière fiable des relations de causalité à partir de données?
Un atelier NIPS de 2008 a tenté d’aborder cette question de manière empirique. L’une des tâches consistait à déduire le sens de la causalité à partir de l’observation de paires de variables où une variable était réputée en causer une autre, et la meilleure méthode était capable d’en extraire correctement la direction causale 80% du temps.
la source
Presque sûrement dans une expérience bien conçue. (Conçu, bien sûr, pour établir une telle connexion .)
la source
Supposons que nous pensons que le facteur A est la cause du phénomène B. Ensuite, nous essayons de le faire varier pour voir si B change. Si B ne change pas et si nous pouvons supposer que tout le reste est inchangé, une preuve solide que A n'est pas la cause de B. Si B change, nous ne pouvons pas en conclure que A est la cause, car le changement de A aurait pu causer un changement dans la causalité réelle C, ce qui a amené B à changer.
la source
J'ai remarqué que la «preuve» était utilisée ici pour discuter du paradigme empirique. Il n'y a pas une telle chose. Vient d’abord l’hypothèse où l’idée est avancée; vient ensuite le test, dans des "conditions contrôlées" [note a] et si un défaut de preuve "suffisant" est rencontré, il avance au stade de l' hypothèse...période. Il n’existe aucune preuve, à moins que l’on puisse 1) réussir à être à chaque occurrence dudit événement [note b] et bien sûr 2) établir un lien de causalité. 1) est improbable dans un univers infini [notez que l'infini par nature ne peut pas être prouvé]. Pas de thé; aucune expérience n'est effectuée dans des conditions totalement contrôlées et plus les conditions sont contrôlées, moins il y a de ressemblance avec l'univers extérieur avec des lignes de causalité apparemment infinies. Note b; Remarquez, vous devez avoir parfaitement décrit le terme "événement", ce qui signifie sans doute un langage parfaitement correct = sans doute pas un langage humain. Pour une note finale, toute causalité remonte probablement au premier événement. Allez maintenant parler à tout le monde avec une théorie. Oui, j'ai étudié de manière formelle et informelle. À la fin; non, la proximité n'implique pas de causalité ni même autre chose qu'une corrélation temporaire.
la source
Si vous voulez déterminer si cause , et que vous exécutez la régressionX Y
Alors est un estimateur sans biais de l’ effet causal de sur (c’est-à-dire ) si et seulement s’il n’existe aucune corrélation entre et , c’est donc . En effet peut être considéré comme toute autre chose qui provoque . Et donc, si cette hypothèse est vraie, b est une estimation non biaisée de l’effet de sur ceteris paribus (toutes choses étant égales par ailleurs).b X Y E(b)=B X u E(u|X)=0 u Y X Y
Être impartial est une propriété souhaitable d'un estimateur, mais vous voudriez également que votre estimateur soit efficace (faible variance) et cohérent (tend à être de la valeur). Voir les hypothèses de Gauss-Markov.
la source