Je sais que cette question a été posée un milliard de fois, donc, après avoir regardé en ligne, je suis pleinement convaincu que la corrélation entre 2 variables n'implique pas une causalité. Au cours de l'une de mes conférences de statistiques d'aujourd'hui, nous avons entendu une conférence d'un physicien sur l'importance des méthodes statistiques en physique. Il a dit une déclaration étonnante:
la corrélation n’implique pas la causalité, SAUF une des variables est le temps. Ainsi, s’il existe une forte corrélation entre une variable indépendante et le temps, cela implique également une causalité.
Je n'avais jamais entendu cette déclaration auparavant. Les physiciens / relativistes voient-ils la "cause" différemment des statistiques?
correlation
mathematical-statistics
causality
Thomas Moore
la source
la source
Réponses:
Je vais fournir une autre réponse, car je pense que les réponses fournies manquent un point important de la déclaration du physicien. La déclaration citée est:
Le physicien ne dit pas :
Ce serait inexact. Ce que le physicien est dit est:
Un exemple pourrait être l'entropie. Si nous avons une forte corrélation entre le temps qui passe et l’entropie qui augmente, on pourrait dire que l’augmentation du temps provoque une augmentation de l’entropie. Notez que cela ignore les causes physiques de l’entropie croissante (décroissance des particules, univers en expansion, etc.).
L'une des exigences traditionnelles de la causalité est la progression dans le temps, à savoir que X ne peut causer Y que si X vient avant Y. Toutefois, si l'une de vos variables est le temps, la progression dans le temps est déjà intégrée à la relation (si une relation existe).
EDIT: Basé sur une variété de commentaires, je vais ajouter ce qui suit. Je pense que le physicien utilise peut-être une autre idée du mot "causation" ici. Il semble dire que s'il existe une corrélation entre une variable indépendante et le temps, vous pouvez en conclure que la variable indépendante change de manière prévisible au fil du temps. Certaines personnes pourraient dire que les changements sont "causés" par le temps qui passe. Ce n'est pas vraiment comment les statisticiens utilisent les mots "cause" ou "causation", de sorte que cela peut être source de confusion.
la source
Nous ne savons pas ce que le physicien voulait dire. Deux interprétations différentes suivent.
L'affirmation que précédant Y et étant corrélée à Y implique que X cause Y est faux. Il ne suffit pas pour X et Y à dépendre , même si X précède Y . Par exemple, X et Y peuvent tous deux être causés par une autre variable W : X ← W → Y . Ou bien, un schéma encore plus compliqué pourrait survenir: X ← V → Z ← W → YX Y Y X Y X Y X Y X Y W X←W→Y X←V→Z←W→Y où Z Est observé. Or, et Y sont dépendants et n'ont pas de cause commune, mais ne causent ni l'un ni l'autre.X Y
Cependant, la préséance temporelle simplifie grandement les conditions permettant d'affirmer une relation de cause à effet, ce que vous pouvez trouver dans le livre Causality de Pearl, chapitre 2.7 "Critères locaux pour les relations de causalité".
Essentiellement, (1) implique que est une cause potentielle de Y étant donné la priorité temporelle et (2) implique que X est capable de rompre cette relation, ce qui ne peut se produire que si X provoque YZ Y X X Y .
Cette condition est beaucoup plus simple que la définition de Pearl pour une cause véritable sans information temporelle.
Une autre possibilité évoquée dans certaines des autres réponses est que le physicien voulait dire que si est le passage du temps et il est en corrélation avec Y , puis X cause Y . Cette affirmation est correcte, mais vide car le temps qui passe est la cause de toutes les autres variables, ce qui signifie que la structure graphique causale est celle-ci. Une structure graphique causale est un ensemble d'allégations sur les relations d'indépendance à partir d'observations et d'interventions.X Y X Y
la source
Je suppose que votre conférencier invité voulait dire qu'en physique, les seules corrélations qui survivent à la réplication sont celles où il existe une relation de cause à effet. La variable de temps est une exception car c'est la seule variable qui n'est pas contrôlée par le physicien. Voici pourquoi.
En physique, nous traitons généralement avec des phénomènes et des expériences répétables. En fait, il est presque évident que toute expérience est répétable et peut être reproduite par vous plus tard ou par d'autres chercheurs. Donc, supposons que vous observiez un échantillon où sont des observations de la variable d’intérêt et des variables indépendantes x k . Comme je l'ai mentionné ci-dessus, nous contrôlons pleinement les variables x kyi,xki xk xk et pouvons leur attribuer la valeur de votre choix.
Votre gars physicien dit que dans cette configuration , vous ne verrez aucune corrélation moins qu'il y ait un lien de cause à effet. Pourquoi? Parce que quelqu'un d'autre ou même vous-même répétez l'expérience avec toute combinaison et séquence de x k j , et seules les corrélations avec les relations de cause à effet survivront aux réplications d'une expérience. Toutes les autres corrélations (parasites) disparaîtront une fois que vous aurez collecté suffisamment de données dans toutes les combinaisons possibles d'une expérience.Corr[y,xk] xkj
Cette situation contraste fortement avec les sciences sociales et certaines applications commerciales dans lesquelles il est impossible de faire des expériences. Vous n’observez qu’une séquence du PIB d’un pays, vous ne pouvez pas changer le chômage en considérant que tout le reste est égal et vous observez les corrélations.
Maintenant, le temps est la seule variable qu'un physicien ne peut pas contrôler. Il n'y a qu'un seul 1 janvier 2017. Il ne peut pas répéter cette journée. Il peut répéter n'importe quelle autre variable, mais pas le temps. C'est pourquoi quand il s'agit de temps ( pas de temps écoulé ni de son âge), un physicien est dans le même bateau que tout le monde: la corrélation n'implique pas pour lui une causalité.
la source
Je n'ai jamais entendu cela auparavant, et ce ne serait pas vrai selon les conceptions de la causalité que je connais bien (même si je ne suis pas physicien).
Généralement, pour que cause Y, il est nécessaire que X précède Y dans le temps. Donc, si Y précède X, il ne peut pas être "causé" par X , indépendamment de toute corrélation. De plus, X précédant Y n'est pas une condition suffisante pour le lien de causalité (également indépendamment de toute corrélation).X Y X Y Y X X X Y
la source
Je ne pense pas que le temps soit nécessairement unique dans ce domaine, mais c'est certainement un bon exemple. Le fait est que généralement si A & B sont corrélés, vous pouvez supposer qu'il existe une causalité commune, mais vous ne savez pas si A est la cause de B ou B cause de A, ou peut-être une troisième variable C provoque-t-elle les deux A & B. Dans certains cas, vous pouvez exclure que toute autre variable soit à l'origine de A, et il doit donc s'agir de A à l'origine de B. L'un de ces exemples est une expérience contrôlée dans laquelle vous , l'expérimentateur, contrôlez A. Ensuite, si le changement que vous apportez Un "corrèle" avec un changement de B, vous savez que ce doit être A qui a causé le changement de B, et non l'inverse.
Un autre type de scénario, celui dans lequel cet exemple s'inscrit dans le temps passé est le suivant: vous savez simplement qu'aucune autre variable ne peut avoir causé A car vous savez que rien ne peut influencer A. Depuis, le temps s'écoule de 1 seconde à la fois, peu importe la durée. de toute autre variable dans le monde, alors si le temps est en corrélation avec les changements dans une variable qui vous intéresse (par exemple, le nombre de personnes sur la planète), vous savez avec certitude que le passage du temps a probablement entraîné le changement de cette variable. que votre variable faisant en sorte que le temps passe ou qu’elle change d’une autre manière (c’est-à-dire que le temps ne va pas parce que plus de personnes sont nées, il faut que ce soit l’inverse).
Bien entendu, vous ne savez toujours pas si la causalité est directe. Vraisemblablement, le temps lui-même ne produit pas automatiquement plus d'êtres humains. Au contraire, le développement de l'histoire entraîne des progrès dans divers aspects de la société, ce qui entraîne une augmentation de la taille de la population (et même une simplification de nombreuses petites relations causatives). Mais quels que soient les facteurs en jeu, vous savez certainement que A (en définitive) mène à B et non l'inverse.
la source
En réalité, la corrélation implique une relation de cause à effet.
Peut-être que A a causé B, ou C a causé A et B.
Cependant, la corrélation ne prouve pas la causalité.
Cela va de soi.
la source
J'interpréterais cela comme un argument sémantique plutôt que mathématique / statistique. Je prendrais aussi cela comme une généralisation assez sévère.
Les critères de Bradford Hill , souvent utilisés en épidémiologie, fournissent un bon cadre pour la réflexion sur la causalité. Rien ne peut prouver de manière définitive la causalité, que le temps soit un facteur ou non, et je suppose que le conférencier n'essayait pas de faire une telle affirmation. Cependant, de nombreux facteurs différents peuvent être utilisés comme arguments raisonnables pour le lien de causalité.
Par exemple, les critères de Bradford Hill suggèrent que la force de l'association entre les variables peut fournir une preuve du lien de causalité, mais n'est pas suffisante en soi. De même, une association compatible avec d'autres faits connus ou présumés peut suggérer une causalité plus fortement qu'une association incompatible avec les connaissances prédominantes. La temporalité est également l'un des critères - une cause doit précéder son effet. Une association et les inférences que nous faisons sur la causalité doivent avoir un sens temporel. Je recommande de revoir les autres critères. Certaines sont spécifiques à l’épidémiologie et ne sont pas aussi applicables à la physique, mais c’est toujours une façon de penser utile.
Le point principal est que, même si aucun élément de preuve ne prouve de manière définitive le lien de causalité, vous pouvez en faire la preuve en vous basant sur un certain nombre de vérifications logiques différentes. Je dirais que donner la priorité absolue à un critère, tel que le temps, n’est pas approprié, mais que la temporalité peut être un facteur important lorsqu’on fait valoir que la causalité est plausible.
Cela conduit à un point plus large sur les statistiques: en règle générale, nous utilisons des statistiques pour argumenter. Nous utilisons des données et des outils statistiques pour faire un certain point. Souvent, les mêmes données (et même les mêmes outils) peuvent être utilisées pour créer des points contradictoires. Nous ne pouvons pas localiser la preuve définitive de la causalité dans le calcul lui-même, mais nous pouvons déployer nos outils statistiques dans le cadre d’un argument plus large. Pour plus d'informations à ce sujet, je recommande Statistiques d'Abelson comme argument de principe.
Pour revenir à la situation initiale, supposons que vous ayez fait une expérience sur l’effet de la concentration d’un certain produit chimique dans une solution sur la température de cette solution. Vous pensez que l'ajout de plus de ce produit chimique entraînera une réaction qui augmente la température. Vous ajoutez plus progressivement au fil du temps. Vous pouvez regarder la température en fonction du temps et voir une augmentation. Tout cela montre que la température augmente avec le temps; cela ne prouve pas que le temps lui-même (ou quoi que ce soit d'autre) a un effet causal. Cependant, il fournit certaines preuves dans un argument plus large qu'une concentration accrue de ce produit chimique entraîne une réaction qui augmente la température.
la source
La phrase est assez simple et ne mérite pas d’être trop réfléchie (et n’a rien à voir avec la préséance).
S'il existe une corrélation établie entre une variable et le temps (c'est-à-dire que nous savons qu'une augmentation de temps s'accompagne d'une augmentation de la variable, et que ceci est une donnée ), nous connaissons la direction "causale": c'est-à-dire que le temps augmente, les causes la variable à augmenter.
Parce que l'hypothèse alternative de "nah-euh, il se pourrait que le temps n'augmente que parce que la variable augmentée en premier " ne peut tout simplement pas tenir compte de la façon dont le temps fonctionne.
Cela peut sembler une observation idiote, mais cela a des implications importantes pour la conception de l’étude, qui tente de prouver une direction causale. Un exemple important en médecine est la différence entre une étude transversale et une étude de cohorte.
Par exemple, une étude transversale essayant de trouver un lien entre le tabagisme et le cancer pourrait prendre un groupe de personnes, le diviser en fumeurs / non-fumeurs et voir combien dans chaque groupe ont un cancer par rapport à un cancer. Toutefois, il s’agit là d’une faible preuve, car une corrélation entre le tabagisme et le cancer pourrait également être interprétée comme suit: "les personnes atteintes du cancer ont plus de chances de commencer à fumer".
Toutefois, si vous effectuez une étude de cohorte, c’est-à-dire prenez un groupe de fumeurs et un groupe de non-fumeurs, suivez-les au fil du temps et mesurez la variable "cancer chez les fumeurs moins le cancer chez les non-fumeurs" et établissez une corrélation de cette variable avec le temps (selon des hypothèses raisonnables, de sorte que le montant du tabagisme une fois commencé est constant et indépendant du temps, etc.), alors vous savez que le "temps" est la cause de la différence de cancer, car vous ne pouvez pas affirmer que les taux de cancer sont en augmentation temps a passé plus de temps dans le groupe fumeur. Vous pouvez donc faire valoir un lien de causalité entre le temps qui passe et une différence de cancer positive liée à des taux plus élevés dans le groupe des fumeurs. (ou, plus simplement, le temps passé dans le groupe des fumeurs entraîne une augmentation proportionnelle du risque de cancer).
En outre, la faiblesse de l’étude transversale, c’est-à-dire la possibilité que "les personnes cancéreuses soient plus susceptibles de commencer à fumer", a maintenant disparu, car le fait de fumer en tant que variable a été écarté du "temps par rapport au cancer". équation (supposée ici constante et donc non affectée par le temps). En d’autres termes, en formulant l’étude de cette manière, nous avons examiné une direction causale très spécifique . Si nous voulions examiner la mesure dans laquelle l' inverse direction de cause à effet s'applique ( à savoir quelle est la probabilité que les personnes qui finira par avoir un cancer doivent prendre fumer au fil du temps), nous aurions nécessairement à concevoir une étude de cohorte divisée en "cancer du futur versus cancer sans avenir" et mesurez l'absorption du tabagisme au fil du temps.
Mise à jour répondant aux commentaires:
Notez qu'il s'agit d'une discussion sur une direction causale plutôt que sur la recherche d'un lien de causalité direct. La question de la confusion est une question distincte. (il n'y a rien à penser qu'il n'y a pas un organisme indépendant troisième variable à la fois vous rend plus susceptible d'être un fumeur et augmente vos chances de cancer avec le temps). Autrement dit, en termes de causalité contrefactuelle, nous n’avons pas montré de manière définitive que "s’ils n’avaient pas fumé, ces personnes n’auraient pas eu le cancer". Mais nous avons montré que "l'association entre groupe fumeur et cancer n'aurait pas augmenté si le temps n'avait pas passé". (c’est-à-dire que l’association n’est pas due à un instantané de la préférence des personnes atteintes du cancer de préférer faire partie du groupe de fumeurs, mais qu’elle se renforce avec le temps).
la source
C’est vraiment une question de savoir comment établir une causalité, car les événements qui sont liés mais non causatifs seront vraisemblablement corrélés dans le temps ou dans l’espace. Alors, en regardant certaines données corrélées, comment pouvons-nous déterminer si la relation est dépendante? Un conseiller en recherche avisé m'a dit un jour: "la corrélation ne signifie pas la causalité, elle vous indique simplement où regarder".
Considérons la situation dans laquelle les événements A et B sont corrélés temporellement ou spatialement. Si nous souhaitons étudier la préposition selon laquelle A est la cause de B , la pensée traditionnelle consiste à introduire des tests de nécessité et de suffisance - ce que signifie réellement la causalité.
Si ne pas avoir de lait me fait aller au magasin , ce que nous disons n'est pas que je vais dans mon lait vide et conduis. Une causalité absolue signifierait que chaque fois que j'ai encore du lait , je ne peux pas être dérangé d'aller au magasin; et inversement, chaque fois que je suis au magasin, c'est parce que je n'ai pas de lait. Maintenant, il est facile de voir le problème de l'établissement positif de la causalité au sens strict du terme: la plupart des choses ne sont pas absolument causales. Il y a beaucoup d'autres raisons pour lesquelles je pourrais aller au magasin qui ne sont pas liées à l'état de lait.
C'est un moyen facile de distinguer un bon papier d'un bon papier. Lors de recherches approfondies, vous verrez partout des tests de suffisance et de nécessité. Affirmer que le médicament A à petites molécules pourrait entraîner le désassemblage du complexe protéique B? Vous verrez immédiatement les tests:
nécessité
----test---- ----result---- everything but B --> [nothing] (check for false positive) everything but A --> assembled everything with A-like compound --> assembled (control group)
suffisance
A + B alone (in vitro) --> disassembled (check for false negative) A + B + everything --> disassembled (trial group)
C’est la manière traditionnelle de construire un argument inductif en faveur de la causalité en utilisant expérimentalement la corrélation, et c’est ce que je suis convaincu que votre conférencier a éludé!
la source