Je viens de passer un examen où on nous a présenté deux variables. Dans un jeu de dictateur où un dictateur reçoit 100 USD et peut choisir combien envoyer ou garder pour lui-même, il y avait une corrélation positive entre l'âge et la somme d'argent que les participants ont décidé de garder.
Ma pensée est que vous ne pouvez pas en déduire la causalité parce que vous ne pouvez pas déduire la causalité de la corrélation. Mon camarade de classe pense que vous le pouvez parce que si, par exemple, vous divisez les participants en trois groupes distincts, vous pouvez voir comment ils diffèrent dans la quantité qu'ils gardent et combien ils partagent, et par conséquent conclure que l'âge les amène à garder plus. Qui a raison et pourquoi?
correlation
causality
JonnyBravo
la source
la source
Réponses:
En général, vous ne devez pas supposer que la corrélation implique une causalité - même dans les cas où il semble que ce soit la seule raison possible.
Considérez qu'il y a d'autres choses qui sont en corrélation avec les aspects générationnels de la culture par exemple. Peut-être que ces trois groupes resteront les mêmes même s'ils vieillissent tous, mais la prochaine génération inversera la tendance?
Cela étant dit, vous avez probablement raison de dire que les jeunes sont plus susceptibles de conserver une plus grande quantité, mais sachez qu'il existe d'autres possibilités.
la source
Je peux postuler plusieurs causalités à partir de vos données.
L'âge est mesuré puis le montant d'argent conservé. Les participants plus âgés préfèrent garder plus d'argent (peut-être qu'ils sont plus intelligents ou moins idéalistes, mais ce n'est pas le but).
Le montant d'argent conservé est mesuré puis l'âge. Les personnes qui gardent plus d'argent passent plus de temps à le compter et sont donc plus âgées lorsque l'âge est mesuré.
Les personnes malades gardent plus d'argent parce qu'elles ont besoin d'argent pour des médicaments ou des traitements (éventuellement vitaux). La corrélation réelle est entre la maladie et l'argent conservé, mais cette variable est "cachée" et nous sautons donc à la mauvaise conclusion, car l'âge et la probabilité de maladie sont corrélés dans le groupe démographique de personnes choisies pour l'expérience.
(Omettant 143 théories; je dois rester assez court)
Conclusion: vous avez raison, mais votre camarade de classe pourrait prétendre être 147 fois plus correct.
Une autre corrélation célèbre est entre un faible QI et des heures de télévision regardées quotidiennement. Regarder la télévision rend-il stupide, ou les gens stupides regardent-ils plus la télévision? Ça pourrait même être les deux.
la source
L'inférence de la causalité de la corrélation en général est problématique car il peut y avoir un certain nombre d'autres raisons de la corrélation. Par exemple, de fausses corrélations dues à des facteurs de confusion , un biais de sélection (par exemple, choisir uniquement des participants avec un revenu inférieur à un certain seuil), ou l'effet causal peut simplement aller dans l'autre sens (par exemple, un thermomètre est corrélé avec la température mais ne provoque certainement pas il). Dans chacun de ces cas, la procédure de votre camarade de classe peut trouver un effet causal là où il n'y en a pas.
Cependant, si les participants étaient sélectionnés au hasard, nous pourrions exclure les facteurs de confusion et les biais de sélection. Dans ce cas, soit l' âge doit provoquer l' argent conservé, soit l' argent conservé doit provoquer l' âge . Cette dernière impliquerait que forcer quelqu'un à garder une certaine somme d'argent changerait en quelque sorte son âge. Ainsi, nous pouvons supposer en toute sécurité que l' âge cause l'argent conservé .
Notez que l'effet causal pourrait être "direct" ou "indirect" . Les personnes d'âge différent auront reçu une éducation différente, auront une richesse différente, etc., et pour ces raisons, pourraient choisir de conserver un montant différent de 100 $. Les effets causaux via ces médiateurs sont toujours des effets causaux mais sont indirects.
la source
La corrélation est un concept mathématique; la causalité est une idée philosophique.
D'un autre côté, la corrélation parasite est un concept principalement technique (vous ne le trouverez pas dans les manuels de probabilités théoriques de mesure) qui peut être défini d'une manière qui est principalement exploitable.
Cette idée est étroitement liée à l'idée de falsificationnisme en science - où le but n'est jamais de prouver des choses, mais de les réfuter .
La statistique est aux mathématiques comme la médecine à la biologie. On vous demande de faire votre meilleur jugement avec le soutien d'une richesse de connaissances techniques, mais ces connaissances ne sont jamais suffisantes pour couvrir le monde entier. Donc, si vous voulez porter des jugements en tant que statisticien et les présenter à d'autres, vous devez respecter certaines normes de qualité; c'est-à-dire que vous donnez de bons conseils, en leur donnant leur argent. Cela signifie également de prendre en compte l'asymétrie des risques - dans les tests médicaux, le coût de donner un faux résultat négatif (qui peut empêcher les personnes d'obtenir un traitement précoce) peut être plus élevé que le coût de donner un faux positif (ce qui provoque de la détresse) .
Dans la pratique, ces normes varient d'un domaine à l'autre - parfois ce sont des ECR en triple aveugle, parfois ce sont des variables instrumentales et d'autres techniques pour contrôler la causalité inverse et les causes communes cachées, parfois c'est la causalité de Granger - que quelque chose dans le passé est constamment en corrélation avec autre chose en présence, mais pas en sens inverse. Il pourrait même s'agir d'une régularisation et d'une validation croisée rigoureuses.
la source
La relation entre corrélation et causalité a confondu philosophes et statisticiens depuis des siècles. Enfin, au cours des vingt dernières années, les informaticiens affirment avoir tout réglé. Cela ne semble pas être largement connu. Heureusement, Judea Pearl, un moteur de premier plan dans ce domaine, a récemment publié un livre expliquant ce travail à un public populaire: The Book of Why.
https://www.amazon.com/Book-Why-Science-Cause-Effect/dp/046509760X
https://bigthink.com/errors-we-live-by/judea-pearls-the-book-of-why-brings-news-of-a-new-science-of-causes
Alerte spoiler: Vous pouvez déduire la causalité de la corrélation dans certaines circonstances si vous savez ce que vous faites. Vous devez faire quelques hypothèses causales pour commencer (un modèle causal, idéalement basé sur la science). Et vous avez besoin des outils pour faire un raisonnement contrefactuel (la do-algèbre). Désolé, je ne peux pas résumer cela en quelques lignes (je lis toujours le livre moi-même), mais je pense que la réponse à votre question est là.
la source
L'affirmation causale de l'âge serait inappropriée dans ce cas
Le problème de la prétention à la causalité dans la conception de votre question d'examen peut se résumer à un simple fait: le vieillissement n'était pas un traitement, l'âge n'était pas du tout manipulé. La raison principale de faire des études contrôlées est précisément parce que, en raison de la manipulation et du contrôle des variables d'intérêt, vous pouvez dire que le changement d'une variable provoque le changement du résultat (dans des conditions expérimentales extrêmement spécifiques et avec une charge de bateau) d'autres hypothèses comme l'assignation aléatoire et que l'expérimentateur n'a pas foiré quelque chose dans les détails d'exécution, que je passe en revue ici nonchalamment).
Mais ce n'est pas ce que la conception de l'examen décrit - il a simplement deux groupes de participants, avec un fait spécifique qui les diffère (leur âge); mais vous n'avez aucun moyen de connaître les autres différences du groupe. En raison du manque de contrôle, vous ne pouvez pas savoir si c'est la différence d'âge qui a provoqué le changement de résultat, ou si c'est parce que les 40 ans se joignent à une étude parce qu'ils ont besoin d'argent alors que les 20 ans étaient les étudiants qui participaient à des crédits de classe et avaient donc des motivations différentes - ou l'une des mille autres différences naturelles possibles dans vos groupes.
Maintenant, la terminologie technique pour ce genre de choses varie selon le domaine. Des termes communs pour des choses comme l'âge et le sexe des participants sont "attribut de participant", "variable étrangère", "variable indépendante d'attribut", etc. En fin de compte, vous vous retrouvez avec quelque chose qui n'est pas une "véritable expérience" ou une "véritable expérience contrôlée", parce que la chose sur laquelle vous voulez faire une réclamation - comme l'âge - n'était pas vraiment sous votre contrôle pour changer, donc le plus que vous pouvez espérer sans méthodes beaucoup plus avancées (comme l'inférence causale, les conditions supplémentaires, les données longitudinales, etc.) est de prétendre qu'il existe une corrélation.
Cela s'avère également être l'une des raisons pour lesquelles les expériences en sciences sociales et la compréhension des attributs difficiles à contrôler des personnes sont si délicates dans la pratique - les gens diffèrent de nombreuses façons et lorsque vous ne pouvez pas changer les choses que vous voulez pour en savoir plus, vous avez généralement besoin de techniques expérimentales et inférentielles plus complexes ou d'une stratégie complètement différente.
Comment pourriez-vous changer le design pour faire une allégation de causalité?
Imaginez un scénario hypothétique comme celui-ci: les groupes A et B sont tous deux composés de participants âgés de 20 ans.
Le groupe A joue au jeu de la dictature comme d'habitude.
Pour le groupe B, vous sortez un rayon magique de science vieillissant (ou peut-être en demandant à un fantôme de les traiter avec un visage horrifiant). ), que vous avez soigneusement réglé pour vieillir tous les participants du groupe B afin qu'ils aient maintenant 40 ans, mais sinon, laissez-les inchangés, puis faites-les jouer au jeu du dictateur comme le groupe A.
Pour plus de rigueur, vous pourriez obtenir un groupe C de personnes de 40 ans naturellement âgées pour confirmer que le vieillissement synthétique est comparable au vieillissement naturel, mais permet de garder les choses simples et de dire que nous savons que le vieillissement artificiel est comme la vraie chose basée sur "avant travail".
Maintenant, si le groupe B garde plus d'argent que le groupe A, vous pouvez affirmer que l'expérience indique que le vieillissement amène les gens à garder plus d'argent. Bien sûr, il existe encore un millier de raisons pour lesquelles votre affirmation pourrait s'avérer erronée, mais votre expérience a au moins une interprétation causale valable.
la source
Non. Il existe une relation logique à sens unique entre la causalité et la corrélation.
Considérez la corrélation comme une propriété que vous calculez sur certaines données, par exemple la corrélation (linéaire) la plus courante telle que définie par Pearson. Pour cette définition particulière de la corrélation, vous pouvez créer des points de données aléatoires qui auront une corrélation de zéro ou d'un sans avoir aucune sorte de causalité entre eux, simplement en ayant certaines symétries (a). Pour toute définition de corrélation, vous pouvez créer une prescription qui montrera les deux comportements: des valeurs élevées de corrélation sans relation mathématique entre les deux et de faibles valeurs de corrélation, même s'il existe une expression fixe.
Oui, la relation entre «sans rapport, mais fortement corrélé» est plus faible que «sans corrélation malgré le fait d'être liée». Mais le seul indicateur (!) Dont vous disposez si une corrélation est présente est que vous devez chercher plus attentivement une explication.
la source
En général, vous ne pouvez pas passer de la corrélation à la causalité. Par exemple, il existe un phénomène bien connu des sciences sociales concernant le statut / la classe sociale et la propension à dépenser / économiser. Pendant de nombreuses années, on a pensé que cela montrait un lien de causalité. L'année dernière, des recherches plus approfondies ont montré que ce n'était pas le cas.
La "corrélation classique n'est pas un lien de causalité" - dans ce cas, le facteur de confusion était que le fait de grandir dans la pauvreté apprend aux gens à utiliser l'argent différemment et à dépenser s'il y a un excédent, car il peut ne pas être là demain même s'il est épargné pour diverses raisons .
Dans votre exemple, supposons que les personnes âgées ont toutes vécu une guerre, ce que les jeunes n'ont pas vécu. Le lien pourrait être que les personnes qui ont grandi dans le chaos social, avec un risque réel de préjudice et de pertes de vie, apprennent à prioriser l’économie de ressources pour elles-mêmes et contre les besoins, plus que celles qui grandissent dans des circonstances plus heureuses où l’État, les employeurs ou les assureurs-maladie s'en occuperont et la survie n'est pas un problème qui a façonné leurs perspectives. Ensuite, vous obtiendriez le même lien apparent - les personnes âgées (y compris celles plus proches de leur génération) en gardent plus, mais cela ne serait apparemment lié qu'à l'âge. En réalité, l'élément causal est la situation sociale dans laquelle on a passé des années de formation et les habitudes qui ont enseigné - pas l'âge en soi .
la source
Il y a plusieurs raisons pour lesquelles cette conclusion n'a pas de sens.
Une amélioration suggérée de la conception est l'étude de type croisée suivante.
Même réglage: des despotes aléatoires de tout âge qui gouvernent les terres. Conception: Sélectionnez des paires assorties de dictateurs jeunes et vieux. Donnez-leur un pot d'argent, inspectez la différence de proportion retenue (vieux - jeune =p1 ). Volez l'argent afin que le pays et le dirigeant aient essentiellement les mêmes actifs qu'auparavant. Déposez-les de leurs trônes respectifs et installez-les dans le pays de l'autre. Refaire le pot-donnant, inspecter la différence de proportion retenue (vieux - jeune =p2 ).
la source
La causalité et la corrélation sont différentes catégories de choses. C'est pourquoi la corrélation seule n'est pas suffisante pour déduire la causalité.
Par exemple, la causalité est directionnelle , contrairement à la corrélation. Lorsque vous inférez la causalité, vous devez établir quelle est la cause et quel est l'effet.
Il y a d'autres choses qui pourraient interférer avec votre inférence. Variables cachées ou troisièmes et toutes les questions de statistiques (sélection de l'échantillon, taille de l'échantillon, etc.)
Mais en supposant que vos statistiques sont correctement effectuées, la corrélation peut fournir des indices sur la causalité. En règle générale, si vous trouvez une corrélation, cela signifie qu'il existe une sorte de causalité quelque part et que vous devriez commencer à la rechercher.
Vous pouvez absolument commencer avec une hypothèse dérivée de votre corrélation. Mais une hypothèse n'est pas une causalité, c'est simplement une possibilité de causalité. Vous devez ensuite le tester. Si votre hypothèse résiste à des tentatives de falsification suffisantes, vous êtes peut-être sur quelque chose.
Par exemple, dans votre hypothèse âge-causes-cupidité, une autre hypothèse serait que ce n'est pas l'âge, mais la durée d'être un dictateur. Donc, vous recherchez des dictateurs anciens mais récemment habilités comme groupe de contrôle, et des jeunes mais dictateurs depuis l'enfance comme deuxième groupe et vérifiez les résultats là-bas.
la source
Merci à @AdamO d'avoir offert beaucoup de discussions et de points de discorde à ce poste. J'essaie d'offrir une vision physique de la causalité, qui peut ne pas être familière au lecteur moyen de statistiques.
Vous avez raison du point de vue des sciences physiques. Dans sa forme la plus simple, la possibilité d'une vision physique indépendante du temps de la causalité est à la base de la vision déductive-nomologique (DN) de l'explication scientifique, en considérant un événement à expliquer s'il peut être subsumé en vertu d'une loi scientifique. Dans la vue DN, un état physique est considéré comme expliqué si, en appliquant la loi (déterministe), il peut être dérivé de conditions initiales données. (De telles conditions initiales pourraient inclure les impulsions et la distance les unes des autres des étoiles binaires à un moment donné.) Une telle «explication par déterminisme» est parfois appelée déterminisme causal.
Un peu plus complet à ce sujet, on pourrait inclure le modèle statistique inductif de Hempel pour former une explication scientifique , ce lien offrant une discussion plus complète de la causalité.
Quant au problème à résoudre, l'âge peut être lié à l'expérience, mais la relation n'est pas simple, de plus, la fonction cérébrale à différents âges est différente (la démarcation temporelle se dilate avec l'âge). L'expérience en tant que modificateur de comportement est assez variable, et ce n'est pas parce qu'une cohorte dans un certain sens territorial et temporel peut avoir des expériences historiques similaires que tout comportement résultant de ces expériences peut être extrapolé à d'autres cohortes sans crainte de contradiction. En ce qui concerne un essai contrôlé, la communauté des expériences est une variable incontrôlée qui introduit une quantité inconnue et inexplorée de corrélation fallacieuse dans toute comparaison binaire de sorte qu'aucune différence trouvée ne doit être considérée comme révélant un lien probablement causal. De plus, une cause probable, une fois trouvée, ne constituerait qu'un soupçon et non quelque chose que l'on peut affirmer avec conviction; c'est au mieux une hypothèse de travail et non une meilleure conclusion. Les condamnations concernant la causalité ne devraient être tirées que d'un ensemble de preuves suffisamment inclusives pour que ces condamnations soient sans doute raisonnable. Ce n'est pas le cas pour la question ci-dessus pour laquelle il n'y a pas suffisamment d'informations pour prétendre à une relation causale au-delà d'un contexte coïncident du regroupement de cohortes. On peut, en effet, formuler tant d'hypothèses, par exemple, que l'évolution de la générosité avec l'âge est modifiée par l'expérience de l'époque culturelle / historique, qu'aucune conclusion ferme ne peut être tirée du problème comme indiqué. Les condamnations concernant la causalité ne devraient être tirées que d'un ensemble de preuves suffisamment inclusives pour que ces condamnations soient sans doute raisonnable. Ce n'est pas le cas pour la question ci-dessus pour laquelle il n'y a pas suffisamment d'informations pour prétendre à une relation causale au-delà d'un contexte coïncident du regroupement de cohortes. On peut, en effet, formuler tant d'hypothèses, par exemple, que l'évolution de la générosité avec l'âge est modifiée par l'expérience de l'époque culturelle / historique, qu'aucune conclusion ferme ne peut être tirée du problème comme indiqué. Les condamnations concernant la causalité ne devraient être tirées que d'un ensemble de preuves suffisamment inclusives pour que ces condamnations soient sans doute raisonnable. Ce n'est pas le cas pour la question ci-dessus pour laquelle il n'y a pas suffisamment d'informations pour prétendre à une relation causale au-delà d'un contexte coïncident du regroupement de cohortes. On peut, en effet, formuler tant d'hypothèses, par exemple, que l'évolution de la générosité avec l'âge est modifiée par l'expérience de l'époque culturelle / historique, qu'aucune conclusion ferme ne peut être tirée du problème comme indiqué.
la source