Un animal de compagnie disant de nombreux statisticiens est "La corrélation n'implique pas la causalité." C'est certainement vrai, mais une chose qui semble implicite ici est que la corrélation a peu ou pas de valeur. Est-ce vrai? Est-il inutile de savoir que deux variables sont corrélées?
Je ne peux pas imaginer que ce soit le cas. Je ne suis pas horriblement familier avec l'analyse prédictive, mais il semble que si X
c'est un prédicteur de Y
, il serait utile de prédire les valeurs futures de Y
basé sur X
, indépendamment de la causalité.
Suis-je dans l'erreur de voir la valeur en corrélation? Et sinon, dans quelles situations un statisticien ou un data scientist peut-il utiliser la corrélation sans lien de causalité?
correlation
predictive-models
causality
Indigénéité
la source
la source
Réponses:
La corrélation (ou toute autre mesure d'association) est utile pour la prédiction indépendamment de la causalité. Supposons que vous mesuriez une association claire et stable entre deux variables. Cela signifie que connaître le niveau d'une variable vous fournit également des informations sur une autre variable d'intérêt, que vous pouvez utiliser pour aider à prédire une variable en fonction de l'autre et, surtout, prendre des mesures en fonction de cette prédiction . Prendre des mesures implique de modifier une ou plusieurs variables, par exemple lors de la formulation d'une recommandation automatisée ou de l'utilisation d'une intervention médicale. Bien sûr, vous pourriez faire de meilleures prévisions et agir plus efficacement si vous aviez une meilleure compréhension des relations directes ou indirectes entre deux variables. Cette perspicacité peut impliquer d'autres variables, y compris spatiales et temporelles.
la source
A
est un très bon prédicteur, il est très tentant de prétendre que c'est aussi la cause de la maladie - Et comme mentionné dans les commentaires, il est très facile de tirer des conclusions erronées. Si nous voulons seulement faire des prédictions, par exemple dire si un patient a la maladie ou non, il n'y a pas de problèmes de corrélation.Il y a déjà beaucoup de bons points ici. Permettez-moi de déballer votre affirmation selon laquelle "il semble que si
X
est un prédicteur deY
, il serait utile de prédire un peu les valeurs futures deY
sur la baseX
, indépendamment de la causalité". Vous avez raison: si tout ce que vous voulez, c'est être capable de prédire uneY
valeur inconnue à partir d'uneX
valeur connue et d'une relation stable connue, le statut causal de cette relation n'est pas pertinent. Considérez que:la source
Ils ne font pas caca sur l'importance de la corrélation. C'est juste que la tendance est d'interpréter la corrélation comme une causalité.
Prenez l'allaitement maternel comme exemple parfait. Les mères interprètent presque toujours les résultats (des études d'observation) sur l'allaitement maternel comme une suggestion quant à savoir si elles devraient réellement allaiter ou non. Il est vrai qu'en moyenne, les bébés qui sont allaités ont tendance à être des adultes en meilleure santé dans l'ordre, même après avoir pris en compte l'âge maternel et paternel longitudinal, le statut socioéconomique, etc. jouent en partie un rôle dans le développement précoce de la régulation de l'appétit. La relation est très complexe et l'on peut facilement spéculer sur toute une série de facteurs médiateurs qui pourraient être à l'origine des différences observées.
De nombreuses études se tournent vers les associations pour justifier une meilleure compréhension de ce qui se passe. La corrélation n'est pas inutile, elle est juste à plusieurs étapes sous le lien de causalité et il faut être attentif à la façon de signaler les résultats pour éviter une mauvaise interprétation de la part d'experts non experts.
la source
Vous avez raison, la corrélation est utile. La raison pour laquelle les modèles causaux sont meilleurs que les modèles associatifs est que - comme le dit Pearl - ce sont des oracles pour les interventions. En d'autres termes, ils vous permettent de raisonner hypothétiquement. Un modèle causal répond à la question "si je devais réaliser X, qu'arriverait-il à Y?"
Mais vous n'avez pas toujours besoin de raisonner hypothétiquement. Si votre modèle ne sera utilisé que pour répondre à des questions telles que "si j'observe X, que sais-je de Y?", Alors un modèle d'association est tout ce dont vous avez besoin.
la source
Vous avez raison de dire que la corrélation est utile pour la prédiction. Il est également utile pour mieux comprendre le système étudié.
Un cas où la connaissance du mécanisme causal est nécessaire est si la distribution cible a été manipulée (par exemple, certaines variables ont été "forcées" de prendre certaines valeurs). Un modèle basé uniquement sur des corrélations fonctionnera mal, tandis qu'un modèle utilisant des informations causales devrait être beaucoup plus performant.
la source
La corrélation est un outil utile si vous disposez d'un modèle sous-jacent qui explique la causalité.
Par exemple, si vous savez que l'application d'une force à un objet influence son mouvement, vous pouvez mesurer la corrélation entre la force et la vitesse et la force et l'accélération. La corrélation plus forte (avec l'accélération) sera explicative en elle-même.
Dans les études d'observation, la corrélation peut révéler certains modèles communs (comme l'allaitement maternel déclaré et la santé ultérieure) qui pourraient être un terrain pour une exploration scientifique plus approfondie via une conception expérimentale appropriée qui peut confirmer ou rejeter le lien de causalité (par exemple, peut-être au lieu de l'allaitement maternel, il pourrait être la cause conséquence pour un certain cadre culturel).
La corrélation peut donc être utile, mais elle peut rarement être concluante.
la source
Comme vous l'avez dit, la corrélation seule a beaucoup d'utilité, principalement la prédiction.
Par exemple, toutes ces études montrant qu'une forte consommation de café chez les seniors est corrélée à des systèmes cardio-vasculaires plus sains sont, à mon avis, indubitablement motivées par des personnes voulant justifier leurs fortes habitudes de café. Cependant, dire que boire du café n'est corrélé qu'avec des cœurs plus sains, plutôt que causal, ne répond pas à notre vraie question d'intérêt: allons-nous être en meilleure santé si nous buvons plus de café ou si nous réduisons? Il peut être très frustrant de trouver des résultats très intéressants (le café est lié à des cœurs plus sains!) Mais ne pas être en mesure d'utiliser ces informations pour prendre des décisions (je ne sais toujours pas si vous devez boire du café pour être en meilleure santé), et donc il y a presque toujours une tentation d'interpréter la corrélation comme une causalité.
À moins que vous ne vous souciez que du jeu (c'est-à-dire que vous voulez prédire mais pas influencer).
la source
Il y a de la valeur dans la corrélation, mais il faut regarder plus de preuves pour conclure à la causalité.
Il y a des années, une étude a abouti à «le café cause le cancer». Dès que j'ai entendu cela aux nouvelles, j'ai dit à ma femme une "fausse corrélation". Il s'est avéré que j'avais raison. La population de café de 2 à 3 tasses par jour avait un taux de tabagisme plus élevé que les non-buveurs de café. Une fois que les collecteurs de données ont compris cela, ils ont rétracté leurs résultats.
Une autre étude intéressante avant le boom et l'effondrement du logement a montré le racisme en ce qui concerne le traitement des hypothèques. L'affirmation était que les candidats noirs étaient rejetés à un taux plus élevé que les blancs. Mais une autre étude a examiné les taux de défaut. Les propriétaires noirs étaient en défaut au même rythme que les blancs. Si l'application noire était maintenue à un niveau plus élevé, son taux par défaut serait en réalité bien inférieur. Remarque: cette anecdote a été partagée par l'auteur Thomas Sowell dans son livre The Housing Boom and Bust
L'exploration de données peut facilement produire deux ensembles de données qui présentent une forte corrélation, mais pour des événements qui ne pouvaient pas être liés. En fin de compte, il est préférable de regarder les études qui vous sont envoyées avec un œil très critique. Trouver de fausses corrélations n'est pas toujours facile, c'est un talent acquis.
la source
La corrélation est un phénomène observable. Vous pouvez le mesurer. Vous pouvez agir sur ces mesures. En soi, cela peut être utile.
Cependant, si tout ce que vous avez est une corrélation, vous n'avez aucune garantie qu'un changement que vous apporterez aura réellement un effet (voir les célèbres graphiques liant la montée des iPhones à l'esclavage à l'étranger et autres). Cela montre simplement qu'il y a une corrélation là-bas, et si vous modifiez l'environnement (en agissant), cette corrélation peut toujours être là.
Cependant, c'est une approche très subtile. Dans de nombreux scénarios, nous voulons avoir un outil moins subtil: la causalité. La causalité est une corrélation combinée avec une affirmation selon laquelle si vous modifiez votre environnement en agissant d'une manière ou d'une autre, il faut s'attendre à ce que la corrélation soit toujours là. Cela permet une planification à plus long terme, comme l'enchaînement de 20 ou 50 événements causaux consécutifs pour identifier un résultat utile. Le faire avec 20 ou 50 corrélations laisse souvent un résultat très flou et trouble.
Comme exemple de leur utilité dans le passé, considérons la science occidentale par rapport à la médecine traditionnelle chinoise (MTC). La science occidentale se concentre principalement sur "Développer une théorie, isoler un test qui peut démontrer la théorie, exécuter le test et documenter les résultats." Cela commence par «développer une théorie», qui est fortement liée à la causalité. TCM l'a fait tourner, en commençant par «concevoir un test qui peut fournir des résultats utiles, exécuter le test, identifier les corrélations dans la réponse». L'accent est davantage mis sur les corrélations.
De nos jours, les occidentaux ont tendance à préférer penser presque entièrement en termes de causalité, de sorte que la valeur de l'étude de la corrélation est plus difficile à espionner. Cependant, nous le trouvons caché dans tous les coins de notre vie. Et n'oubliez jamais que même dans la science occidentale, les corrélations sont un outil important pour identifier quelles théories méritent d'être explorées!
la source