Il existe un vieil adage: "Corrélation ne signifie pas causalité". Quand j'enseigne, j'ai tendance à utiliser les exemples standard suivants pour illustrer ce point:
- nombre de cigognes et taux de natalité au Danemark;
- nombre de prêtres en Amérique et alcoolisme;
- au début du XXe siècle, il existait une forte corrélation entre le «nombre de radios» et le «nombre de personnes dans Asylums Insane»
- et mon préféré: les pirates causent le réchauffement climatique .
Cependant, je n'ai aucune référence pour ces exemples et, bien qu'amusants, ils sont évidemment faux.
Est-ce que quelqu'un a d'autres bons exemples?
correlation
teaching
csgillespie
la source
la source
Réponses:
Il pourrait être utile d'expliquer que "causes" est une relation asymétrique (X causes Y est différent de Y causes X), alors que "est corrélé à" est une relation symétrique.
Par exemple, le nombre de sans-abri et le taux de criminalité peuvent être corrélés, dans la mesure où ils ont tendance à être élevés ou faibles aux mêmes endroits. Il est également valable de dire que la population des sans-abri est corrélée au taux de criminalité ou que le taux de criminalité est corrélé à la population des sans-abri. Dire que le crime cause l'itinérance ou que les populations sans abri causent la criminalité sont des déclarations différentes. Et la corrélation n'implique pas que l'un ou l'autre soit vrai. Par exemple, la cause sous-jacente pourrait être une 3ème variable telle que la toxicomanie ou le chômage.
Les mathématiques de la statistique ne permettent pas d'identifier les causes sous-jacentes, ce qui nécessite une autre forme de jugement.
la source
Mes favoris:
1) Plus les pompiers sont incendiés, plus les dégâts sont importants.
2) Les enfants qui reçoivent un tutorat ont de moins bonnes notes que les enfants qui ne le sont pas
et (c'est mon top)
3) Dans les premières années d'école primaire, le signe astrologique est corrélé au QI, mais cette corrélation s'affaiblit avec l'âge et disparaît à l'âge adulte.
la source
J'ai toujours aimé celui-ci:
source: http://pubs.acs.org/doi/abs/10.1021/ci700332k
la source
Parfois, la corrélation suffit. Par exemple, en assurance automobile, les conducteurs de sexe masculin sont en corrélation avec plus d'accidents, de sorte que les compagnies d'assurance les facturent davantage. Il n’ya aucun moyen de tester cela en termes de causalité. Vous ne pouvez pas changer les sexes des pilotes de manière expérimentale. Google a gagné des centaines de milliards de dollars sans se soucier de la causalité.
Pour trouver le lien de causalité, vous avez généralement besoin de données expérimentales, et non de données d'observation. Bien qu'en économie, ils utilisent souvent les «chocs» observés sur le système pour tester la causalité, comme si un PDG décédait soudainement et que le cours de l'action montait, vous pouvez en déduire une causalité.
La corrélation est une condition nécessaire mais non suffisante à la causalité. Pour montrer la causalité nécessite un contre-factuel.
la source
J'ai quelques exemples que j'aime utiliser.
En enquêtant sur la cause de la criminalité à New York dans les années 80, alors qu'ils tentaient de nettoyer la ville, un universitaire a découvert une forte corrélation entre le nombre de crimes graves commis et la quantité de crème glacée vendue par des vendeurs de rue! (Quelle est la cause et quel est l'effet?) Évidemment, il y avait une variable non observée causant les deux. L'été, c'est quand le crime est le plus grave et que l'on vend le plus de crème glacée.
La taille de votre paume est en corrélation négative avec la durée de votre vie (vraiment!). En fait, les femmes ont tendance à avoir des paumes plus petites et à vivre plus longtemps.
[Ma préférée] J'ai entendu parler d'une étude réalisée il y a quelques années, selon laquelle la quantité de boisson gazeuse qu'une personne boit est positivement corrélée à la probabilité d'obésité.(Je me suis dit - cela a du sens car cela doit être dû au fait que les gens boivent du soda sucré et obtiennent toutes ces calories vides.) Quelques jours plus tard, plus de détails sont sortis. Presque toute la corrélation était due à une consommation accrue de boissons gazeuses diètes. (Cela a gâché ma théorie!) Alors, de quelle manière est la causalité? Est-ce que les boissons gazeuses diète font prendre du poids, ou un gain de poids entraîne-t-il une consommation accrue de boissons gazeuses diète? (Avant de conclure, il s'agit de la dernière étude. Voir une étude dans laquelle des expériences contrôlées menées sur des rats ont montré que le groupe nourri au yogourt avec un édulcorant artificiel avait pris plus de poids que le groupe nourri au yaourt habituel.) Deux références: Drink More Diet Soda , Gagner plus de poids? ; Sodas diététiques liés à l'obésité. Je pense qu'ils essaient encore de résoudre celui-ci.
la source
Le nombre de prix Nobel gagnés par un pays (en tenant compte de la population) correspond bien à la consommation de chocolat par habitant. ( New England Journal of Medicine )
la source
Bien que ce soit plus une illustration du problème des comparaisons multiples, c'est aussi un bon exemple de causalité mal attribuée:
Rugby (la religion du pays de Galles) et son influence sur l'église catholique: le pape Benoît XVI devrait-il s'inquiéter?
la source
Il y a deux aspects de ce problème post hoc ergo propter que je souhaite aborder: (i) la causalité inverse et (ii) l'endogénéité.
Un exemple de « possible » une causalité inverse: la consommation sociale et des revenus - les buveurs gagnent plus d' argent selon Bethany L. Peters & Edward Stringham (2006. « Non Booze vous pouvez perdre: Pourquoi Buveurs Earn plus d' argent que les abstinents, » Journal du travail Research, Transaction Publishers, vol 27 (3), pages 411-421, juin). Ou bien les personnes qui gagnent plus d’argent boivent-elles plus, soit parce qu’elles ont un revenu disponible plus important, soit en raison du stress? C’est un excellent document à débattre pour toutes sortes de raisons, notamment l’erreur de mesure, le biais de réponse, la causalité, etc.
Un exemple d'endogénéité "possible": l'équation de Mincer explique le logarithme des gains par formation, expérience et expérience au carré. Il existe une longue littérature sur ce sujet. Les économistes du travail veulent estimer la relation de cause à effet entre l'éducation et les revenus, mais l'éducation est peut-être endogène car "la capacité" pourrait augmenter le niveau d'éducation d'un individu (en réduisant le coût de son obtention) et pourrait entraîner une augmentation des revenus, indépendamment de le niveau d'éducation. Une solution potentielle à cela pourrait être une variable instrumentale. Le livre d'Angrist et Pischke, Mostly Harmless Econometrics, couvre ce sujet et traite de sujets de manière très détaillée et claire.
Parmi les autres exemples stupides pour lesquels je n'ai aucun soutien, citons: - Le nombre de téléviseurs par habitant et le nombre de taux de mortalité. Alors envoyons des télévisions dans les pays en développement. Les deux sont évidemment endogènes à quelque chose comme le PIB. - Nombre d'attaques de requins et de ventes de crème glacée. Les deux sont endogènes à la température peut-être?
J'aime aussi raconter la terrible blague sur le fou et l'araignée. Un fou se promène dans les couloirs d'un asile avec une araignée qu'il porte dans la paume de sa main. Il voit le médecin et lui dit: «Regarde Doc, je peux parler aux araignées. Regarde ça." Araignée, va à gauche! "L'araignée se déplace dûment vers la gauche. Le médecin répond: "Intéressant, nous devrions peut-être en parler lors de la prochaine séance de groupe." Le lunatique rétorque, "Ce n'est rien Doc. Regardez ceci. "Il arrache une à une chacune des jambes de l'araignée puis crie:" Araignée, allez à gauche! "L'araignée est immobile sur sa paume et le fou se tourne vers le médecin pour conclure:" Si jambes, il va devenir sourd. "
la source
Le meilleur qu'on m'a appris a été le nombre de noyades et les ventes de glaces peuvent être fortement corrélées, mais cela n'implique pas que l'une cause l'autre. Les noyades et les ventes de crème glacée sont évidemment plus élevées en été, quand il fait beau. La troisième variable, autrement dit le beau temps, les provoque.
la source
En tant que généralisation du terme "pirates causant le réchauffement planétaire": Choisissez deux quantités qui augmentent (diminuent) monotone avec le temps et vous devriez constater une certaine corrélation.
la source
Vous pouvez passer quelques minutes sur Google Correlate et trouver toutes sortes de corrélations parasites.
la source
Je travaille avec des étudiants pour enseigner la corrélation vs la causalité dans mes cours d’Algèbre One. Nous examinons beaucoup d'exemples possibles. J'ai trouvé utile que l'article intitulé Bundled-Up Babies and Dangerous Ice Cream: Puzzle de corrélation du professeur de mathématiques de février 2013 soit utile. J'aime l'idée de parler de "variables cachées". Aussi cette caricature est un démarreur de conversation mignon:
Nous identifions la variable indépendante et dépendante dans la caricature et nous discutons pour savoir s'il s'agit d'un exemple de causalité, sinon pourquoi.
la source
J'ai lu (il y a longtemps) un exemple intéressant de baisse du taux de natalité (ou du taux de fécondité si vous préférez cette mesure), en particulier aux États-Unis, à partir du début des années 1960, alors que les essais d'armes nucléaires atteignaient un niveau record. (En 1961, la plus grande bombe nucléaire jamais déclenchée a été testée en URSS). Les taux ont continué à diminuer jusqu'à la fin du XXe siècle, lorsque la plupart des pays ont finalement cessé de le faire.
Je ne trouve pas de référence combinant ces chiffres à présent, mais cet article de Wikipedia contient des chiffres sur le nombre d' essais d'armes nucléaires par pays.
Bien entendu, il serait peut-être plus judicieux d’examiner la corrélation entre le taux de natalité et l’introduction et la légalisation de la pilule contraceptive «par hasard» à partir du début des années 1960. (Dans quelques États seulement, puis dans tous les États, il n'y a que les femmes mariées, puis certaines non célibataires, puis à tous les niveaux), mais même cela ne pourrait faire partie de la cause; de nombreux autres aspects de l’égalité, les mutations économiques et d’autres facteurs jouent un rôle important.
la source
Une corrélation en elle-même ne peut jamais établir un lien de causalité. David Hume (1771-1776) a fait valoir de manière assez efficace que nous ne pouvons pas obtenir certaines connaissances de la causalité par des moyens purement empiriques. Kant a tenté de résoudre ce problème, la page Wikipedia pour Kant semble bien le résumer:
En d'autres termes, Hume nous dit que nous ne pouvons jamais savoir qu'il existe un lien de causalité simplement en observant une corrélation, mais Kant suggère que nous pourrions utiliser notre raison pour distinguer les corrélations qui impliquent un lien de causalité de celles qui ne le font pas. Je ne pense pas que Hume aurait été en désaccord, tant que Kant écrivait en termes de vraisemblance plutôt que de certaines connaissances.
En bref, une corrélation fournit une preuve circonstancielle impliquant un lien de causalité, mais le poids de la preuve dépend grandement des circonstances particulières en cause et nous ne pouvons jamais en être absolument sûrs. La capacité de prédire les effets des interventions est un moyen de gagner de la confiance (nous ne pouvons rien prouver, mais nous pouvons le réfuter à l'aide de preuves observationnelles, nous avons donc au moins tenté de falsifier la théorie d'un lien de causalité). Avoir un modèle simple qui explique pourquoi nous devrions observer une corrélation qui explique également d'autres formes de preuves est un autre moyen d'appliquer notre raisonnement comme le suggère Kant.
Caveat emptor: Il est tout à fait possible que j'ai mal compris la philosophie, mais il n'en reste pas moins qu'une corrélation ne peut jamais fournir la preuve d'un lien de causalité.
la source
la source
La norme de référence indiquant la corrélation entre le nombre de nouveau - nés et élevage paires de cigognes en Allemagne de l' Ouest est un nouveau paramètre pour l' éducation sexuelle , Nature 332, 495 (07 Avril 1988); doi: 10.1038 / 332495a0
la source
La numération des spermatozoïdes chez les mâles dans les villages slovènes et le nombre d'ours (également en Slovénie) montrent une corrélation négative. Certaines personnes trouvent cela très préoccupant. Je vais essayer d'obtenir l'étude qui a fait cela.
la source
Je suis récemment allé à une conférence et l'un des intervenants a donné cet exemple très intéressant (bien qu'il s'agisse d'illustrer autre chose):
Les Américains et les Anglais mangent beaucoup de graisse. Le taux de maladies cardiovasculaires est élevé aux États-Unis et au Royaume-Uni.
Les Français mangent beaucoup de graisses, mais leur taux de maladies cardiovasculaires est faible.
Américains et Anglais boivent beaucoup d’alcool. Le taux de maladies cardiovasculaires est élevé aux États-Unis et au Royaume-Uni.
Les Italiens boivent beaucoup d’alcool mais, encore une fois, leur taux de maladies cardiovasculaires est faible.
La conclusion? Mangez et buvez ce que vous voulez. Et vous avez plus de chance d'avoir une crise cardiaque si vous parlez anglais!
la source
Ce dessin animé XKCD est également posté ailleurs chez CrossValidated.
la source
Un autre exemple de corrélation que j'ai utilisé est la forte augmentation du nombre de personnes consommant des aliments biologiques et l'augmentation du nombre d'enfants atteints d'autisme diagnostiqués aux États-Unis. Il existe un graphique de parodie sur le Web -
la source
http://tylervigen.com/
Cela montre une tonne de corrélations qui n'ont évidemment rien à voir avec la causalité - Ou avez-vous une bonne idée de la corrélation entre corrélation entre Age of Miss America et les meurtres causés par la vapeur, les vapeurs chaudes et les objets brûlants
??
la source
Enseigner "La corrélation ne signifie pas la causalité" n'aide vraiment personne, car au bout du compte, tous les arguments déductifs reposent en partie sur la corrélation.
Les humains sont très mauvais pour apprendre à ne pas faire quelque chose.
L’objectif doit plutôt être constructif: pensez toujours à des alternatives à vos hypothèses de départ qui pourraient produire les mêmes données.
la source
Eh bien, mon professeur a utilisé ceux-ci dans la classe de probabilité d'introduction:
1) La taille de la chaussure est corrélée à la capacité de lecture
2) L’attaque des requins est en corrélation avec la vente de crème glacée.
la source
Plus le nombre de camions de pompiers envoyés à un incendie est important, plus les dégâts sont importants.
la source
Je pense qu'un meilleur paradigme pourrait être que la causalité nécessite une corrélation associée à un mécanisme crédible et de préférence prouvé. Je pense que le mot implicite devrait être utilisé avec parcimonie dans ce contexte, car il a plusieurs sens, y compris celui de suggestion.
la source
L'exemple des cigognes se trouve à la page 8 de la première édition (1978) du livre de Box, Hunter & Hunter intitulé "Statistics for Experimenters ..." (Wiley). Je ne sais pas si c'est dans la 2e édition. Ils identifient la ville comme Oldenbourg et la période 1930-1936.
Ils font référence à Ornithologische Monatsberichte , 44 , n ° 2, Jahrgang, 1936, Berlin, et 48 , n ° 1, Jahrgang, 1940, à Berlin et à Statistiches Jahrbuch Deutscher Gemeinden , 27-33, 1932-1938, Gustav Fischer, Jena.
la source
J'ai vu un drôle dans un article.
La production de beurre au Bangladesh présente l'une des corrélations les plus fortes avec le S & P 500 sur une période de dix ans.
la source
En voici un parfait. Et malheureusement, il peut être utilisé comme un excellent point d’enseignement, car ni le personnel du Washington Post ni les Centers for Disease Control and Prevention ne démontrent le moindre doute quant au fait que cet article devrait être une satire de The Onion.
https://www.washingtonpost.com/health/trumps-presidency-may-be-making-latinos-sick/2019/07/19/4e89b9f0-a97f-11e9-9214-246e594de5d5_story.html?utm_term=.9dd329c2e837
la source
Quelqu'un a dit, corrélation peut ne pas signifier causalité mais cela peut sûrement être un bon indice :)
Ok en laissant de côté la partie amusante, quelle est exactement la causalité? Sommes-nous vraiment sûrs que les pirates ne provoquent pas le réchauffement climatique?
Contre-intuitif, mais ce qui est pris comme cause et ce que comme effet (dans une étude de corrélation, ce n'est pas si clair). Bien sûr, plusieurs fois, les deux peuvent simplement être des effets de cause commune (et donc corrélés)
Tout se résume à la méthode de détermination de la causalité.
C'est la cause (le jeu de mots voulu) de l'adage:
Il y a de petits mensonges. Il y a de gros mensonges et des statistiques.
la source