Disons qu'en tant que propriétaire d'entreprise (ou de marketing ou de toute personne qui comprend un nuage de points), un nuage de points de deux variables s'affiche: nombre de publicités vs nombre de ventes de produits par mois au cours des 5 dernières années (ou une autre échelle de temps pour que vous avoir plus d'échantillons. Je viens de faire celui-ci).
Maintenant, il / elle voit le nuage de points et on lui dit que le coefficient de corrélation (corr) est:
- 1 ou
- 0,5 ou
- 0,11 ou
- 0 ou
- -0,75 ou
- -1
Fondamentalement, toute valeur valide pour corr
Question: Qu'est-ce que cela signifie même pour un décideur ou tout consommateur du nuage de points? Quelles décisions peut-on prendre sur cette base?
Ie: Quelle est l'utilité de voir la corrélation entre deux variables quelconques et que peut-on faire avec ces informations isolément? Est-ce seulement pour voir ce qu'il faut ou ne pas considérer pour l'inclusion dans l'analyse de régression ou y a-t-il une utilisation plus pratique?
Juste curieux, j'ai toujours travaillé avec cette technique, mais on m'a dit que la corrélation en elle-même n'est pas d'une grande utilité - alors quel est "EST" l'utilisation?
la source
Regardez-le du point de vue du jeu. Disons que nous savons qu'en moyenne, les personnes qui portent des bottes de travail pour travailler auront 1,5 blessure au travail, et les personnes qui portent des mocassins auront 0,05 blessure en moyenne. Ou, peut-être que les risques de blessures pour une personne portant des bottes de travail sont de 0,85, et les risques de blessures pour une personne portant des mocassins est de 0,1.
Si je sélectionne au hasard une personne de la population et que je vous dis qu'elle porte des bottes de travail et que je vous offre un pari d'argent égal sur le fait qu'elle ait ou non subi une blessure au travail l'an dernier, prendriez-vous le pari? Eh bien, vous prendriez le pari si vous pouviez parier sur le côté qu'ils avaient une blessure. 85% du temps, vous gagnerez, et vous obtenez même de l'argent.
Le fait est que, sachant que cette information nous donne des informations sur la probabilité ou non de subir une blessure au travail. Les chaussures n'y sont pour rien, en fait, les bottes de travail préviennent les blessures. est le type de travail qui va de pair avec les bottes de travail .. Et peut-être d'autres choses comme la personne peut-être plus téméraire.
la source
L'expression «corrélation n'implique pas de causalité» est surestimée. (Comme l'écrivit Cohen, «c'est un très gros indice».) Nous avons frappé cette phrase chez les élèves en raison d'un biais intrinsèque à l'esprit humain. Lorsque vous entendez «le taux de criminalité est corrélé au taux de pauvreté», ou quelque chose comme ça, vous ne pouvez pas vous empêcher de penser que cela signifie que la pauvreté est à l'origine du crime. Il est naturel que les gens assument cela, car c'est ainsi que fonctionne l'esprit. Nous utilisons cette expression encore et encore dans l'espoir de contrer cela. Cependant, une fois que vous avez absorbé l'idée, la phrase perd la plus grande partie de sa valeur et il est temps de passer à une compréhension plus sophistiquée.
Lorsqu'il y a une corrélation entre deux variables, il y a deux possibilités: tout est une coïncidence, ou il y a un schéma causal à l'œuvre. Appeler un motif dans le monde une coïncidence est un terrible cadre explicatif et devrait probablement être votre dernier recours. Cela laisse la causalité. Le problème est que nous ne connaissons pas la nature de ce modèle causal. Il se pourrait bien que la pauvreté cause le crime, mais il se pourrait aussi que le crime cause la pauvreté (par exemple, les gens ne veulent pas vivre dans une zone à forte criminalité, alors ils déménagent et la valeur des propriétés chute, etc.). Il se pourrait aussi qu'il ya une troisième variable ou groupe de variables qui causent la criminalité et la pauvreté, mais qu'il ya, en fait, pas directelien de causalité entre la criminalité et la pauvreté (connu sous le nom de modèle de «cause commune»). Cela est particulièrement pernicieux, car, dans un modèle statistique, toutes les autres sources de variation sont regroupées dans le terme d'erreur de la variable dépendante. Par conséquent, la variable indépendante est corrélée avec (causée par) le terme d'erreur, ce qui entraîne un problème d' endogénéité . Ces problèmes sont très difficiles et ne doivent pas être pris à la légère. Néanmoins, même dans ce scénario, il est important de reconnaître qu'il existe une véritable causalité au travail.
En bref, quand vous voyez une corrélation, vous devriez penser qu'il y a probablement une sorte de causalité en jeu quelque part , mais que vous ne connaissez pas la nature de ce modèle causal.
la source
Je pensais que j'étais bien informé sur ces choses, mais ce n'est que le mois dernier que j'ai recherché «impliquer» dans le dictionnaire et découvert qu'il avait deux significations très différentes. 1. Suggérer et 2. Nécessité. (!) La corrélation nécessite rarement une causalité, mais elle peut certainement la suggérer. Comme le souligne @EpiGrad, il s'agit d'une condition nécessaire mais non suffisante pour établir le lien de causalité.
Avec le temps, on peut espérer trouver un juste milieu entre voir la corrélation comme la fin et tout à fait inutile. Et on prend en compte les connaissances spécifiques au sujet / domaine / contenu dans l'interprétation des résultats corrélationnels. Peu de personnes remettraient en question l'existence d'au moins un lien de causalité en voyant les résultats de publicité-vente que vous décrivez. Mais il est toujours bon de rester ouvert à d'autres possibilités, à d'autres variables qui pourraient au moins en partie expliquer la relation observée. Les lectures sur les variables confondantes, la validité et similaires portent leurs fruits. Par exemple, l'ancien Quasi-Expérimentation classique de Cook et Campbell a une bonne section sur la validité et les menaces à la validité.
la source
Un coefficient de corrélation, comme d'autres mesures d'association, est utile si vous voulez savoir dans quelle mesure la connaissance de la valeur de X est informative sur la valeur de Y. Cela diffère de savoir si si vous deviez définir X sur une valeur particulière, valeur de Y que vous obtiendriez (ce qui est l'essence d'une interprétation contrefactuelle de la causalité).
Néanmoins, dans de nombreux contextes (par exemple, la prédiction), des inférences basées sur la corrélation seraient utiles en elles-mêmes. Les dents jaunes sont corrélées avec le cancer du poumon (car elles sont toutes les deux probablement causées par le cancer). Il n'y a pas de causalité entre les deux: le blanchiment des dents ne guérirait pas le cancer du poumon. Mais si vous avez besoin d'un test de dépistage rapide pour savoir qui est susceptible d'avoir un cancer du poumon, la recherche de dents jaunes pourrait être une bonne première étape.
La question est de savoir si le coefficient de corrélation est la meilleure mesure d'association disponible, mais je pense que la question porte davantage sur la valeur de connaître l'association non causale.
En fait, non seulement la corrélation n'est pas une démonstration suffisante de la causalité, mais elle n'est pas non plus nécessaire. Deux variables peuvent être liées de façon causale mais ne présentent aucune corrélation dans un ensemble de données particulier (par exemple en raison d'un biais de sélection ou de facteurs de confusion).
la source
Permettez-moi d'être en désaccord avec cette phrase, la corrélation permet de connaître le niveau d'association entre 2 variables. Ensuite, il est utile lorsque vous essayez d'expliquer la relation entre ces variables. D'un autre côté, (comme Macro l'a écrit), la corrélation n'est pas une condition nécessaire à la causalité, cependant, est suffisante pour expliquer le niveau d'association. De plus, vous pouvez tester l'indépendance des variables, mais la corrélation peut vous donner une autre information utile, le coefficient de détermination.
Néanmoins, l'analyste doit connaître le domaine pour pouvoir expliquer le type de relation.
la source
Furthermore, you can test the independence of the variables, but correlation can give you another useful information, the coefficient of determination
Je pense que la collecte de données et la conception de l'étude peuvent également jouer un rôle dans la réponse à cette question. Vous ne concevrez pas une étude et ne collecterez pas un ensemble de données complètement sans rapport les unes avec les autres, même dans les études d'observation. Par conséquent, "la corrélation n'implique pas de causalité" peut être justifiée. Même s'il ne s'agit pas d'une relation causale, il peut y avoir une association associée.
Cependant, si vous parlez de deux ensembles de données complètement hors de propos, mais que vous voulez toujours utiliser la corrélation pour expliquer l'association et la causalité, cela peut être inapproprié. Par exemple, si deux ensembles de données ont tous une tendance à la baisse, par exemple les ventes de glaces et le nombre de mariages, le coefficient de corrélation peut être très élevé. Mais faut-il dire une association?
la source