Après avoir montré que deux quantités sont corrélées, comment déduire que la relation est causale? Et en plus lequel cause quoi? Or, en théorie, on peut utiliser une «assignation aléatoire» (quel que soit le bon mot), pour rompre tout lien accidentel pouvant exister entre deux variables. Mais dans certains cas, cela n'est pas possible. Par exemple, considérez la fréquence à laquelle une personne fume, mesurée en cigarettes par semaine, par rapport à l'espérance de vie, mesurée en années. Nous pouvons choisir au hasard deux groupes de personnes. Faites fumer un groupe et l'autre non. Comme l'affectation est aléatoire, cela devrait rompre toute autre relation entre eux. Mais cela n'est bien sûr pas possible pour de nombreuses raisons différentes. Alors, quelles sont certaines des techniques qui peuvent être utilisées?
la source
Réponses:
Je pense que c'est une très bonne question. Je rencontre souvent ce problème et j'y réfléchis beaucoup. Je fais de la recherche en science médicale et l'idée en médecine est que rien n'est prouvé comme étant causal, jamais, jamais, jamais, jusqu'à ce qu'un essai clinique contrôlé randomisé, de préférence avec une pilule (ou toute autre exposition pouvant être à triple insu), ait prouvé un effet sur la réponse d'intérêt. C'est assez triste, car toutes les autres études sont considérées comme des études d'association, ce qui tend à réduire leur impact.
Hill et Richard Doll y ont pensé. Le premier a formulé les critères de causalité de Hill:
Cela a été formulé il y a une cinquantaine d'années, avant l'avènement des essais randomisés (qui pourraient ne pas intéresser votre domaine particulier), mais il convient de noter que les expériences n'ont pas joué un rôle crucial dans les critères de Hill.
J'aimerais penser que les données d'observation, si elles sont analysées avec des méthodes statistiques appropriées, permettent de déduire la causalité. (Bien sûr, cela dépend de nombreux facteurs.) Mais dans mon domaine, lorsqu'il s'agit de changer la gestion des patients, il est rare de voir des lignes directrices façonnées par autre chose que des essais randomisés et le prélude aux lignes directrices souligne souvent qu'une certaine causalité ne peut être obtenus dans des essais randomisés.
Maintenant, je sais que beaucoup d'entre vous ne seront pas d'accord avec moi. Je ne suis pas d'accord non plus avec moi-même. Mais cela pourrait ajouter à une discussion.
la source
Statistics fournit des outils pour détecter et modéliser les régularités dans les données. Le processus de modélisation est généralement guidé par la connaissance du sujet. Lorsque le modèle représente le mécanisme de l'objet, les propriétés statistiques du modèle estimé indiquent si les données sont en contradiction avec le mécanisme modélisé. Ensuite, la causalité (ou son absence) est déduite - et cela se fait sur le domaine de la matière .
Un exemple: supposons que vous ayez un échantillon aléatoire de deux variables et . La corrélation entre eux est importante et statistiquement significative.X y
Jusqu'à présent, pouvez-vous dire si provoque ? Je ne pense pas.X y
Ajoutez maintenant une connaissance du sujet aux données.
→
→
Cas A: les variables observées sont la longueur des pieds et la taille de chaussure préférée personnes de aiment acheter des chaussures qui correspondent à leur taille, donc la taille des pieds entraîne le choix de la taille de la chaussure (mais pas l'inverse). Cas B: les variables observées sont la taille et le poids des personnes adultes de ont tendance à être à la fois plus grands et plus lourds que les enfants, mais cela signifie-t-il que le poids cause la taille ou la taille cause le poids? La génétique, la nutrition, l'âge et d'autres facteurs sont à l'origine des deux.
la source
La question suppose actuellement que les quantités sont corrélées, ce qui implique que la personne qui détermine la corrélation doit avoir de bonnes raisons de croire que les variables partagent une relation linéaire.
La causalité de Granger pourrait être le meilleur outil pour déterminer les relations causales linéaires. Granger était un économiste qui a partagé un prix Nobel pour son travail sur la causalité linéaire.
Granger suggère que pour qu'un ensemble de variables soit considéré comme une cause de l'effet , deux conditions devraient être remplies:{X( i )t}ki = 1 Ouit
Pour trouver les informations partagées, on peut utiliser la régression (mais attention, des coefficients de régression significatifs n'impliquent pas des informations partagées en théorie - juste en pratique). Plus précisément, on veut comparer les résidus avec et sans les variables de cause. Considérez les variables comme des vecteurs de colonne, de sorte que est également un vecteur de colonne, et est un vecteur colonne. ( est appelé l'ordre ou le décalage dans le temps. Il y a des méthodes à choisir de façon optimale , mais je pense que les gens deviner juste le meilleurX= [X( 1 )t - 1,X( 1 )t - 2, … ,X( 1 )t - m,X( 2 )t - 1,X( 2 )t - 2, … ,X( 2 )t - m, … ,X( k )t - m]T Oui= [Ouit - 1,Ouit - 2, … ,Ouit - m]T m m m ou le baser sur d'autres contraintes.) Ensuite, les équations de régression d'intérêt sont
Pour déterminer si le contenait des informations sur on ferait un test F sur les variances de et .
Pour garantir que les informations ne sont pas prises en compte par une autre source, on recueillerait toutes les autres variables qui peuvent être prises en compte, par exemple , définir , et faites la régression et faites le même test F sur les résidus.Z( 1 )t, … ,Z( p )t Z= [Z( 1 )t - 1,Z( 1 )t - 2, … ,Z( p )t - m]T
Ce n'est qu'un croquis et je pense que de nombreux auteurs ont amélioré cette idée.
la source
Vous ne pouvez pas - du moins pas dans les statistiques.
Maxim: vous ne pouvez jamais savoir avec certitude que l'effet d'une variable est causé par une autre. La raison: vous ne pouvez jamais savoir s'il n'y a pas une autre variable que vous ne connaissez pas et les données que vous avez collectées ne peuvent probablement pas vous le dire.
Le fait est que la collecte de données n'est pas toujours suffisante lorsque les données sont statiques et que le phénomène est dynamique - comme le comportement humain. Là , la collecte de données lui - même peut fausser les résultats, tout comme la façon dont la physique des particules du fait de l' observation elle - même ne peut pas être retiré de l'équation.
la source