Comment vérifie-t-on la causalité?

9

Après avoir montré que deux quantités sont corrélées, comment déduire que la relation est causale? Et en plus lequel cause quoi? Or, en théorie, on peut utiliser une «assignation aléatoire» (quel que soit le bon mot), pour rompre tout lien accidentel pouvant exister entre deux variables. Mais dans certains cas, cela n'est pas possible. Par exemple, considérez la fréquence à laquelle une personne fume, mesurée en cigarettes par semaine, par rapport à l'espérance de vie, mesurée en années. Nous pouvons choisir au hasard deux groupes de personnes. Faites fumer un groupe et l'autre non. Comme l'affectation est aléatoire, cela devrait rompre toute autre relation entre eux. Mais cela n'est bien sûr pas possible pour de nombreuses raisons différentes. Alors, quelles sont certaines des techniques qui peuvent être utilisées?

Nicolas Bourbaki
la source
1
Grâce à des expériences soigneusement planifiées. ;-)
StatsStudent
@StatsStudent Quelles expériences? Prenons par exemple, cigarettes vs espérance de vie. Voulez-vous vraiment faire cette expérience, sous une sorte de condition de contrôle, si vous pensez qu'ils réduisent l'espérance de vie? Avec des expériences, il est facile de vérifier la causalité. Mais comment faire à partir d'un graphique de corrélation?
Nicolas Bourbaki
@NicolasBourbaki votre question commence en supposant que les quantités sont corrélées. Est-ce à dire que nous supposons également que les variables sont liées de manière linéaire, comme Y = A * X + B?
cantorhead
@NicolasBourbaki On pourrait définir et beaucoup pensent de comme "causant" . En revanche et ne sont pas corrélés. Oui(t+1)=cos(X(t))-1+nojeseXOuiX(t)Oui(t+1)
cantorhead
@NicolasBourbaki J'ai fourni une réponse en supposant la linéarité ci-dessous et je voudrais fournir une réponse plus générale, mais ce serait hors sujet si vous êtes uniquement intéressé par les relations linéaires.
cantorhead

Réponses:

5

Je pense que c'est une très bonne question. Je rencontre souvent ce problème et j'y réfléchis beaucoup. Je fais de la recherche en science médicale et l'idée en médecine est que rien n'est prouvé comme étant causal, jamais, jamais, jamais, jusqu'à ce qu'un essai clinique contrôlé randomisé, de préférence avec une pilule (ou toute autre exposition pouvant être à triple insu), ait prouvé un effet sur la réponse d'intérêt. C'est assez triste, car toutes les autres études sont considérées comme des études d'association, ce qui tend à réduire leur impact.

Hill et Richard Doll y ont pensé. Le premier a formulé les critères de causalité de Hill:

Les critères de Bradford Hill, également appelés critères de causalité de Hill, sont un groupe de conditions minimales nécessaires pour fournir des preuves adéquates d'une relation causale entre une incidence et une conséquence, établi par l'épidémiologiste anglais Sir Austin Bradford Hill (1897–1991) dans 1965.


Force : Une petite association ne signifie pas qu'il n'y a pas d'effet causal, bien que plus l'association est grande, plus elle est susceptible d'être causale. Cohérence : Des résultats cohérents observés par différentes personnes à différents endroits avec différents échantillons renforcent la probabilité d'un effet. Spécificité : La causalité est probable si une population très spécifique à un site spécifique et une maladie sans autre explication probable. Plus une association entre un facteur et un effet est spécifique, plus la probabilité d'une relation causale est grande. Temporalité : L'effet doit se produire après la cause (et s'il y a un retard attendu entre la cause et l'effet attendu, alors l'effet doit se produire après ce retard). Gradient biologique : une plus grande exposition devrait généralement conduire à une plus grande incidence de l'effet. Cependant, dans certains cas, la simple présence du facteur peut déclencher l'effet. Dans d'autres cas, une proportion inverse est observée: une exposition plus élevée entraîne une incidence plus faible. Plausibilité : Un mécanisme plausible entre la cause et l'effet est utile (mais Hill a noté que la connaissance du mécanisme est limitée par les connaissances actuelles). Cohérence : la cohérence entre les résultats épidémiologiques et les résultats de laboratoire augmente la probabilité d'un effet. Cependant, Hill a noté que "... le manque de telles preuves [de laboratoire] ne peut pas annuler l'effet épidémiologique sur les associations". Expérience : "Il est parfois possible de faire appel à des preuves expérimentales". Analogie : L'effet de facteurs similaires peut être considéré.


Cela a été formulé il y a une cinquantaine d'années, avant l'avènement des essais randomisés (qui pourraient ne pas intéresser votre domaine particulier), mais il convient de noter que les expériences n'ont pas joué un rôle crucial dans les critères de Hill.

J'aimerais penser que les données d'observation, si elles sont analysées avec des méthodes statistiques appropriées, permettent de déduire la causalité. (Bien sûr, cela dépend de nombreux facteurs.) Mais dans mon domaine, lorsqu'il s'agit de changer la gestion des patients, il est rare de voir des lignes directrices façonnées par autre chose que des essais randomisés et le prélude aux lignes directrices souligne souvent qu'une certaine causalité ne peut être obtenus dans des essais randomisés.

Maintenant, je sais que beaucoup d'entre vous ne seront pas d'accord avec moi. Je ne suis pas d'accord non plus avec moi-même. Mais cela pourrait ajouter à une discussion.

Adam Robinsson
la source
"(qui pourrait ne pas intéresser votre domaine particulier)" Mon intérêt est la géométrie algébrique et l'arithmétique. Ce qui est aussi éloigné des statistiques que l'on peut imaginer. Je ne le pose que par curiosité.
Nicolas Bourbaki
2

Statistics fournit des outils pour détecter et modéliser les régularités dans les données. Le processus de modélisation est généralement guidé par la connaissance du sujet. Lorsque le modèle représente le mécanisme de l'objet, les propriétés statistiques du modèle estimé indiquent si les données sont en contradiction avec le mécanisme modélisé. Ensuite, la causalité (ou son absence) est déduite - et cela se fait sur le domaine de la matière .

Un exemple: supposons que vous ayez un échantillon aléatoire de deux variables et . La corrélation entre eux est importante et statistiquement significative.Xy

Jusqu'à présent, pouvez-vous dire si provoque ? Je ne pense pas.Xy

Ajoutez maintenant une connaissance du sujet aux données.
Cas A: les variables observées sont la longueur des pieds et la taille de chaussure préférée personnes de aiment acheter des chaussures qui correspondent à leur taille, donc la taille des pieds entraîne le choix de la taille de la chaussure (mais pas l'inverse). Cas B: les variables observées sont la taille et le poids des personnes adultes de ont tendance à être à la fois plus grands et plus lourds que les enfants, mais cela signifie-t-il que le poids cause la taille ou la taille cause le poids? La génétique, la nutrition, l'âge et d'autres facteurs sont à l'origine des deux.


Richard Hardy
la source
0

La question suppose actuellement que les quantités sont corrélées, ce qui implique que la personne qui détermine la corrélation doit avoir de bonnes raisons de croire que les variables partagent une relation linéaire.

La causalité de Granger pourrait être le meilleur outil pour déterminer les relations causales linéaires. Granger était un économiste qui a partagé un prix Nobel pour son travail sur la causalité linéaire.

Granger suggère que pour qu'un ensemble de variables soit considéré comme une cause de l'effet , deux conditions devraient être remplies:{Xt(je)}je=1kOuit

  1. La cause doit se produire avant l'effet.
  2. La cause doit contenir des informations sur l'effet qui ne sont pas disponibles autrement.

Pour trouver les informations partagées, on peut utiliser la régression (mais attention, des coefficients de régression significatifs n'impliquent pas des informations partagées en théorie - juste en pratique). Plus précisément, on veut comparer les résidus avec et sans les variables de cause. Considérez les variables comme des vecteurs de colonne, de sorte que est également un vecteur de colonne, et est un vecteur colonne. ( est appelé l'ordre ou le décalage dans le temps. Il y a des méthodes à choisir de façon optimale , mais je pense que les gens deviner juste le meilleurX=[Xt-1(1),Xt-2(1),,Xt-m(1),Xt-1(2),Xt-2(2),,Xt-m(2),,Xt-m(k)]TOui=[Ouit-1,Ouit-2,,Ouit-m]Tmmmou le baser sur d'autres contraintes.) Ensuite, les équations de régression d'intérêt sont Pour déterminer si le contenait des informations sur on ferait un test F sur les variances de et .

Ouit=UNEOui+ϵtOuit=UNE[Oui,X]T+ϵt.
Xt-je(j)Ouitϵtϵt

Pour garantir que les informations ne sont pas prises en compte par une autre source, on recueillerait toutes les autres variables qui peuvent être prises en compte, par exemple , définir , et faites la régression et faites le même test F sur les résidus.Zt(1),,Zt(p)Z=[Zt-1(1),Zt-2(1),,Zt-m(p)]T

Ouit=UNE[Oui,Z]T+ϵtOuit=UNE[Oui,X,Z]T+ϵt.

Ce n'est qu'un croquis et je pense que de nombreux auteurs ont amélioré cette idée.

cantorhead
la source
Bienvenue sur le site, @cantorhead. Nous voulons que les (questions et) réponses ici soient autonomes. Il serait préférable que vous essayiez «d'être plus précis ici» et de ne pas simplement suggérer aux gens Google GC.
gung - Rétablir Monica
0

Vous ne pouvez pas - du moins pas dans les statistiques.

Maxim: vous ne pouvez jamais savoir avec certitude que l'effet d'une variable est causé par une autre. La raison: vous ne pouvez jamais savoir s'il n'y a pas une autre variable que vous ne connaissez pas et les données que vous avez collectées ne peuvent probablement pas vous le dire.

Le fait est que la collecte de données n'est pas toujours suffisante lorsque les données sont statiques et que le phénomène est dynamique - comme le comportement humain. Là , la collecte de données lui - même peut fausser les résultats, tout comme la façon dont la physique des particules du fait de l' observation elle - même ne peut pas être retiré de l'équation.

Marcos
la source