Une régression de sur n'a pas besoin d'être causale s'il y a des variables omises qui influencent à la fois et . Mais si ce n'est pour les variables omises et l'erreur de mesure, une régression est-elle causale? Autrement dit, si toutes les variables possibles sont incluses dans la régression?
regression
bias
causality
Esha
la source
la source
Réponses:
Non, ce n'est pas le cas, je vais vous montrer quelques contre-exemples.
Le premier est la causalité inverse . Considérons que le modèle causal estY→X , où X et Y sont des variables aléatoires gaussiennes standard. Alors E[Y|do(x)]=0 , car X ne provoque pas Y , mais E[Y|x] dépendra de X .
Le deuxième exemple est le contrôle des collisionneurs (voir ici ). Considérons le modèle causalX→Z←Y , c'est-à-dire que X ne cause pas Y et Z est une cause courante. Mais notez que, si vous exécutez une régression incluant Z , le coefficient de régression de X ne sera pas nul, car le conditionnement sur la cause commune induira une association entre Y et X (vous voudrez peut-être voir ici également l' analyse de chemin en présence de un collisionneur conditionné ).
Plus généralement, la régression deY sur X sera causale si les variables incluses dans la régression satisfont au critère de porte dérobée .
la source
En plus de l'importante réponse de Carlos Cinelli à cette question, il y a quelques autres raisons pour lesquelles les coefficients de régression pourraient ne pas être causaux.
Premièrement, une erreur de spécification du modèle peut rendre les paramètres non causaux. Ce n'est pas parce que vous avez toutes les variables pertinentes dans votre modèle que vous les avez ajustées correctement. À titre d'exemple très simple, considérons une variableX qui est distribuée symétriquement autour de 0. Supposons que votre variable de résultat Y soit affectée par X de telle sorte que E(Y∣X)=X2 . La régression de Y sur X (par opposition à X2 ) donnera alors un coefficient estimé pour X Y
Deuxièmement, et en ce qui concerne le thème de la causalité inverse, il existe également le risque que vous puissiez avoir un biais de sélection , c'est-à-dire que votre échantillon a été sélectionné de manière à ne pas être représentatif de la population à laquelle vous souhaitez tirer votre inférence. De plus, les données manquantes peuvent également introduire un biais si les données ne manquent pas complètement au hasard.
la source