Les graphiques acycliques dirigés (DAG; par exemple, Groenland, et al, 1999) font partie d'un formalisme d'inférence causale à partir de l'interprétation contrefactuelle du camp de causalité. Dans ces graphiques, la présence d'une flèche de la variable à la variable B affirme que la variable A provoque directement (une certaine variation du risque de) la variable B , et l'absence d'une telle flèche affirme que la variable A ne provoque pas directement (une certaine variation du risque de) la variable B .
À titre d'exemple, l'énoncé «l'exposition à la fumée de tabac provoque directement une modification du risque de mésothéliome» est représenté par la flèche noire de «exposition à la fumée de tabac» à «mésothéliome» dans le diagramme causal non DAG ci-dessous.
De même, l'énoncé «l'exposition à l'amiante provoque directement un changement du risque de mésothéliome» est représenté par la flèche noire de «exposition à l'amiante» à «mésothéliome» dans le graphique causal non DAG ci-dessous.
J'utilise le terme pas un DAG pour décrire le graphique causal ci-dessous en raison de la flèche rouge, que j'ai l'intention d'affirmer quelque chose comme "l'exposition à l'amiante provoque un changement dans l'effet causal direct de l'exposition à la fumée de tabac sur le risque de mésothéliome" (l'amiante fait physique dommages aux cellules du poumon qui, en plus de provoquer directement une modification du risque de mésothéliome, rendent également les cellules plus sensibles aux effets cancérigènes de l'exposition à la fumée de tabac, de sorte que l'exposition à l'amiante et au tabac entraîne une augmentation de risque qui est supérieur à la somme des deux risques distincts), et cela ne correspond pas tout à fait à la signification formelle des flèches causales dans les DAG que j'ai décrites au début de ma question (c'est-à-dire parce que la flèche rouge ne se termine pas par une variable).
Comment représenter correctement les effets d'interaction dans le formalisme visuel d'un DAG?
Les références
Greenland, S., Pearl, J., et Robins, JM (1999). Diagrammes de causalité pour la recherche épidémiologique . Epidemiology , 10 (1): 37–48.
la source
Réponses:
La théorie de Pearl sur la causalité est totalement non paramétrique . Les interactions ne sont pas explicitées à cause de cela, ni dans le graphique ni dans les équations structurelles qu'il représente. Cependant, les effets causaux peuvent varier (énormément) par hypothèse.
Si un effet est identifié et que vous l'estimez à partir de données non paramétriques, vous obtenez une distribution complète des effets causaux (au lieu, disons, d'un seul paramètre). En conséquence, vous pouvez évaluer l'effet causal de l'exposition au tabac conditionnellement à une exposition à l'amiante de manière non paramétrique pour voir si elle change, sans vous engager dans une forme fonctionnelle.
Jetons un œil aux équations structurelles de votre cas, qui correspondent à votre "DAG" dépouillé de la flèche rouge:
Mésothéliome = (tabac, amiante, )F1 ϵm
Tabac = ( )F2 ϵt
Amiante = ( )F3 ϵune
où les sont supposés être indépendants en raison de flèches pointillées manquantes entre eux.ϵ
Nous avons laissé les fonctions respectives f () et les distributions des erreurs non spécifiées, sauf pour dire que ces dernières sont indépendantes. Néanmoins, nous pouvons appliquer la théorie de Pearl et déclarer immédiatement que les effets causals de l'exposition au tabac et à l'amiante sur le mésothéliome sont identifiés . Cela signifie que si nous avions une infinité d'observations de ce processus, nous pourrions mesurer exactement l'effet du réglage des expositions à différents niveaux en voyant simplement les incidences du mésothéliome chez les individus avec différents niveaux d'exposition. Nous pourrions donc déduire la causalité sans faire une expérience réelle. Cela s'explique par le fait qu'il n'existe aucun chemin d'accès secondaire entre les variables d'exposition et la variable de résultat.
Vous obtiendrez donc
P (mésothéliome | do (tabac = t)) = P (mésothéliome | tabac = t)
La même logique s'applique à l'effet causal de l'amiante, ce qui vous permet d'évaluer simplement:
P (mésothéliome | tabac = t, amiante = a) - P (mésothéliome | tabac = t ', amiante = a)
en comparaison à
P (mésothéliome | Tabac = t, amiante = a ') - P (mésothéliome | Tabac = t', amiante = a ')
pour toutes les valeurs pertinentes de t et a afin d'estimer les effets d'interaction.
Dans votre exemple concret, supposons que la variable de résultat est une variable de Bernoulli - vous pouvez avoir un mésothéliome ou non - et qu'une personne a été exposée à un niveau d'amiante très élevé a. Ensuite, il est très probable qu'il souffre de mésothéliome; en conséquence, l'effet de l'augmentation de l'exposition au tabac sera très faible. D'un autre côté, si les niveaux d'amiante a 'sont très bas, l'augmentation de l'exposition au tabac aura un effet plus important. Cela constituerait une interaction entre les effets du tabac et de l'amiante.
Bien sûr, l'estimation non paramétrique peut être extrêmement exigeante et bruyante avec des données finies et beaucoup de valeurs t et a différentes, vous pourriez donc penser à supposer une certaine structure dans f (). Mais fondamentalement, vous pouvez le faire sans cela.
la source
La réponse simple est que vous le faites déjà. Les DAG conventionnels ne représentent pas seulement les effets principaux mais plutôt la combinaison des effets principaux et des interactions. Une fois que vous avez dessiné votre DAG, vous supposez déjà que toutes les variables pointant vers le même résultat peuvent modifier l'effet des autres pointant vers le même résultat. Il s'agit d'une hypothèse de modélisation, distincte du DAG, qui suppose l'absence d'interaction.
De plus, l'interaction peut se produire sans inclure un terme d'interaction explicite dans votre modèle. Si vous incluez les effets principaux uniquement dans un modèle pour le rapport de risque de Y par rapport au traitement T et la covariable Q, l'estimation de la différence de risque différera en fonction du niveau de Q. Afin de tenir compte de toutes ces possibilités de manière non paramétrique, les DAG font seules les hypothèses les plus faibles sur la forme fonctionnelle des relations entre les variables, et supposer qu'aucune interaction n'est une hypothèse plus forte que celle permettant une interaction. Cela revient à dire que les DAG permettent déjà une interaction sans aucun ajustement. Voir Vanderweele (2009) pour une discussion sur l'interaction qui utilise les DAG conventionnels mais permet l'interaction.
Bollen et Paxton (1998) et Muthén et Asparouhov (2015) démontrent tous deux des interactions dans des modèles de chemin avec des variables latentes, mais ces interactions se réfèrent explicitement aux termes du produit dans un modèle paramétrique plutôt qu'aux interactions au sens large. J'ai également vu des diagrammes similaires au vôtre où la flèche causale pointe vers un chemin, mais à proprement parler un chemin n'est pas une quantité unique sur laquelle une variable peut avoir un effet causal (même si c'est peut-être ainsi que nous voulons interpréter nos modèles) ; il représente simplement la présence d'un effet causal, pas son ampleur.
Bollen, KA et Paxton, P. (1998). Interactions des variables latentes dans les modèles d'équations structurelles. Structural Equation Modeling: A Multidisciplinary Journal, 5 (3), 267-293.
Muthén, B. et Asparouhov, T. (2015). Interactions variables latentes.
VanderWeele, TJ (2009). Sur la distinction entre interaction et modification d'effet. Epidemiology, 20 (6), 863-871.
la source