Comment la causalité est-elle définie mathématiquement?

Quelle est la définition mathématique d'une relation causale entre deux variables aléatoires?

Mathématiquement, un modèle causal consiste en des relations fonctionnelles entre variables. Par exemple, considérons le système d'équations structurelles ci-dessous:

x = f_{x} (ϵ_{x}) y = f_{y} (x, ϵ_{y})

$x = f_x(\epsilon_{x})\\ y = f_y(x, \epsilon_{y})$

Cela signifie que détermine fonctionnellement la valeur de (si vous intervenez sur cela change les valeurs de ) mais pas l'inverse. Graphiquement, ceci est généralement représenté par , ce qui signifie que entre dans l'équation structurelle de y. En complément, vous pouvez également exprimer un modèle causal en termes de distributions conjointes de variables contrefactuelles, qui est mathématiquement équivalent aux modèles fonctionnels . $x$ $y$ $x$ $y$ $x \rightarrow y$ $x$

Étant donné un échantillon de la distribution conjointe de deux variables aléatoires X et Y, quand dirions-nous que X cause Y?

Parfois (ou la plupart du temps) vous ne connaissez pas la forme des équations structurelles , $f_{x}$ $f_y$ , ni même si ou . La seule information dont vous disposez est la distribution de probabilité conjointe (ou des échantillons de cette distribution). $x\rightarrow y$ $y \rightarrow x$ $p(y,x)$

Cela conduit à votre question: quand puis-je récupérer le sens de la causalité uniquement à partir des données? Ou, plus précisément, quand puis-je récupérer si $x$ entre dans l'équation structurelle de $y$ ou vice-versa, uniquement à partir des données?

Bien sûr, sans hypothèses fondamentalement non vérifiables sur le modèle causal, cela est impossible . Le problème est que plusieurs modèles de causalité différents peuvent entraîner la même distribution de probabilité conjointe des variables observées. L'exemple le plus courant est un système linéaire causal avec bruit gaussien.

Mais sous certaines hypothèses causales, cela pourrait être possible - et c'est sur cela que la littérature sur la découverte causale travaille. Si vous n'avez aucune exposition préalable à ce sujet, vous voudrez peut-être commencer par Elements of Causal Inference de Peters, Janzing et Scholkopf, ainsi que le chapitre 2 de Causality de Judea Pearl. Nous avons un sujet ici sur CV pour les références sur la découverte causale , mais nous n'avons pas encore beaucoup de références énumérées ici.

Par conséquent, il n'y a pas qu'une seule réponse à votre question, car cela dépend des hypothèses que l'on fait. L'article que vous mentionnez cite quelques exemples, comme l'hypothèse d'un modèle linéaire avec un bruit non gaussien . Ce cas est connu sous le nom de LINGAN (abréviation de modèle acyclique linéaire non gaussien), voici un exemple dans R:

library(pcalg)
set.seed(1234)
n <- 500
eps1 <- sign(rnorm(n)) * sqrt(abs(rnorm(n)))
eps2 <- runif(n) - 0.5
x2 <- 3 + eps2
x1 <- 0.9*x2 + 7 + eps1

# runs lingam
X <- cbind(x1, x2)
res <- lingam(X)
as(res, "amat") 

# Adjacency Matrix 'amat' (2 x 2) of type ‘pag’:
#     [,1]  [,2]
# [1,] .     .   
# [2,]  TRUE .

Notez ici que nous avons un modèle causal linéaire avec un bruit non gaussien où $x_2$ provoque $x_1$ et lingam récupère correctement la direction causale. Cependant, notez que cela dépend essentiellement des hypothèses LINGAM.

Pour le cas de l'article que vous citez, ils font cette hypothèse spécifique (voir leur "postulat"):

Si $x\rightarrow y$ , la longueur de description minimale du mécanisme mappant X à Y est indépendante de la valeur de X, tandis que la longueur de description minimale du mécanisme mappant Y à X dépend de la valeur de Y.

Notez qu'il s'agit d'une hypothèse. C'est ce que nous appellerions leur "condition d'identification". Essentiellement, le postulat impose des restrictions sur la distribution conjointe $p(x,y)$ . C'est-à-dire que le postulat dit que si $x \rightarrow y$ certaines restrictions s'appliquent aux données, et si $y \rightarrow x$ autres restrictions s'appliquent. Ces types de restrictions qui ont des implications testables (imposent des contraintes sur $p(y,x)$ ) sont ce qui permet de récupérer de manière directionnelle à partir de données d'observation.

Enfin, les résultats de la découverte causale sont encore très limités et dépendent d'hypothèses solides, soyez prudent lorsque vous les appliquez au contexte réel.

Carlos Cinelli
la source

Y a-t-il une chance que vous augmentiez votre réponse pour inclure en quelque sorte quelques exemples simples avec de fausses données s'il vous plaît? Par exemple, après avoir lu un peu d'éléments d'inférence causale et vu certaines des conférences de Peters, et un cadre de régression est couramment utilisé pour motiver la nécessité de comprendre le problème en détail (je ne touche même pas à leur travail ICP). J'ai l'impression (peut-être erronée) que dans vos efforts pour vous éloigner de la MRC, vos réponses omettent toutes les machines de modélisation réelles.

usεr11852 dit Réintégrer Monic

@ usεr11852 Je ne suis pas sûr de comprendre le contexte de vos questions, voulez-vous des exemples de découverte causale? Il y a plusieurs exemples dans le document même que Jane a fourni. De plus, je ne suis pas sûr de comprendre ce que vous entendez par «éviter la MRC et laisser de côté les machines de modélisation tangibles», quelles machines tangibles manquons-nous dans le contexte de découverte causale ici?

Carlos Cinelli

Toutes mes excuses pour la confusion, je m'en fous des exemples tirés d'articles. Je peux citer d'autres articles moi-même. (Par exemple, Lopez-Paz et al. CVPR 2017 à propos de leur coefficient de causalité neuronale) Ce qui m'importe, c'est un exemple numérique simple avec de fausses données qu'une personne exécute en R (ou votre langue préférée) et voyez ce que vous voulez dire. Si vous citez par exemple Peters 'et al. livre et ils ont de petits extraits de code qui sont extrêmement utiles (et utilisent parfois juste lm). Nous ne pouvons pas tous travailler autour des échantillons d'observation des jeux de données de Tuebingen pour avoir une idée de la découverte causale! :)

usεr11852 dit Réintégrer Monic

@ usεr11852 bien sûr, y compris un faux exemple est trivial, je peux en inclure un utilisant lingam dans R. Mais voudriez-vous expliquer ce que vous vouliez dire par "éviter les MRC et laisser de côté les machines de modélisation tangibles"?

Carlos Cinelli

@ usεr11852 ok merci pour les commentaires, je vais essayer d'inclure plus de code le cas échéant. Enfin, les résultats de la découverte causale sont encore très limités, donc les gens doivent être très prudents lors de leur application en fonction du contexte.

Carlos Cinelli

Il existe une variété d'approches pour formaliser la causalité (ce qui correspond à un désaccord philosophique important sur la causalité qui existe depuis des siècles). Un résultat populaire concerne les résultats potentiels. L'approche des résultats potentiels, appelée le modèle causal Rubin , suppose que pour chaque état de cause, il existe une variable aléatoire différente. Ainsi, $Y_1$ pourrait être la variable aléatoire des résultats possibles d'un essai clinique si un sujet prend le médicament à l'étude, et $Y_2$ pourrait être la variable aléatoire s'il prend le placebo. L'effet causal est la différence entre $Y_1$ et $Y_2$ . Si en fait $Y_1 = Y_2$ , on pourrait dire que le traitement n'a aucun effet. Sinon, nous pourrions dire que la condition de traitement entraîne le résultat.

Les relations causales entre les variables peuvent également être représentées par des graphiques acyliques directionnels , qui ont une saveur très différente mais se révèlent mathématiquement équivalents au modèle Rubin (Wasserman, 2004, section 17.8).

Wasserman, L. (2004). Toutes les statistiques: un cours concis en inférence statistique . New York, NY: Springer. ISBN 978-0-387-40272-7.

Kodiologue
la source

Merci. quel serait un test pour cela étant donné un ensemble d'échantillons de distribution conjointe?

Jane

Je lis arxiv.org/abs/1804.04622 . Je n'ai pas lu ses références. J'essaie de comprendre ce que l'on entend par causalité sur la base de données d'observation.

Jane

Y_{1}

$Y_1$

Y_{2}

$Y_2$

X

$X$

Y

$Y$

(x, y = x^{3} + ϵ)

$(x, y=x^3+\epsilon)$

ϵ

$\epsilon$

@Jane pour le cas d'observation (pour votre question), en général, vous ne pouvez pas déduire la direction de la causalité purement mathématique, au moins pour les deux cas variables. Pour plus de variables, sous des hypothèses supplémentaires (non vérifiables), vous pourriez faire une réclamation, mais la conclusion peut toujours être remise en question. Cette discussion est très longue en commentaires. :)

Vimal

Comment la causalité est-elle définie mathématiquement?

Réponses: