Comment la causalité est-elle définie mathématiquement?

16

Quelle est la définition mathématique d'une relation causale entre deux variables aléatoires?

Étant donné un échantillon de la distribution conjointe de deux variables aléatoires et , quand dirions-nous que cause ?XYXY

Pour le contexte, je lis cet article sur la découverte causale .

Jeanne
la source
2
Pour autant que je puisse voir, la causalité est un concept scientifique et non mathématique. Pouvez-vous modifier pour clarifier?
mdewey
2
@mdewey, je ne suis pas d'accord. La causalité peut être encaissée en termes entièrement formels. Voir par exemple ma réponse.
Kodiologist

Réponses:

9

Quelle est la définition mathématique d'une relation causale entre deux variables aléatoires?

Mathématiquement, un modèle causal consiste en des relations fonctionnelles entre variables. Par exemple, considérons le système d'équations structurelles ci-dessous:

x=fx(ϵx)y=fy(x,ϵy)

Cela signifie que détermine fonctionnellement la valeur de (si vous intervenez sur cela change les valeurs de ) mais pas l'inverse. Graphiquement, ceci est généralement représenté par , ce qui signifie que entre dans l'équation structurelle de y. En complément, vous pouvez également exprimer un modèle causal en termes de distributions conjointes de variables contrefactuelles, qui est mathématiquement équivalent aux modèles fonctionnels .xyxyxyx

Étant donné un échantillon de la distribution conjointe de deux variables aléatoires X et Y, quand dirions-nous que X cause Y?

Parfois (ou la plupart du temps) vous ne connaissez pas la forme des équations structurelles ,fxfy xyyxp(y,x) , ni même si ou . La seule information dont vous disposez est la distribution de probabilité conjointe (ou des échantillons de cette distribution).xyyxp(y,x)

Cela conduit à votre question: quand puis-je récupérer le sens de la causalité uniquement à partir des données? Ou, plus précisément, quand puis-je récupérer si x entre dans l'équation structurelle de y ou vice-versa, uniquement à partir des données?

Bien sûr, sans hypothèses fondamentalement non vérifiables sur le modèle causal, cela est impossible . Le problème est que plusieurs modèles de causalité différents peuvent entraîner la même distribution de probabilité conjointe des variables observées. L'exemple le plus courant est un système linéaire causal avec bruit gaussien.

Mais sous certaines hypothèses causales, cela pourrait être possible - et c'est sur cela que la littérature sur la découverte causale travaille. Si vous n'avez aucune exposition préalable à ce sujet, vous voudrez peut-être commencer par Elements of Causal Inference de Peters, Janzing et Scholkopf, ainsi que le chapitre 2 de Causality de Judea Pearl. Nous avons un sujet ici sur CV pour les références sur la découverte causale , mais nous n'avons pas encore beaucoup de références énumérées ici.

Par conséquent, il n'y a pas qu'une seule réponse à votre question, car cela dépend des hypothèses que l'on fait. L'article que vous mentionnez cite quelques exemples, comme l'hypothèse d'un modèle linéaire avec un bruit non gaussien . Ce cas est connu sous le nom de LINGAN (abréviation de modèle acyclique linéaire non gaussien), voici un exemple dans R:

library(pcalg)
set.seed(1234)
n <- 500
eps1 <- sign(rnorm(n)) * sqrt(abs(rnorm(n)))
eps2 <- runif(n) - 0.5
x2 <- 3 + eps2
x1 <- 0.9*x2 + 7 + eps1

# runs lingam
X <- cbind(x1, x2)
res <- lingam(X)
as(res, "amat") 

# Adjacency Matrix 'amat' (2 x 2) of type ‘pag’:
#     [,1]  [,2]
# [1,] .     .   
# [2,]  TRUE .     

Notez ici que nous avons un modèle causal linéaire avec un bruit non gaussien où x2 provoque x1 et lingam récupère correctement la direction causale. Cependant, notez que cela dépend essentiellement des hypothèses LINGAM.

Pour le cas de l'article que vous citez, ils font cette hypothèse spécifique (voir leur "postulat"):

Si xy , la longueur de description minimale du mécanisme mappant X à Y est indépendante de la valeur de X, tandis que la longueur de description minimale du mécanisme mappant Y à X dépend de la valeur de Y.

Notez qu'il s'agit d'une hypothèse. C'est ce que nous appellerions leur "condition d'identification". Essentiellement, le postulat impose des restrictions sur la distribution conjointe p(x,y) . C'est-à-dire que le postulat dit que si xy certaines restrictions s'appliquent aux données, et si yx autres restrictions s'appliquent. Ces types de restrictions qui ont des implications testables (imposent des contraintes sur p(y,x) ) sont ce qui permet de récupérer de manière directionnelle à partir de données d'observation.

Enfin, les résultats de la découverte causale sont encore très limités et dépendent d'hypothèses solides, soyez prudent lorsque vous les appliquez au contexte réel.

Carlos Cinelli
la source
1
Y a-t-il une chance que vous augmentiez votre réponse pour inclure en quelque sorte quelques exemples simples avec de fausses données s'il vous plaît? Par exemple, après avoir lu un peu d'éléments d'inférence causale et vu certaines des conférences de Peters, et un cadre de régression est couramment utilisé pour motiver la nécessité de comprendre le problème en détail (je ne touche même pas à leur travail ICP). J'ai l'impression (peut-être erronée) que dans vos efforts pour vous éloigner de la MRC, vos réponses omettent toutes les machines de modélisation réelles.
usεr11852 dit Réintégrer Monic
1
@ usεr11852 Je ne suis pas sûr de comprendre le contexte de vos questions, voulez-vous des exemples de découverte causale? Il y a plusieurs exemples dans le document même que Jane a fourni. De plus, je ne suis pas sûr de comprendre ce que vous entendez par «éviter la MRC et laisser de côté les machines de modélisation tangibles», quelles machines tangibles manquons-nous dans le contexte de découverte causale ici?
Carlos Cinelli
1
Toutes mes excuses pour la confusion, je m'en fous des exemples tirés d'articles. Je peux citer d'autres articles moi-même. (Par exemple, Lopez-Paz et al. CVPR 2017 à propos de leur coefficient de causalité neuronale) Ce qui m'importe, c'est un exemple numérique simple avec de fausses données qu'une personne exécute en R (ou votre langue préférée) et voyez ce que vous voulez dire. Si vous citez par exemple Peters 'et al. livre et ils ont de petits extraits de code qui sont extrêmement utiles (et utilisent parfois juste lm). Nous ne pouvons pas tous travailler autour des échantillons d'observation des jeux de données de Tuebingen pour avoir une idée de la découverte causale! :)
usεr11852 dit Réintégrer Monic
1
@ usεr11852 bien sûr, y compris un faux exemple est trivial, je peux en inclure un utilisant lingam dans R. Mais voudriez-vous expliquer ce que vous vouliez dire par "éviter les MRC et laisser de côté les machines de modélisation tangibles"?
Carlos Cinelli
2
@ usεr11852 ok merci pour les commentaires, je vais essayer d'inclure plus de code le cas échéant. Enfin, les résultats de la découverte causale sont encore très limités, donc les gens doivent être très prudents lors de leur application en fonction du contexte.
Carlos Cinelli
4

Il existe une variété d'approches pour formaliser la causalité (ce qui correspond à un désaccord philosophique important sur la causalité qui existe depuis des siècles). Un résultat populaire concerne les résultats potentiels. L'approche des résultats potentiels, appelée le modèle causal Rubin , suppose que pour chaque état de cause, il existe une variable aléatoire différente. Ainsi, Y1 pourrait être la variable aléatoire des résultats possibles d'un essai clinique si un sujet prend le médicament à l'étude, et Y2 pourrait être la variable aléatoire s'il prend le placebo. L'effet causal est la différence entre Y1 et Y2 . Si en fait Y1=Y2 , on pourrait dire que le traitement n'a aucun effet. Sinon, nous pourrions dire que la condition de traitement entraîne le résultat.

Les relations causales entre les variables peuvent également être représentées par des graphiques acyliques directionnels , qui ont une saveur très différente mais se révèlent mathématiquement équivalents au modèle Rubin (Wasserman, 2004, section 17.8).

Wasserman, L. (2004). Toutes les statistiques: un cours concis en inférence statistique . New York, NY: Springer. ISBN 978-0-387-40272-7.

Kodiologue
la source
Merci. quel serait un test pour cela étant donné un ensemble d'échantillons de distribution conjointe?
Jane
3
Je lis arxiv.org/abs/1804.04622 . Je n'ai pas lu ses références. J'essaie de comprendre ce que l'on entend par causalité sur la base de données d'observation.
Jane
1
Y1Y2XY
2
(x,y=x3+ϵ)ϵ
2
@Jane pour le cas d'observation (pour votre question), en général, vous ne pouvez pas déduire la direction de la causalité purement mathématique, au moins pour les deux cas variables. Pour plus de variables, sous des hypothèses supplémentaires (non vérifiables), vous pourriez faire une réclamation, mais la conclusion peut toujours être remise en question. Cette discussion est très longue en commentaires. :)
Vimal
0

XY

  1. XY

Une intervention est une modification chirurgicale d'une variable qui n'affecte pas les variables dont elle dépend. Les interventions ont été rigoureusement formalisées dans les équations structurelles et les modèles graphiques causaux, mais pour autant que je sache, il n'y a pas de définition indépendante d'une classe de modèle particulière.

  1. YX

XY

Dans les approches modernes de la causalité, l'intervention est considérée comme l'objet primitif qui définit les relations causales (définition 1). À mon avis, cependant, l'intervention est le reflet de la dynamique de simulation et est nécessairement compatible avec celle-ci.

zenna
la source