Soit et des variables aléatoires. est la moyenne conditionnelle de donné . Nous disons que n'est pas causalement lié à si ne dépend pas de , ce qui implique qu'il est égal à . Maintenant, allons de l'avant avec cette définition de la causalité pendant une seconde. Par la loi des attentes itérées, . Cela signifie que si ne dépend pas de , s'il est égal à , alors .
En d'autres termes:
Si et ne sont pas liés de façon causale, alors et sont pas corrélés! - Cela n'a aucun sens et je sais que cela doit être faux. Ai-je mal défini la causalité? Qu'est ce que j'ai mal fait?
En économétrie, nous supposons généralement que . Donc est équivalent à . La logique s'applique également dans ce scénario spécifique.
Réponses:
Vous avez mal défini la causalité, oui. Vous avez probablement entendu le dicton «la corrélation n'est pas un lien de causalité». Vous avez essentiellement défini la causalité comme une corrélation. Mais le problème est pire que cela. La causalité n'est pas du tout un concept statistique ou probabiliste, du moins comme ces sujets sont normalement enseignés. Il n'y a pas de définition statistique ou probabiliste de la causalité: rien impliquant des attentes conditionnelles ou des distributions conditionnelles ou similaires. Il est cependant difficile de saisir ce fait dans les cours de statistique ou d'économétrie.
Malheureusement, nous avons tendance à faire un meilleur travail en disant ce que la causalité n'est pas que ce qu'est la causalité. La causalité vient toujours et partout de la théorie, du raisonnement a priori, des hypothèses. Vous avez mentionné l'économétrie. Si vous avez appris les variables instrumentales avec compétence, alors vous savez que les effets causaux ne peuvent être mesurés que si vous avez une «restriction d'exclusion». Et vous savez que les restrictions d'exclusion viennent toujours de la théorie.
Vous avez dit que vous vouliez des mathématiques, cependant. Le gars que vous voulez lire est Judea Pearl . Ce n'est pas des mathématiques faciles, et les mathématiques s'égarent parfois dans la philosophie, mais c'est parce que la causalité est un sujet difficile. Voici une page avec plus de liens sur le sujet. Voici un livre en ligne gratuit que je viens de découvrir. Enfin, voici une question précédente où j'ai donné une réponse que vous pourriez trouver utile.
la source
C'est faux. Les relations causales concernent les dépendances fonctionnelles / structurelles, pas les dépendances statistiques / associatives. Vous devriez jeter un œil ici.
Oui, vous l'avez mal défini, vous pouvez vérifier les livres / références d'inférence causale ici . Plus formellement, dans un modèle d'équation structurelle, l'effet causal de sur la distribution de , que nous pouvons désigner par --- c'est-à-dire, comment changer affecte la distribution de - - est mathématiquement définie comme la distribution de probabilité induite par le modèle d'équation structurelle modifié où l'équation pour est substituée à .X Y P(Y|do(X=x)) X Y X X=x
Par exemple, supposons que votre modèle causal soit défini par les équations structurelles suivantes:
Lorsque les perturbations sont mutuellement indépendantes et ont une certaine distribution de probabilité. Cela correspond au DAG:
Alors est la distribution de probabilité de induite par les équations structurelles modifiées:P(Y|do(X=x)) Y
Ce qui correspond au DAG mutilé:
L'effet causal moyen serait simplement l'attente de utilisant le cdf causal .Y P(Y|do(X=x))
Il s'agit de la définition mathématique, si vous pouvez identifier l'effet avec des données d'observation dépend de si vous pouvez ré-exprimer en termes de distribution d'observation sans l' opérateur .P(Y|do(X=x)) do()
la source
Un contre-exemple
Le problème ne semble pas être cette indépendance moyenne (la condition où ) implique que et sont pas corrélés. Si et ne sont pas corrélés, il n'est généralement pas vrai qu'ils sont indépendants de la moyenne. Cela ne semble donc pas problématique pour l'instant.E[Y|X]=E[Y] Y X X Y
Cependant, supposons que vous ayez une relation (que nous pouvons appeler causale) définie comme , où est distribué avec une distribution normale standard et est distribué avec une distribution de Rademacher de sorte que ou , chacun avec la probabilité ( voir cet article Wikipedia ). Notez alors que . Sous votre définition, cette relation ne serait pas Causa encore si dépend clairement .Y=WX X W W=1 −1 1/2 E[Y|X]=E[Y] Y X
Un exemple d'une façon formelle de penser la causalité
Pour vous donner peut-être une façon plus claire et plus mathématique de considérer la causalité, prenez l'exemple suivant. (J'emprunte cet exemple au livre "Mostly Harmless Econometrics.") Supposons que vous vouliez analyser l'effet de l'hospitalisation sur la santé. Définissez comme une mesure de la santé de l'individu etYi i Di∈{0,1} pour indiquer si cette personne a été hospitalisée ou non. Dans notre première tentative, supposons que nous examinions la différence moyenne de santé des deux types d'individus:
Définissez le résultat potentiel d'un individu comme suit: est la santé de l'individu s'il n'était pas allé à l'hôpital, qu'il y soit allé ou non (nous voulons penser aux contrefactuels) et de la même manière, est la santé de l'individu est qu'il est allé. Maintenant, écrivez le résultat réel observé en termes de potentiels, Ainsi, . Maintenant, nous pouvons définir l'effet causal comme
la source
J'ai parcouru votre preuve, et je pense qu'elle est correcte (au moins, j'ai vérifié toutes les étapes pour une définition discrète de ). Si , alors . En outre, cela fonctionne dans l'autre sens.E() E(Y|X)=E(Y) E(X⋅Y)=E(X)⋅E(Y)
Cependant, je ne vois pas où est votre problème?
Exemple: considérez le tableau suivant:
Les valeurs sont des probabilités, c'est-à-dire etc. Les probabilités marginales pour Y sont 0,25, 0,5, 0,25 et 0,5 et 0,5 pour X.P(X=1∧Y=0)=0.5
Il est facile de voir que et que et donc , par conséquent, selon votre définition, les variables n'ont pas de lien de causalité.E(Y)=E(X)=E(X⋅Y)=0 E(Y|X=−1)=E(Y|X=1)=0 E(Y|X)=E(X)
La covariance est nulle car .E(X⋅Y)=E(X)⋅E(Y)
Cependant, les deux variables ne sont pas indépendantes, car .P(X=1∧Y=0)=0.5≠0.5⋅0.5=P(X=1)⋅P(Y=0)
la source