J'essaie de comprendre la logique de séparation d dans les réseaux bayésiens causaux. Je sais comment fonctionne l'algorithme, mais je ne comprends pas exactement pourquoi le "flux d'informations" fonctionne comme indiqué dans l'algorithme.
Par exemple dans le graphique ci-dessus, supposons que l'on ne nous donne que X et qu'aucune autre variable n'a été observée. Ensuite selon les règles de la d-séparation, le flux d'information de X à D:
X influence A, qui est . C'est OK, puisque A cause X et si nous connaissons l'effet X, cela affecte notre croyance sur la cause A. Flux d'informations.
X influence B, qui est . C'est OK, puisque A a été modifié par nos connaissances sur X, le changement en A peut également influencer nos croyances sur sa cause, B.
X influence C, qui est . C'est correct parce que nous savons que B est biaisé par notre connaissance de son effet indirect, X, et puisque B est biaisé par X, cela influencera tous les effets directs et indirects de B. C est un effet direct de B et il est influencé par nos connaissances sur X.
Eh bien, jusqu'à présent, tout est OK pour moi car le flux d'informations se produit selon des relations de cause à effet intuitives. Mais je n'obtiens pas le comportement spécial des soi-disant "structures en V" ou "collisionneurs" dans ce schéma. Selon la théorie de la séparation d, B et D sont les causes courantes de C dans le graphique ci-dessus et il dit que si nous n'avons pas observé C ou l'un de ses descendants, les informations de flux de X sont bloquées en C. Eh bien, OK , mais ma question est pourquoi?
À partir des trois étapes ci-dessus, à partir de X, nous avons vu que C est influencé par nos connaissances sur X et le flux d'informations s'est produit en fonction de la relation de cause à effet. La théorie de la d-séparation dit que nous ne pouvons pas passer de C à D car C n'est pas observé. Mais je pense que puisque nous savons que C est biaisé et que D est une cause de C, D devrait également être affecté alors que la théorie dit le contraire. Il me manque clairement quelque chose dans ma façon de penser, mais je ne vois pas ce que c'est.
J'ai donc besoin d'une explication de la raison pour laquelle le flux d'informations bloqué en C, si C n'est pas observé.
la source
Réponses:
N'est-il pas intuitif que vous ne pouvez pas raisonner de cause en effet non observé à une autre cause? Si la pluie (B) et l'arroseur (D) sont des causes du sol mouillé (C), alors pouvez-vous affirmer que voir la pluie implique que le sol est probablement humide, et continuer à penser que l'arroseur doit être allumé depuis le sol est mouillé?! Bien sûr que non. Vous avez soutenu que le sol était humide à cause de la pluie - vous ne pouvez pas rechercher de causes supplémentaires!
Si vous observez le sol humide, bien sûr, la situation change. Maintenant, vous pouvez peut-être raisonner d'une cause à l'autre, comme l'explique Frank.
la source
Oublions X un instant et considérons juste le collisionneur de B, C et D. La raison pour laquelle la structure en V peut bloquer le chemin entre B et D est que, en général, si vous avez deux variables aléatoires indépendantes (B et D) qui affectent le même résultat (C), alors connaître le résultat peut vous permettre de tirer des conclusions sur la relation entre les variables aléatoires, permettant ainsi un flux d'informations.
Pour mieux comprendre cela, il pourrait être utile de jeter un œil au paradoxe de Berkson , qui décrit la même situation.
la source
Ensuite, l'écrou dur à craquer est la structure en V. Je voudrais illustrer la différence entre la probabilité d'une variable S conditionnée uniquement à l'observation de l'effet et l' influence de l'observation d'une autre variable D indépendante de S dans la même situation à l' aide d'un exemple fictif.
Disons que quelqu'un suit un cours, disons l'algèbre linéaire. S'il réussit, cela dépend principalement de la difficulté de l'examen. Notons l'événement de réussite du cours par P, passant comme 1 et 0 sinon; et la difficulté de l'examen comme D, difficile comme 1 et facile comme 0. Et quelque chose de non-sens peut également exercer une influence sur sa performance ou le résultat, disons que la singularité se produit et qu'il serait soumis à un lavage de cerveau par une machine et décide ensuite de ne pas passer l'examen. Nous notons cet événement par S, et sa probabilité est de 0,0001. Cela semble impossible mais par définition, sa chance ne doit pas être nulle.
Par conséquent, nous avons maintenant un graphique de la forme de la structure en v:
1) Si nous ne connaissons pas le résultat, nous pouvons calculer la probabilité que la singularité se produise étant donné que le cours est facile.
Comme vous pouvez le voir ci-dessus, peu importe que l'examen soit réussi ou non. Ce qui vient comme il se doit. Elle peut être considérée comme une probabilité marginale sur P.
Et nous pouvons également déterminer la probabilité que la singularité se produise étant donné que l'étudiant ne réussit pas l'examen:
Sachant que le gars ne réussit pas l'examen, nous pouvons deviner qu'il peut être soumis à un lavage de cerveau par une machine est 0,0001818, ce qui est un peu plus grand que lorsque nous ne le savons pas.
Puisse cette dérivation détaillée être de hlep.
la source