Comment défini lorsque

11

Disons que Y est une variable aléatoire continue et X est une variable discrète.

Pr(X=x|Y=y)=Pr(X=x)Pr(Y=y|X=x)Pr(Y=y)

Comme nous le savons, Pr(Y=y)=0 car Y est une variable aléatoire continue. Et sur cette base, je suis tenté de conclure que la probabilité Pr(X=x|Y=y) n'est pas définie.

Cependant, Wikipedia affirme ici qu'il est en fait défini comme suit:

Pr(X=x|Y=y)=Pr(X=x)fY|X=x(y)fY(y)

Question: Avez-vous une idée de comment Wikipédia a réussi à définir cette probabilité?


Ma tentative

Voici ma tentative pour obtenir ce résultat Wikipedia en termes de limites:

Pr(X=x|Y=y)=Pr(X=x)Pr(Y=y|X=x)Pr(Y=y)=limd0Pr(X=x)(d×fY|X=x(y))(d×fY(y))=limd0Pr(X=x)(d×fY|X=x(y))(d×fY(y))=Pr(X=x)fY|X=x(y)fY(y)

Maintenant, Pr(X=x|Y=y) semble être défini comme Pr(X=x)fY|X=x(y)fY(y) , ce qui correspond cette revendication Wikipédia.

Est-ce ainsi que Wikipédia l'a fait?

Mais j'ai toujours l'impression d'abuser du calcul ici. Je pense donc que Pr(X=x|Y=y) n'est pas défini, mais dans la limite que nous nous rapprochons le plus possible pour définir Pr(Y=y) et Pr(Y=y|X=x) , mais pas visuellement, alors Pr(X=x|Y=y) est défini.

Mais je suis en grande partie incertain de beaucoup de choses, y compris le truc des limites que j'ai fait là-bas, j'ai l'impression que peut-être je ne comprends même pas complètement le sens de ce que j'ai fait.

Homme des cavernes
la source
1
En effet, Pr (X = x) = 0 mais la densité de X dans xf (x) peut ne pas être égale à 0. Ne devriez-vous pas utiliser une étiquette «auto-étude» ??
Lil'Lobster
2
@Lil Pour autant que je sache, la balise «d'auto-apprentissage» sert à résoudre les devoirs. Je ne fais pas ça.
homme des cavernes
1
La page Wikipedia fait référence à la dérivation: en.wikipedia.org/wiki/Bayes'_theorem#Derivation
Ytsen de Boer
3
Je crains que votre dérivation n'ait aucune justification mathématique comme pour tout lorsque est continu. P(Y=y)=0yYY
Xi'an

Réponses:

10

La distribution de probabilité conditionnelle , , , est formellement définie comme une solution de l'équation où désigne le -algèbre associée à la distribution de . L'une de ces solutions est fournie par la formule de Bayes (1763) comme indiqué dans Wikipedia :P(X=x|Y=y)xXyY

P(X=x,YA)=AP(X=x|Y=y)fY(y)dyAσ(Y)
σ(Y)σY
P(X=x|Y=y)=P(X=x)fY|X=x(y)fY(y)xX, yY
bien que les versions définies arbitrairement sur un ensemble de mesures nulles dans soient également valides.σ(Y)

Le concept de probabilité conditionnelle par rapport à une hypothèse isolée dont la probabilité est égale à 0 est inadmissible. Car nous ne pouvons obtenir une distribution de probabilité pour [la latitude] sur le cercle méridien que si nous considérons ce cercle comme un élément de la décomposition de toute la surface sphérique en cercles méridiens avec les pôles donnés -  Andrei Kolmogorov

Comme le montre le paradoxe de Borel-Kolmogorov , étant donné une valeur spécifique potentiellement prise , la distribution de probabilité conditionnelle n'a pas de signification précise, pas seulement parce que l'événement est de mesure zéro, mais aussi parce que cet événement peut être interprété comme mesurable par rapport à une plage infinie d' algèbres .y0YP(X=x|Y=y0){ω;Y(ω)=y0}σ

Remarque: Voici une introduction encore plus formelle, tirée d'un examen de la théorie des probabilités sur le blog de Terry Tao :

Définition 9 (Disintegration) Soit une variable aléatoire avec une plage . Une désintégration de l'espace d'échantillonnage sous-jacent par rapport à est un sous-ensemble de de pleine mesure dans (donc presque sûrement), avec attribution d'une mesure de probabilité sur le sous-espace of pour chaque , qui est mesurable en ce sens que la carteYR(R,(μy)yR)ΩYRRμYYRP(|Y=y)Ωy:={ωΩ:Y(ω)=y}ΩyRyP(F|Y=y)est mesurable pour chaque événement , et tel que pour tous ces événements, où est la variable aléatoire (presque sûrement définie) définie pour être égale à chaque fois que .F

P(F)=EP(F|Y)
P(F|Y)P(F|Y=y)Y=y

Étant donné une telle désintégration, nous pouvons ensuite conditionner à l'événement pour tout en remplaçant par le sous-espace (avec l' algèbre induite ), mais en remplaçant la mesure de probabilité sous-jacente avec . On peut ainsi conditionner des événements (inconditionnels) et des variables aléatoires à cet événement pour créer des événements conditionnés et des variables aléatoires sur l'espace conditionné, donnant lieu à des probabilités conditionnellesY=yyRΩΩyσPP(|Y=y)FX(F|Y=y)(X|Y=y)P(F|Y=y)(qui est cohérent avec la notation existante pour cette expression) et les attentes conditionnelles (en supposant une intégrabilité absolue dans cet espace conditionné). Nous définissons ensuite pour être la variable aléatoire (presque sûrement définie) définie pour être égale à chaque fois que .E(X|Y=y)E(X|Y)E(X|Y=y)Y=y

Xi'an
la source
1
Déjà +1, mais ... peut-être que c'est taquin, mais ne serait-il pas plus précis de se référer au théorème de Bayes comme une formule de Bayes / Laplace ..?
Tim
2
@Tim: merci, mais je ne veux pas paraître trop chauvin! Et c'est un fait que la formule de Bayes pour discret (binomial) et continu (bêta) apparaît dans l'article de Bayes (1763). Bien sûr, Laplace a fixé le résultat dans une généralité beaucoup plus large. XY
Xi'an
4

Je vais vous donner un aperçu de la façon dont les pièces peuvent s'emboîter lorsque est continu et est discret.YX

La densité mixte mixte:

fXY(x,y)

Densité et probabilité marginales:

fY(y)=xXfXY(x,y)

P(X=x)=fXY(x,y)dy

Densité et probabilité conditionnelles:

fYX(yX=x)=fXY(x,y)P(X=x)

P(X=xY=y)=fXY(x,y)fY(y)

Règle de Bayes:

fYX(yX=x)=P(X=xY=y)fY(y)P(X=x)

P(X=xY=y)=fYX(yX=x)P(X=x)fY(y)

Bien sûr, la façon moderne et rigoureuse de gérer la probabilité passe par la théorie des mesures. Pour une définition précise, voir la réponse de Xi'an.

Matthew Gunn
la source
2

Notez que l'article Wikipedia utilise en fait la définition suivante: Autrement dit, il traite le résultat comme une densité et non comme une probabilité telle que vous l'avez. Je dirais donc que vous avez raison: n'est pas défini lorsque est continu et discret, c'est pourquoi nous considérons plutôt uniquement les densités de probabilité sur dans ce cas.

fX(x|Y=y)=P(Y=y|X=x)fX(x)p(Y=y)
P(X=x|Y=y)XYX

Edit: En raison d'une confusion sur la notation (voir les commentaires), ce qui précède se réfère en fait à la situation opposée à ce que l'homme des cavernes demandait.

Ruben van Bergen
la source