Je suis récemment tombé sur cette identité:
Je suis bien sûr familier avec la version simplifiée de cette règle, à savoir que mais je n’ai pas pu trouver de justification pour sa généralisation.
Je serais reconnaissant si quelqu'un pouvait m'indiquer une référence peu technique pour ce fait ou, mieux encore, si quelqu'un pouvait fournir une simple preuve de ce résultat important.
Réponses:
TRAITEMENT INFORMEL
Nous devons nous rappeler que la notation où nous conditionnons sur des variables aléatoires est imprécise, bien qu'économique, en tant que notation. En réalité, nous conditionnons sur la sigma-algèbre que ces variables aléatoires génèrent. En d'autres termes, signifie . Cette remarque peut sembler déplacée dans un "traitement informel", mais elle nous rappelle que nos entités de conditionnement sont des ensembles d' ensembles (et lorsque nous conditionnons sur une valeur unique, il s'agit d'un ensemble singleton). Et que contiennent ces ensembles? Ils contiennent les informations dont les valeurs possibles de la variable aléatoire nous fournir sur ce qui peut arriver à la réalisation de .E[Y∣X] X Y σ ( X ) ⊆ σ ( X , Z ) Y de ( X , Z ) σ ( X ) σ ( X ) ≡ I x σ ( X , Z ) ≡ I x zE[Y∣σ(X)] X Y σ(X)⊆σ(X,Z) Y σ(X,Z) σ(X)
σ(X)≡Ix σ(X,Z)≡Ixz
Introduire le concept d'information nous permet de réfléchir (et d'utiliser) le droit des attentes itérées (parfois appelé "propriété de tour") de manière très intuitive:
la sigma-algèbre générée par deux variables aléatoires est au moins aussi grand comme celui généré par une variable aléatoire: dans la signification correcte de la théorie des ensembles. Ainsi, les informations sur contenues dans sont au moins aussi importantes que les informations correspondantes dans . Maintenant, comme allusion notative, définissez et . Ensuite, le LHS de l'équation que nous examinons, peut être écrit
Y I ix z I x
Peut-on en quelque sorte "prendre en compte" ? Non, nous ne connaissons que . Mais si nous utilisons ce que nous avons (comme nous sommes obligés par l'expression que nous voulons résoudre), nous disons essentiellement des choses à propos de sous l'opérateur des attentes, c'est-à-dire que nous disons " ", sans plus - nous venons d'épuiser nos informations. I ix Y E ( Y | I ix )Ixz Ix Y E(Y∣Ix)
D'où
Si quelqu'un d'autre ne le fait pas, je reviendrai pour le traitement formel.
Un (un peu plus) TRAITEMENT FORMEL
Voyons comment deux livres très importants de la théorie des probabilités, Probability and Measure de P. Billingsley (3 e éd.-1995) et D. Williams "Probability with Martingales" (1991), traitent de la question de la "loi des attentes itératives":
Billingsley consacre exactement trois lignes à la preuve. Williams, et je cite, dit
C'est une ligne de texte. La preuve de Billingsley n'est pas moins opaque.
Ils ont bien entendu raison: cette propriété importante et très intuitive de l’espérance conditionnelle découle essentiellement directement (et presque immédiatement) de sa définition. Le seul problème est que, je suppose, cette définition n’est généralement pas enseignée, ou du moins n’est pas mise en évidence, hors probabilité. ou mesurer des cercles théoriques. Mais pour montrer en (presque) trois lignes que la loi des attentes itérées tient, nous avons besoin de la définition de l’attente conditionnelle, ou plutôt de sa propriété qui la définit .
Laisser un espace de probabilité , et une variable aléatoire intégrable . Let un sous -algèbre de , . Alors il existe une fonction qui est , est intégrable et (c'est la propriété qui définit)Y G σ F G ⊆ F W G(Ω,F,P) Y G σ F G⊆F W G
où est la fonction indicatrice de l'ensemble . Nous disons que est ("une version de") l'attente conditionnelle de donnée , et nous écrivons Le détail essentiel à noter ici est que l'attente conditionnelle , a la même valeur que prévu ne, pas seulement sur l'ensemble , mais dans tous les sous - ensemble de . G W Y G W = E ( Y ∣ G )1G G W Y G Y G G GW=E(Y∣G)a.s.
Y G G G
(J'essaierai maintenant de présenter comment la propriété Tower découle de la définition de l'espérance conditionnelle).
G σ H ⊆ G G ∈ H ⇒ G ∈ G W H U = E ( W ∣ H )W est une variable aléatoire . Considérons alors une sous -algèbre, dire . Alors . Ainsi, d'une manière analogue comme précédemment, nous avons l'espérance conditionnelle de donnée , par exemple cela est caractérisé par G σ H⊆G G∈H⇒G∈G W H U=E(W∣H)a.s.
Depuis , les équations et nous donnent [ 1 ] [ 2 ]H⊆G [1] [2]
Mais c'est la propriété déterminante de l'espérance conditionnelle de donné . HY H Nous avons donc le droit d'écrire
nous avons aussi par construction , nous venons de prouver la propriété Tower, ou le forme générale de la loi des attentes itérées - en huit lignes.U = E ( W | H ) = E ( E [ Y | G ] | H )U=E(Y∣H)a.s.
U=E(W∣H)=E(E[Y∣G]∣H)
la source
La façon dont je comprends les attentes conditionnelles et enseigne à mes étudiants est la suivante:
espérance conditionnelle est une image prise par un appareil photo avec une résolutionσ ( X )E[Y|σ(X)] σ(X)
Comme mentionné par Alecos Papadopoulos, la notation est plus précise que . Le long de la ligne de la caméra, on peut considérer comme l’objet original, par exemple un paysage, un paysage. est une image prise par un appareil photo avec une résolution . L'attente est un opérateur de calcul de la moyenne (opérateur "flou"?). La scène peut contenir beaucoup de choses, mais la photo que vous avez prise avec une caméra à basse résolution fera certainement disparaître certains détails, par exemple, il peut y avoir un OVNI dans le ciel qui peut être vu à l'oeil nu apparaître dans votre photo prise par (iphone 3?)E [ Y | X ] Y E [ Y | σ ( X , Z ) ] σ ( X , Z )E[Y|σ(X)] E[Y|X] Y E[Y|σ(X,Z)] σ(X,Z)
Si la résolution est si élevée que , cette image est capable de capturer tous les détails de la scène réelle. Dans ce cas, nous avons .E [ Y | σ ( Y ) ] = Yσ(X,Z)=σ(Y) E[Y|σ(Y)]=Y
Maintenant, peut être vu comme: utilisant un autre appareil photo avec une résolution (par exemple, iphone 1) qui est inférieure à (par exemple, iphone 3) et prenez une photo sur cette image générée par l'appareil photo avec la résolution , alors il devrait être clair que cette image sur une photo doit être la même que si vous l'aviez initialement utilisez simplement une caméra avec une résolution basse sur la scène.σ ( X ) σ ( X , Z ) σ ( X , Z ) σ ( X )E[E[Y|σ(X,Z)]|σ(X)] σ(X) σ(X,Z) σ(X,Z) σ(X)
Ceci fournit une intuition sur . En fait, cette même intuition nous dit que toujours. C’est parce que: si votre première photo est prise par l’iphone 1 (c’est-à-dire en basse résolution) et que vous souhaitez maintenant utiliser un meilleur appareil photo (par exemple, un iphone 3) pour générer une autre photo sur la première photo, peut améliorer la qualité de la première photo.E [ E [ Y | X ] | X , Z ] = E [ Y | X ]E[E[Y|X,Z]|X]=E[Y|X] E[E[Y|X]|X,Z]=E[Y|X]
la source
Dans la loi de l'attente itérée (LIE), , cette attente interne est une variable aléatoire qui se trouve être une fonction de , disons , et non une fonction de . Le fait que l'attente de cette fonction de égale à l'attente de est une conséquence d'un LIE. Tout ce que ceci est, en agitant de la main, juste l'affirmation que la valeur moyenne de peut être trouvée en faisant la moyenne des valeurs moyennes de dans diverses conditions. En réalité, tout cela n’est qu’une conséquence directe de la loi de la probabilité totale. Par exemple, si etE[E[Y∣X]]=E[Y] X g(X) Y X Y Y Y X Y sont des variables aléatoires discrètes avec joint pmf , puis
\ scriptstyle {\ text {RV} ~ E [Y \ mid X] ~ \ text {a une valeur} ~ E [Y \ mid X = x] ~ \ text {quand} ~ X = x} \ end {align}
Notice comment cette dernière attente est par rapport à ;pX,Y(x,y)
Le LIE généralisé que vous regardez a à gauche dans lequel l'attente interne est une fonction de deux variables aléatoires et . L'argument est similaire à celui décrit ci-dessus, mais nous devons maintenant montrer que la variable aléatoire est égale à une autre variable aléatoire. Nous faisons cela en regardant la valeur de quand a la valeur . Sauter les explications, nous avons celaE[E[Y∣X,Z]∣X] h(X,Z) X Z E[Y∣X] E[Y∣X] X x
Ainsi, pour chaque valeur de la variable aléatoire , la valeur de la variable aléatoire (notée précédemment est une fonction de et non de ), est identique à la valeur de la variable aléatoire variable , c'est-à-dire que ces deux variables aléatoires sont égales. Est-ce que je te mentirais?X E [ Y | X ] X Y E [ E [ Y | X , Z ] | X ]x X E[Y∣X] X Y E[E[Y∣X,Z]∣X]
la source