Tout d'abord, nous n'avons pas besoin de mesures de probabilité, juste de -finitude. Alors laissez un espace mesurable et laisser et soient mesures -finite sur .σM=(Ω,F)μνσM
Le théorème de Radon-Nikodym déclare que si pour tout , noté , alors il existe un Borel non négatif la fonction telle que
pour tous .μ(A)=0⟹ν(A)=0A∈Fμ≫νf
ν(A)=∫Afdμ
A∈F
Voici comment j'aime penser à cela. Tout d'abord, pour deux mesures sur , définissons comme . Il s'agit d'une relation d'équivalence valide et nous disons que et sont équivalents dans ce cas. Pourquoi est-ce une équivalence raisonnable pour les mesures? Les mesures ne sont que des fonctions mais leurs domaines sont difficiles à visualiser. Et si deux fonctions ordinaires ont cette propriété, c'est-à-dire ? Eh bien, définissez
et notez que partout sur le support deMμ∼νμ(A)=0⟺ν(A)=0μνf,g:R→Rf(x)=0⟺g(x)=0
h(x)={f(x)/g(x)πeg(x)≠0o.w.
g nous avons , et en dehors du support de (puisque et partagent les supports) donc nous permet de redimensionner en . Comme le souligne @whuber, l'idée clé ici n'est pas que est en quelque sorte "sûr" à faire ou à ignorer, mais plutôt quand alors peu importe ce que fait, nous pouvons simplement le définir arbitrairement (comme être qui n'a pas de signification particulière ici) et les choses fonctionnent toujours. Dans ce cas également, nous pouvons définir la fonction analogue avec sorte que
gh=fg gh=0⋅πe=0=ffghgf0/0g=0hπeh′g/ffh′=g .
Supposons ensuite que , mais l'autre sens ne tient pas nécessairement. Cela signifie que notre définition précédente de fonctionne toujours, mais maintenant ne fonctionne pas car elle aura des divisions réelles par . Ainsi, nous pouvons redimensionner en via , mais nous ne pouvons pas aller dans l'autre sens car nous aurions besoin de redimensionner quelque chose de en quelque chose de non nul.g(x)=0⟹f(x)=0hh′0gfgh=f0
Revenons maintenant à et et notons notre RND par . Si , cela signifie intuitivement que l'un peut être redimensionné dans l'autre, et vice versa. Mais en général, nous voulons seulement aller dans cette direction (c'est-à-dire redimensionner une mesure intéressante comme la mesure de Lebesgue en une mesure plus abstraite), nous n'avons donc besoin que de pour faire des choses utiles. Ce rééchelonnement est au cœur du RND.μνfμ∼νμ≫ν
Pour revenir au point de @ whuber dans les commentaires, il y a une subtilité supplémentaire à pourquoi il est prudent d'ignorer le problème de . En effet, avec les mesures, nous ne définissons que les choses jusqu'à des ensembles de mesure donc sur tout ensemble avec nous pouvons simplement faire en sorte que notre RND prenne n'importe quelle valeur, disons . Donc, ce n'est pas que est intrinsèquement sûr, mais plutôt partout où nous aurions est un ensemble de mesures wrt afin que nous puissions simplement définir notre RND comme quelque chose de bien là sans affecter quoi que ce soit.0/00Aμ(A)=010/00/00μ
Par exemple, supposons que pour certains . Alors
nous avons donc que est le RND (cela peut être justifié plus formellement par le théorème du changement de mesures). C'est bien car nous avons exactement récupéré le facteur d'échelle.k⋅μ=νk>0
ν(A)=∫Adν=∫Akdμ
f(x)=k=dνdμ
Voici un deuxième exemple pour souligner comment la modification des RND sur les ensembles de mesure ne les affecte pas. Soit , c'est-à-dire que c'est le PDF normal standard plus si l'entrée est rationnelle, et soit un RV avec cette densité. Cela signifie que
donc est toujours un RV gaussien standard. Cela n'a affecté en aucune façon la distribution pour changer sur car il s'agit d'un ensemble de mesures wrt0f(x)=φ(x)+1Q(x)1X
P(X∈A)=∫A(φ+1Q)dλ
=∫Aφdλ+λ(Q)=∫Aφdλ
XXQ0λ .
Comme dernier exemple, supposons et et laissons et leurs distributions respectives. Rappelons qu'un pmf est un RND par rapport à la mesure de comptage , et puisque a la propriété , il s'avère que
X∼Pois(η)Y∼Bin(n,p)PXPYccc(A)=0⟺A=∅
dPYdPX=dPY/dcdPX/dc=fYfX
afin que nous puissions calculer
PY(A)=∫AdPY
=∫AdPYdPXdPX=∫AdPYdPXdPXdcdc
=∑y∈AdPYdPX(y)dPXdc(y)=∑y∈AfY(y)fX(y)fX(y)=∑y∈AfY(y).
Ainsi, parce que pour tout dans le support de , nous pouvons redimensionner l'intégration par rapport à une distribution de Poisson en intégration par rapport à une distribution binomiale, bien que parce que tout est discret, il se révèle ressembler à un trivial résultat.P(X=n)>0nY
J'ai répondu à votre question plus générale, mais je n'ai pas abordé les divergences de KL. Pour moi, au moins, je trouve la divergence KL beaucoup plus facile à interpréter en termes de test d'hypothèse comme la réponse de @kjetil b halvorsen ici . Si et qu'il existe une mesure qui domine les deux, alors utiliser nous pouvons récupérer la forme avec des densités, donc pour moi je trouve cela plus facile.P≪QμdPdQ=dP/dμdQ/dμ:=p/q