Interprétation de la dérivée de Radon-Nikodym entre les mesures de probabilité?

11

J'ai vu à certains moments l'utilisation de la dérivée Radon-Nikodym d'une mesure de probabilité par rapport à une autre, notamment dans la divergence Kullback-Leibler, où elle est la dérivée de la mesure de probabilité d'un modèle pour un paramètre arbitraire par rapport au paramètre réel :θθ0

dPθdPθ0

Où ce sont les deux mesures de probabilité sur l'espace des points de données conditionnelles à une valeur de paramètre: .Pθ(D)=P(D|θ)

Quelle est l'interprétation d'un tel dérivé Radon-Nikodym dans la divergence Kullback-Leibler, ou plus généralement entre deux mesures de probabilité?

user56834
la source

Réponses:

12

Tout d'abord, nous n'avons pas besoin de mesures de probabilité, juste de -finitude. Alors laissez un espace mesurable et laisser et soient mesures -finite sur .σM=(Ω,F)μνσM

Le théorème de Radon-Nikodym déclare que si pour tout , noté , alors il existe un Borel non négatif la fonction telle que pour tous .μ(A)=0ν(A)=0AFμνf

ν(A)=Afdμ
AF

Voici comment j'aime penser à cela. Tout d'abord, pour deux mesures sur , définissons comme . Il s'agit d'une relation d'équivalence valide et nous disons que et sont équivalents dans ce cas. Pourquoi est-ce une équivalence raisonnable pour les mesures? Les mesures ne sont que des fonctions mais leurs domaines sont difficiles à visualiser. Et si deux fonctions ordinaires ont cette propriété, c'est-à-dire ? Eh bien, définissez et notez que partout sur le support deMμνμ(A)=0ν(A)=0μνf,g:RRf(x)=0g(x)=0

h(x)={f(x)/g(x)g(x)0πeo.w.
g nous avons , et en dehors du support de (puisque et partagent les supports) donc nous permet de redimensionner en . Comme le souligne @whuber, l'idée clé ici n'est pas que est en quelque sorte "sûr" à faire ou à ignorer, mais plutôt quand alors peu importe ce que fait, nous pouvons simplement le définir arbitrairement (comme être qui n'a pas de signification particulière ici) et les choses fonctionnent toujours. Dans ce cas également, nous pouvons définir la fonction analogue avec sorte quegh=fg gh=0πe=0=ffghgf0/0g=0hπehg/ffh=g .

Supposons ensuite que , mais l'autre sens ne tient pas nécessairement. Cela signifie que notre définition précédente de fonctionne toujours, mais maintenant ne fonctionne pas car elle aura des divisions réelles par . Ainsi, nous pouvons redimensionner en via , mais nous ne pouvons pas aller dans l'autre sens car nous aurions besoin de redimensionner quelque chose de en quelque chose de non nul.g(x)=0f(x)=0hh0gfgh=f0

Revenons maintenant à et et notons notre RND par . Si , cela signifie intuitivement que l'un peut être redimensionné dans l'autre, et vice versa. Mais en général, nous voulons seulement aller dans cette direction (c'est-à-dire redimensionner une mesure intéressante comme la mesure de Lebesgue en une mesure plus abstraite), nous n'avons donc besoin que de pour faire des choses utiles. Ce rééchelonnement est au cœur du RND.μνfμνμν

Pour revenir au point de @ whuber dans les commentaires, il y a une subtilité supplémentaire à pourquoi il est prudent d'ignorer le problème de . En effet, avec les mesures, nous ne définissons que les choses jusqu'à des ensembles de mesure donc sur tout ensemble avec nous pouvons simplement faire en sorte que notre RND prenne n'importe quelle valeur, disons . Donc, ce n'est pas que est intrinsèquement sûr, mais plutôt partout où nous aurions est un ensemble de mesures wrt afin que nous puissions simplement définir notre RND comme quelque chose de bien là sans affecter quoi que ce soit.0/00Aμ(A)=010/00/00μ

Par exemple, supposons que pour certains . Alors nous avons donc que est le RND (cela peut être justifié plus formellement par le théorème du changement de mesures). C'est bien car nous avons exactement récupéré le facteur d'échelle.kμ=νk>0

ν(A)=Adν=Akdμ
f(x)=k=dνdμ

Voici un deuxième exemple pour souligner comment la modification des RND sur les ensembles de mesure ne les affecte pas. Soit , c'est-à-dire que c'est le PDF normal standard plus si l'entrée est rationnelle, et soit un RV avec cette densité. Cela signifie que donc est toujours un RV gaussien standard. Cela n'a affecté en aucune façon la distribution pour changer sur car il s'agit d'un ensemble de mesures wrt0f(x)=φ(x)+1Q(x)1X

P(XA)=A(φ+1Q)dλ
=Aφdλ+λ(Q)=Aφdλ
XXQ0λ .

Comme dernier exemple, supposons et et laissons et leurs distributions respectives. Rappelons qu'un pmf est un RND par rapport à la mesure de comptage , et puisque a la propriété , il s'avère que XPois(η)YBin(n,p)PXPYccc(A)=0A=

dPYdPX=dPY/dcdPX/dc=fYfX

afin que nous puissions calculer

PY(A)=AdPY
=AdPYdPXdPX=AdPYdPXdPXdcdc
=yAdPYdPX(y)dPXdc(y)=yAfY(y)fX(y)fX(y)=yAfY(y).

Ainsi, parce que pour tout dans le support de , nous pouvons redimensionner l'intégration par rapport à une distribution de Poisson en intégration par rapport à une distribution binomiale, bien que parce que tout est discret, il se révèle ressembler à un trivial résultat.P(X=n)>0nY


J'ai répondu à votre question plus générale, mais je n'ai pas abordé les divergences de KL. Pour moi, au moins, je trouve la divergence KL beaucoup plus facile à interpréter en termes de test d'hypothèse comme la réponse de @kjetil b halvorsen ici . Si et qu'il existe une mesure qui domine les deux, alors utiliser nous pouvons récupérer la forme avec des densités, donc pour moi je trouve cela plus facile.PQμdPdQ=dP/dμdQ/dμ:=p/q

jld
la source
3
J'ai apprécié cette exposition (comme j'apprécie toutes vos contributions), mais au fond, elle semble fondée sur l'affirmation (répétée) que un certain sens - mais ce n'est pas le cas. Il se passe quelque chose avec les mesures qui ne se produit pas automatiquement avec les fonctions de valeurs réelles: vous pouvez simplement ignorer ce qui se passe sur les ensembles de mesures zéro. C'est ainsi que vous évitez d'avoir à donner un sens à dans le paramètre dérivé Radon-Nikodym. 0/00/0
whuber
1
@whuber merci beaucoup pour le commentaire, ça aide vraiment. J'ai essayé de mettre à jour pour résoudre ce problème
jld