Distribution de probabilité spéciale

12

Si p(x) est une distribution de probabilité avec des valeurs non nulles sur [0,+) , pour quel (s) type (s) de p(x) existe-t-il une constante c>0 telle que 0p(x)logp(x)(1+ϵ)p(x(1+ϵ))dxcϵ2pour tout0<ϵ<1?

L'inégalité ci-dessus est en fait une divergence de Kullback-Leibler entre la distribution p(x) et une version compressée de celle-ci (1+ϵ)p(x(1+ϵ)) . J'ai découvert que cette inégalité vaut pour les distributions exponentielles, gamma et Weibull et je suis intéressé de savoir si cela fonctionne pour une plus grande classe de distributions de probabilité.

Une idée de ce que signifie cette inégalité?

Sus20200
la source
3
Puisque ϵ est positif, il serait compressé (dans la direction x) plutôt qu'étiré.
Glen_b -Reinstate Monica
2
Cette question est ambiguë: quels sont vos quantificateurs? Voulez - vous cette inégalité de tenir pour tout , au moins un ε , ou autre chose? Est-ce que c est donné a priori ou voulez-vous dire qu'il devrait exister au moins une telle valeur de c ? Et puisque vous mentionnez des classes de distributions de probabilité, par " p ( x ) ", voulez-vous dire une distribution spécifique ou voulez-vous peut-être une famille paramétrique de celles-ci? ϵ ϵccp(x)
whuber
2
@whuber Merci pour vos commentaires. J'ai corrigé ma déclaration de problème pour clarifier les problèmes mentionnés. Je veux dire, pour quel l'inégalité ci-dessus tient? La réponse pourrait être soit d'introduire une famille paramétrique de distributions ou de proposer une équation différentielle pour p ( x ) qui suffise et donne l'inégalité souhaitée. p(x)p(x)
Sus20200
2
Cette inégalité ne fonctionnerait-elle pas pour tout p (x) continu et avec un support infini? Vous calculez la divergence KL à l'intérieur d'une famille paramétrique ( . Si le KL est différenciable à 0, alors sa dérivée est 0. En prenant C pour être le maximum de la courbure de KL (pour ϵ [ 0 , 1 ] ), nous avons la borne. Avec un travail supplémentaire, il pourrait être possible de lier C à partir des propriétés de pϵp(x(1+ϵ))Cϵ[0,1]
Guillaume Dehaene
1
L ϵ + O ( ϵ 2 )L=limx0p(x)x=0Lϵ+O(ϵ2)

Réponses:

4

Préliminaires

Écrire

Ip(ϵ)=0p(x)log(p(x)(1+ϵ)p(x(1+ϵ)))dx.

Les logarithmes et la relation entre et suggèrent d'exprimer à la fois et son argument sous forme d'exponentielles. À cette fin, définissezp ( x ( 1 +p(x)pp(x(1+ϵ))p

q(y)=log(p(ey))

pour tout réel pour lequel le côté droit est défini et égal à où . Notez que le changement de variables entraîne et (en prenant pour la densité d'une distribution) que la loi de probabilité totale peut ainsi être exprimée comme- p ( e y ) = 0 x = eyp(ey)=0 d x = e y d y px=eydx=eydyp

(1)1=0p(x)dx=Req(y)+ydy.

Supposons que lorsque . y ± eq(y)+y0y± Cela exclut les distributions de probabilité avec une infinité de pics de densité près de ou . En particulier, si les queues de sont finalement monotones, implique cette hypothèse, montrant qu'elle n'est pas grave.pp0p(1)

Pour faciliter le travail avec les logarithmes, notez également que

1+ϵ=eϵ+O(ϵ2).

Étant donné que les calculs suivants seront effectués jusqu'à des multiples de , définissezϵ2

δ=log(1+ϵ).

On pourrait aussi bien remplacer par , avec correspondant à et positif correspondant à positif .e δ δ = 0 ϵ = 0 δ ϵ1+ϵeδδ=0ϵ=0δϵ

Une analyse

Une manière évidente de faire échouer l'inégalité serait que l'intégrale diverge pour certains . Cela se produirait si, par exemple, il devait y avoir tout intervalle approprié de nombres positifs, aussi petit soit-il, dans lequel était identique à zéro mais n'était pas nul sur l'intervalle . Cela ferait que l'intégrande soit infini avec probabilité positive.ϵ(0,1][u,v]pp[u-ϵ,v-ϵ]Ip(ϵ)ϵ(0,1][u,v]pp[uϵ,vϵ]

Parce que la question n'est pas spécifique concernant la nature de , nous pourrions nous enliser dans des problèmes techniques concernant la fluidité de . Evitons de tels problèmes, en espérant tout de même avoir un aperçu, en supposant que partout a autant de dérivés que nous pourrions utiliser. (Deux suffiront si est continu.) Parce que cela garantit que reste borné sur tout ensemble borné, cela implique que n'est jamais nul lorsque .p q q q p ( x ) x > 0ppqqqp(x)x>0

Notez que la question concerne vraiment le comportement de lorsque rapproche de zéro par le haut. Puisque cette intégrale est une fonction continue de dans l'intervalle , elle atteint un maximum de lorsque est limité à tout intervalle positif , nous permettant de choisir , car évidemmentϵϵ(0,1] M p (a)ϵ[a,1]c= M p (a) / a 2Ip(ϵ)ϵϵ(0,1]Mp(a)ϵ[a,1]c=Mp(a)/a2

cϵ2=Mp(a)(ϵa)2Mp(a)Ip(ϵ)

fait fonctionner l'inégalité. C'est pourquoi nous n'avons qu'à nous préoccuper du calcul modulo .ϵ2

Solution

En utilisant les changements de variable de à , de à et de à , calculons par le second ordre dans (ou ) dans l'espoir de réaliser une simplification. À cette fin, définiry p q ϵ δ I p ( ϵ ) ϵxypqϵδIp(ϵ)ϵδ

R(y,δ)δ2=q(y+δ)q(y)δq(y)

être le reste d'ordre dans l'expansion de Taylor de autour de .q2qy

Ip(ϵ)=Req(y)+y(q(y)q(y+δ)δ)dy=Req(y)+y(δ+δq(y)+R(y,δ)δ2)dy=δReq(y)+y(1+q(y))dyδ2Req(y)+yR(y,δ)dy.

Changer les variables en dans l'intégrale de gauche montre qu'il doit disparaître, comme le fait l'hypothèse suivante . Changer les variables de retour à dans l'intégrale de droite donne(q(y)+yx = e(1)x=ey

Ip(ϵ)=δ2Rp(x)R(log(x),δ)dy=δ2Ep(R(log(x),δ)).

L'inégalité se maintient (selon nos différentes hypothèses techniques) si et seulement si le coefficient de à droite est fini.δ2

Interprétation

C'est un bon point d'arrêt, car il semble découvrir le problème essentiel: est délimité par une fonction quadratique de précisément lorsque l'erreur quadratique dans l'expansion de Taylor de ne se produit pas. exploser ( par rapport à la distribution) comme approches .ϵqIp(ϵ)ϵq± y±

Vérifions quelques-uns des cas mentionnés dans la question: les distributions exponentielles et gamma. (L'exponentielle est un cas particulier du gamma.) Nous n'avons jamais à nous soucier des paramètres d'échelle, car ils changent simplement les unités de mesure. Seuls les paramètres non à l'échelle comptent.

Ici, parce que pour , L'extension de Taylor autour d'un arbitraire estLe théorème de Taylor avec reste implique que est dominé par pour un suffisamment petit . Étant donné que l'espérance de est finie, l'inégalité s'applique aux distributions gamma. k > - 1 q ( y ) = - e y + k y - log Γ ( k + 1 ) . y Constante + ( k -p(x)=xkexk>1

q(y)=ey+kylogΓ(k+1).
yR(log(x),δ)ey+δ/2<xδ
Constant+(key)δey2δ2+.
R(log(x),δ)ey+δ/2<xδx

Des calculs similaires impliquent l'inégalité des distributions Weibull, les distributions demi-normales, les distributions lognormales, etc. En fait, pour obtenir que nous aurions besoin des contre de violer au moins une hypothèse, nous forçant à regarder les distributions où est nulle sur un intervalle ou est pas différenciable en continu deux fois, ou possède une infinité de modes. Ce sont des tests faciles à appliquer à n'importe quelle famille de distributions couramment utilisées dans la modélisation statistique.p

whuber
la source