Si est une fonction convexe, l'inégalité de Jensen indique que , et mutatis mutandis lorsque est concave. De toute évidence, dans le pire des cas, vous ne pouvez pas dépasser la limite en termes de pour un convexe , mais existe-t-il une limite qui va dans ce sens si est convexe mais "pas trop convexe"? Existe-t-il une borne standard qui donne des conditions sur une fonction convexe (et éventuellement la distribution aussi, si nécessaire) qui vous permettrait de conclure que , oùf ( E [ x ] ) ≤ E [ f ( x ) ]E [ f ( x ) ] f ( E [ x ] ) f f f E [ f ( x ) ] ≤ φ ( f ) f ( E [ x ] ) φ ( f )est une fonction de la courbure / degré de convexité de ? Quelque chose qui ressemble à un état de Lipschitz, peut-être?
21
Réponses:
EDIT: la version originale a manqué une valeur absolue. Pardon!!
Salut Ian. Je décrirai brièvement deux exemples d'inégalités, l'un utilisant une borne de Lipschitz, l'autre utilisant une borne sur la dérivée seconde, puis je discuterai de certaines difficultés de ce problème. Bien que je sois redondant, car une approche utilisant un dérivé explique ce qui se passe avec plus de dérivés (via Taylor), il s'avère que la deuxième version dérivée est assez agréable.
Tout d'abord, avec une limite de Lipschitz: retravaillez simplement l'inégalité standard de Jensen. La même astuce s'applique: calculer l'expansion de Taylor à la valeur attendue.
Plus précisément, Soit mesure μ correspondante et fixons m : = E ( x ) . Si f a la constante Lipschitz L , alors par le théorème de TaylorX μ m:=E(x) f L
où (notez que x ≤ m et x > m sont possibles). En utilisant cela et en retravaillant la preuve Jensen (je suis paranoïaque et j'ai vérifié que la norme était bien sur wikipedia),z∈[m,x] x≤m x>m
Maintenant, supposons . Dans ce cas,|f′′(x)|≤λ
et donc
Je voudrais mentionner brièvement quelques éléments. Désolé s'ils sont évidents.
La première est que vous ne pouvez pas simplement dire "wlog " en décalant la distribution, car vous changez la relation entre et .f μE(X)=0 f μ
Ensuite, la limite doit dépendre de la distribution d'une manière ou d'une autre. Pour voir cela, imaginez que et f ( x ) = x 2 . Quelle que soit la valeur de σ , vous obtenez toujours f ( E ( X ) ) = f ( 0 ) = 0 . En revanche, E ( f ( X ) ) = E ( XX∼Gaussian(0,σ2) f(x)=x2 σ f(E(X))=f(0)=0 . Ainsi, en changeant σ , vous pouvez rendre arbitraire l'écart entre les deux quantités! Intuitivement, plus de masse est éloignée de la moyenne, et donc, pour toute fonction strictement convexe, E ( f ( X ) ) augmentera.E(f(X))=E(X2)=σ2 σ E(f(X))
Enfin, je ne vois pas comment obtenir une borne multiplicative comme vous le suggérez. Tout ce que j'ai utilisé dans ce post est standard: le théorème de Taylor et les bornes dérivées sont du pain et du beurre dans les bornes statistiques, et ils donnent automatiquement des erreurs additives et non multiplicatives.
Je vais y penser cependant et poster quelque chose. Une intuition vague est qu'il aura besoin de conditions très strictes sur la fonction et la distribution, et que la limite additive est en fait au cœur de celle-ci.
la source
la source