Prendre l’attente de la série de Taylor (surtout du reste)

43

Ma question concerne l’essai de justifier une méthode largement utilisée, à savoir la valeur attendue de Taylor Series. Supposons que nous avons une variable aléatoire avec une moyenne positive et une variance . De plus, nous avons une fonction, disons .Xμσ2log(x)

Faire Taylor l'expansion de autour de la moyenne, nous obtenons où, comme d'habitude, est st.logX

logX=logμ+Xμμ12(Xμ)2μ2+13(Xμ)3ξX3,
ξX|ξXμ|<|Xμ|

Si nous prenons une attente, nous obtiendrons une équation approximative que les gens appellent généralement quelque chose qui va de soi (voir le signe dans la première équation ici) :

ElogXlogμ12σ2μ2

QUESTION : Je voudrais savoir comment prouver que la valeur attendue du terme restant est en réalité négligeable, c'est-à-dire (ou, en d'autres termes, ).

E[(Xμ)3ξX3]=o(σ2)
E[o(Xμ)2]=o(E[(Xμ)2])

Ce que j’ai essayé de faire : en supposant que (ce qui, à son tour, signifie dans ), j’ai essayé de scinder l’intégrale en deux en entourant de -vicinity : σ20XμPμεNε

Rp(x)(xμ)3ξx3dx=xNεdx+xNεdx

Le premier peut être lié car et donc ne sont pas gênants. Mais avec le second, nous avons deux faits concordants: d’une part, (comme ). Mais d’un autre côté, nous ne savons pas quoi faire avec . 1 / ξ 3 P ( | X - um | > ε ) 0 σ 20 1 / ξ 30Nε1/ξ3

P(|Xμ|>ε)0
σ201/ξ3

Une autre possibilité pourrait être d'utiliser le lemme de Fatou, mais je ne vois pas comment.

Appréciera toute aide ou allusion. Je me rends compte qu’il s’agit d’une question très technique, mais j’ai besoin de la parcourir pour pouvoir faire confiance à cette méthode dite de "Taylor-expectation". Merci!

PS j’ai jeté un coup d’œil ici , mais c’est un peu un autre truc.

agronskiy
la source
Pourquoi y a-t-il un signe moins devant le troisième terme de l'expansion de Taylor? Aussi pourquoi dans le quatrième mandat il y a et pas? Qu'est-ce que je rate? 3 !33!
Alecos Papadopoulos le
@Alecos: Il suffit de regarder la ième dérivée de . Cela répondra à vos deux questions. log xnlogx
cardinal
4
(+1) Cette question a récemment été abordée lors des discussions sur deux questions liées à la recherche des moments de . Il est rentable de prendre des précautions supplémentaires dans ce domaine. :-)X1
cardinal
1
L’approximation du premier ordre peut en fait être meilleure dans certains cas, en raison du théorème de la valeur moyenne. Je ne sais pas si le théorème de la valeur moyenne aiderait dans le cas général.
probabilitéislogique
1
J'aurais pensé que le théorème de convergence dominé pourrait être utile ici, car l'équation est un échange de limites et d'intégration. E(o(..))=o(E(..))
probabilitéislogique

Réponses:

32

Vous avez raison d'être sceptique face à cette approche. La méthode de la série de Taylor ne fonctionne pas en général, bien que l'heuristique contienne un noyau de vérité. Pour résumer la discussion technique ci-dessous,

  • Une forte concentration implique que la méthode de la série de Taylor fonctionne pour des fonctions intéressantes
  • Les choses peuvent et vont très mal tourner pour les distributions à queue épaisse ou les fonctions pas très belles

Comme l'indique la réponse d'Alecos, cela suggère que la méthode de la série de Taylor devrait être abandonnée si vos données risquent d'avoir de lourdes pertes. (Professionnels de la finance, je vous regarde.)

Comme Elvis l'a noté, le problème clé est que la variance ne contrôle pas les moments les plus élevés . Pour voir pourquoi, simplifions autant que possible votre question pour en arriver à l'idée principale.

Supposons que nous ayons une suite de variables aléatoires avec comme . σ ( X n ) 0 n Xnσ(Xn)0n

Q: Pouvons-nous garantir que commen ?E[|Xnμ|3]=o(σ2(Xn))n?

Puisqu'il existe des variables aléatoires avec des secondes finies et des tiers infinis, la réponse est catégoriquement non . Par conséquent, en général, la méthode de la série de Taylor échoue même pour les polynômes du 3ème degré . Itérer cet argument montre que vous ne pouvez pas vous attendre à ce que la méthode de la série de Taylor fournisse des résultats précis, même pour les polynômes, à moins que tous les moments de votre variable aléatoire ne soient bien contrôlés.

Qu'allons-nous donc faire? Certes, la méthode fonctionne pour les variables aléatoires bornées dont le support converge vers un point, mais cette classe est beaucoup trop petite pour être intéressante. Supposons plutôt que la séquence vienne d'une famille très concentrée qui satisfait (disons)Xn

(1)P{|Xnμ|>t}eCnt2

pour tout et un peu de . De telles variables aléatoires sont étonnamment communes. Par exemple, lorsque est la moyenne empiriquet>0C>0Xn

Xn:=1ni=1nYi

de jolies variables aléatoires (par exemple, iid et borné), diverses inégalités de concentration impliquent que satisfasse (1). Un argument standard (. Voir p 10 ici ) limite la e moments pour ces variables aléatoires:YiXnp

E[|Xnμ|p](p2Cn)p/2.

Par conséquent, pour toute fonction analytique "suffisamment jolie" (voir ci-dessous), nous pouvons lier l'erreur sur l' approximation de la série de Taylor à terme en utilisant l'inégalité du triangle.fEmm

Em:=|E[f(Xn)]p=0mf(p)(μ)p!E(Xnμ)p|1(2Cn)(m+1)/2p=m+1|f(p)(μ)|pp/2p!

quand . Puisque l'approximation de Stirling donne , l'erreur de la série de Taylor tronquée satisfaitn>C/2p!pp1/2

(2)Em=O(n(m+1)/2) as nwheneverp=0p(1p)/2|f(p)(μ)|<.

Par conséquent, lorsque est fortement concentré et que est suffisamment beau, l'approximation de la série de Taylor est bien précise. L'inégalité apparaissant dans (2) implique que , de sorte qu'en particulier notre condition exige que soit entier . Cela a du sens car (1) n’impose aucune hypothèse de limitation à .Xnff(p)(μ)/p!=O(pp/2)fXn

Voyons ce qui peut mal se passer lorsque a une singularité (à la suite du commentaire de whuber). Supposons que nous choisissions . Si nous prenons de la distribution tronquée entre zéro et deux, alors est suffisamment concentré mais pour tout . En d'autres termes, nous avons une variable aléatoire liée fortement concentrée et la méthode de la série de Taylor échoue quand la fonction a une seule singularité.ff(x)=1/xXnNormal(1,1/n)XnE[f(Xn)]=n

Quelques mots sur la rigueur. Je trouve plus agréable de présenter la condition apparaissant dans (2) comme dérivée plutôt que comme un deus ex machina qui est requis dans un format rigoureux théorème / preuve. Afin de rendre l'argument complètement rigoureux, notons d'abord que le membre de droite dans (2) implique que

E[|f(Xn)|]i=0|f(p)(μ)|p!E[|Xnμ|p]<

par le taux de croissance des moments subgaussiens d'en haut. Ainsi, le théorème de Fubini fournit

E[f(Xn)]=i=0f(p)(μ)p!E[(Xnμ)p]

Le reste de la preuve se déroule comme ci-dessus.

Mike McCoy
la source
1
J'ai peut-être manqué une lecture rapide, mais affirmez-vous (entre autres) que si le troisième moment de est suffisamment "sous contrôle", alors l'attente de peut être raisonnablement estimée en prenant les espérances de la série [MacLaurin] de ? Je suis inquiet parce que je ne l' ai pas vu aucune référence aux propriétés de convergence de la série elle - même, qui sont au moins aussi importants que les queues de la distribution de . Xlog(X)logX
whuber
2
@ Whuber Vous avez raison; vous aurez besoin du support de pour être dans le ROC de la série de Taylor, donc en particulier, presque sûrement. Je mettrai à jour le post pour refléter cela. X0<X<2μ
Mike McCoy
2
Je pense toujours que je manque quelque chose. Par exemple, lorsque a une distribution normale tronquée à , il est évidemment "très concentré", a une moyenne de et se situe presque sûrement dans le rayon de convergence de (qui est analytique à l'intérieur du disque unité centré sur , qui contient ), pourtant est infini. X(1,1)(0,2)μ=1f(x)=1/x=1/(1(1x))1(0,2μ)E[f(X)]
whuber
1
@ Gron Vous avez commis une petite erreur. Lorsque , la dérivée . La condition ne tient pas parce que pour tout . Vous pouvez également vérifier que (2) ne tient pas car toute fonction qui satisfait à (2) satisfait également à , et donc a pas de singularités (sa totalité , par le lien). f(x)=1/x|f(p)(μ)|=p!/μp
(2)=p!p(1p/2)μp
μ>0log(p!f(p)(μ))/pf
Mike McCoy
1
@gron Vous avez besoin de deux choses: (1) assurez-vous que votre VR a un support strictement dans le ROC de la série de journaux de consignation (c'est-à-dire, pour ), et (2) assurez-vous que les moments de la RV diminuent suffisamment rapidement pour que l'estimation d'erreur pour ci-dessus soit finie. Pour ce qui est de savoir comment contrôler les moments, vous devriez poser une nouvelle question car cela prendra beaucoup trop de caractères (et je suis moi-même curieux de découvrir de nouvelles façons de faire). [0+ε,2με]ε>0Em
Mike McCoy
10

Bien que ma réponse n'aboutisse nulle part au niveau de sophistication mathématique des autres réponses, j'ai décidé de l'afficher parce que je pense qu'elle a quelque chose à contribuer - même si le résultat sera "négatif", comme on dit.

En clair, je dirais que le PO est "peu enclin au risque" (comme la plupart des gens, ainsi que la science elle-même), car le PO exige une condition suffisante pour que l'approximation d'expansion de la série de 2ème ordre de Taylor soit " acceptable". Mais ce n'est pas une condition nécessaire.

Premièrement, une condition préalable nécessaire mais non suffisante pour que la valeur attendue du reste soit d'un ordre inférieur à la variance de la va, comme l'exige le PO, est que la série converge en premier lieu. Devrions-nous simplement assumer la convergence? Non.

L'expression générale que nous examinons est

E[g(Y)]=fY(y)[i=0g(i)(μ)(yμ)ii!]dy[1]

Comme Loistl (1976) le mentionne dans le livre "Calculus and Statistics" de Gemignani (1978, p. 170), une condition de la convergence de la somme infinie est (une application du test du ratio pour la convergence)

yμ<|yμ|<limi|(g(i)(μ)g(i+1)(μ)(i+1))|[2]

... où est la moyenne de la va Bien que cette condition soit également suffisante (le test du rapport n'est pas concluant si la relation ci-dessus est vraie), la série diverge si l'inégalité est vraie.μ

Loistl a examiné trois formes fonctionnelles spécifiques pour , l’exponentielle, la puissance et le logarithme (son article se rapportant à l’utilité attendue et au choix du portefeuille, il a donc testé les formes fonctionnelles standard utilisées pour représenter une fonction d’utilité concave). Pour ces formes fonctionnelles, il a constaté que seules les formes fonctionnelles exponentielles n'imposaient aucune restriction à . Au contraire, pour le pouvoir et pour le cas logarithmique (où nous avons déjà ), nous trouvons que la validité de l'inégalité est équivalente à g()yμ0<y[2]

yμ<μ0<y<2μ

Cela signifie que si notre variable varie en dehors de cette plage, l'expansion de Taylor ayant comme centre d'expansion la moyenne de la variable divergera.

Ainsi: pour certaines formes fonctionnelles, la valeur d’une fonction à un point de son domaine est égale à son développement infini de Taylor, quelle que soit la distance entre ce point et le centre de développement. Pour les autres formes fonctionnelles (logarithme inclus), le point d’intérêt doit se situer quelque peu "proche" du centre d’expansion choisi. Dans le cas où nous avons une va, cela se traduit par une restriction du support théorique de la variable (ou un examen de sa plage empiriquement observée).

Loitl, à l'aide d'exemples numériques, a également montré que le fait d'augmenter l'ordre de développement avant la troncature pourrait aggraver les choses pour la précision de l'approximation. Il faut noter que, empiriquement, les séries chronologiques de variables observées dans le secteur financier présentent une variabilité plus grande que celle requise par l'inégalité. Donc, Loitl a poursuivi en préconisant que la méthode d'approximation de la série de Taylor devrait être entièrement abandonnée, en ce qui concerne la théorie du choix du portefeuille.

Le rebond a eu lieu 18 ans plus tard chez Hlawitschka (1994) . La perspicacité et le résultat précieux ici étaient, et je cite

... bien qu'une série puisse finalement converger, on ne peut en dire autant sur aucune de ses séries partielles; La convergence d'une série n'implique pas que les termes diminuent immédiatement ou qu'un terme donné soit suffisamment petit pour être ignoré. En effet, il est possible, comme cela a été démontré ici, qu'une série apparaisse divergente avant de converger finalement vers la limite. La qualité des approximations de l'utilité attendue fondée sur les premiers termes d'une série de Taylor ne peut donc pas être déterminée par les propriétés de convergence de la série infinie. Il s'agit d'un problème empirique et, empiriquement, les approximations à deux moments des fonctions d'utilité étudiées ici fonctionnent bien pour la tâche de sélection du portefeuille. Hlawitschka (1994)

Par exemple, Hlawitschka a montré que l'approximation du second ordre était "réussie", que la série de Taylor converge ou non , mais il a également vérifié le résultat de Lotl, selon lequel une augmentation de l'ordre de l'approximation peut aggraver la situation. Mais il existe un qualificatif pour ce succès: dans Portfolio Choice, l'utilitaire attendu est utilisé pour classer les titres et autres produits financiers. C'est une mesure ordinale , pas cardinale. Hlawitschka a donc constaté que l'approximation du deuxième ordre préservait le classement de différents titres par rapport au classement découlant de la valeur exacte de et nonE(g(Y) qu'il a toujours donné des résultats quantitatifs suffisamment proches de cette valeur exacte (voir son tableau A1 à la page 718).

Alors, où en sommes-nous? Dans les limbes, je dirais. Il semble que tant en théorie qu’en théorie, l’acceptabilité de l’approximation de Taylor du second ordre dépend de manière critique de nombreux aspects du phénomène spécifique étudié et de la méthodologie scientifique employée - elle dépend des hypothèses théoriques, des formes fonctionnelles utilisées, sur la variabilité observée de la série ...

Mais finissons-en positivement: de nos jours, la puissance informatique remplace beaucoup de choses. Nous pourrions donc simuler et tester la validité de l'approximation du 2e ordre, pour une large gamme de valeurs de la variable à moindre coût, que nous travaillions sur un problème théorique ou empirique.

Alecos Papadopoulos
la source
8

Pas une réponse réelle, mais un exemple pour montrer que les choses ne sont pas si agréables et que des hypothèses supplémentaires sont nécessaires pour que ce résultat soit vrai.

Définissez comme un mélange entre un uniforme et un normal , la composante uniforme étant choisie avec une probabilité de , et la normale avec une probabilité de . Vous avez et sa variance converge vers lorsque va vers l'infini, comme si je ne me trompe pas. U ( [ - 1XnN(nU([1n;1n])1N(nn1,1n) 1-11n E(Xn)=10nE(X 2 n )=111n=n1nE(Xn)=10n

E(Xn2)=13n2×1n+((nn1)2+1n)×n1n,

Définissons maintenant (et ou autre). Les variables aléatoires sont bien définies mais n’ont pas de valeur attendue, car n’est pas défini, peu importe la taille de .f ( 0 ) = 0 f ( X n ) 1f(x)=1/xf(0)=0f(Xn)n

1n1n1xdx
n

Ma conclusion est que vous avez clairement besoin d’hypothèses sur le comportement global de ou - plus probablement, plus élégamment - sur la vitesse à laquelle la densité de décroît lorsque vous êtes loin de la valeur attendue. Je suis sûr que de telles hypothèses peuvent être trouvées dans la littérature classique (et même dans les manuels scolaires). Malheureusement, ma formation n’était pas dans les statistiques et j’ai encore du mal avec la littérature moi-même ... de toute façon, j’espère que cela a aidé.XfXn

PS Cet exemple n'est-il pas un contre-exemple à la réponse de Nick? Qui a tort alors?

Elvis
la source
1
Une déclaration plus générale de votre argument est que existe et est finie pourE[Xk]k=1,2,3
probabiliste 2
Je pense que mon commentaire ci-dessus n'est pas correct - que devrait-il y avoir c'est que la fonction admet un développement de Taylor Series au point . L’exemple que vous donnez, vous avez qui n’est pas continu à . Je pense que cela signifie que ne peut pas être développé dans une série de Taylor pour votre exemple. f(x)x=μ x=0ff(x)=1xx=0f
probabilitéislogique
Cela peut être, à . Ensuite, il y a le rayon de convergence ... Peut-être avez-vous besoin d'un rayon de convergence infini?! C'est une exigence forte. μ=1
Elvis
1
Elvis, oui, nous avons besoin d'une condition globale. Essentiellement, le reste doit bien se comporter après avoir été pondéré par les queues de la distribution. Pour quelque chose de similaire à votre exemple qui a été soulevé récemment, voir ici , ici et ici .
Cardinal
4

Ce n'est pas une réponse complète, mais une manière différente d'arriver à l'approximation du second ordre.

Je pense que la meilleure solution consiste à utiliser le théorème de la valeur moyenne de Cauchy, plutôt que de travailler avec le terme restant d'une série de Taylor. Si nous l'appliquons une fois, nous avons

f(X)=f(μ)+f(ξ1)(Xμ)

pour certains quand ou quand . Nous appliquons à nouveau le théorème de la valeur moyenne à et nous avonsX μ X ξ 1μ X μ f ( ξ 1 )Xξ1μXμXξ1μXμf(ξ1)

f(ξ1)=f(μ)+f(ξ2)(ξ1μ)

pour certains quand ou quand . mettre cela dans le premier fomula donneXξ1ξ2μXμXξ1ξ2μXμ

f(X)=f(μ)+f(μ)(Xμ)+f(ξ2)(ξ1μ)(Xμ)

Notez que ce résultat nécessite seulement que soit continu et deux fois différentiable entre et . Cependant, cela ne s'applique qu'à un fixe , et changer de signifiera un changement correspondant dans . La méthode delta de second ordre peut être considérée comme faisant l' hypothèse globale que et sur toute l'étendue du support de , ou du moins sur la région de masse à forte probabilité.fXμXXξiξ1μ=12(Xμ)ξ2=μX

probabilislogic
la source