Intégration Monte Carlo pour les fonctions intégrables non carrées

9

J'espère que c'est le bon endroit pour demander, sinon n'hésitez pas à le déplacer vers un forum plus approprié.

Je me demande depuis un certain temps maintenant comment traiter les fonctions intégrables non carrées avec l'intégration de Monte Carlo. Je sais que MC donne toujours une estimation correcte mais l'erreur est irréalisable (divergente?) Pour ce genre de fonctions.

Limitons-nous à une seule dimension. L'intégration de Monte Carlo signifie que nous approchons l'intégrale

I=01dxf(x)

en utilisant l'estimation

E=1Ni=1Nf(xi)

avec points aléatoires uniformément répartis. La loi des grands nombres veille à ce que . La variance de l'échantillonE Ixi[0,1]EI

S2=1N1i=1N(f(xi)E)2

se rapproche de la variance de la distribution induite par . Cependant, si n'est pas carré intégrable, c'est-à-dire que l'intégrale de la fonction au carré diverge, cela implique f fσ2ff

σ2=01dx(f(x)I)2=01dxf2(x)I2

ce qui signifie que la variance diverge également.

Un exemple simple est la fonction

f(x)=1x

pour lequel et .σ2=10dxI=01dx1x=2σ2=01dx(1x2)=[lnx2x]01

Si est fini, on peut approximer l'erreur de la moyenne par , mais si n'est pas carré intégrable? E Sσ2E f(x)SNσNf(x)

cschwan
la source
1
Je ne comprends pas: vous commencez par noter qu'aucun des n'a de variance et vous demandez ensuite si la variance de leur moyenne serait un estimateur raisonnable de - cette variance inexistante! Ou ai-je mal lu cette question: peut-être par des "estimations statistiquement indépendantes" vous avez en tête un estimateur différent (peut-être robuste) de l'intégrale? Ei
whuber
Je n'ai pas dit que n'a pas de variance, mais seulement que je ne peux pas définir de variance pour lui par . La question est de savoir si je peux définir une erreur du tout et si est un candidat raisonnable. Par statistiquement indépendant, je veux dire que les sont obtenus en utilisant différents nombres aléatoires, par exemple en utilisant des générateurs de nombres aléatoires amorcés différemment (j'espère que c'est le bon terme alors). S 2 ˉ S 2 E iES2S¯2Ei
cschwan
Veuillez expliquer ce que vous entendez par ne pas être en mesure de "définir une variance pour cela par ". Je ne peux pas comprendre cela en utilisant les définitions standard de variance et . S 2S2S2
whuber
Eh bien, la fonction n'est pas carré intégrable donc, si je ne me trompe pas, devrait diverger . Si tel est le cas, la définition de n'a aucun sens en premier lieu, non? Cependant, au moyen du théorème de la limite centrale, convergera toujours vers la vraie valeur de l'intégrale, mais sans erreur, cette valeur seule n'a aucun sens (à quel point ce résultat est-il «bon»?). S 2 ES2S2E
cschwan
Désolé, je voulais dire "loi des grands nombres" bien sûr, pas CLT.
cschwan

Réponses:

2

Vous pouvez simplement utiliser d'autres mesures d'échelle / dispersion telles que la plage interquantile, qui ne sont pas affectées par les asymptotiques de la queue et donc l'intégrabilité carrée. Avec l'avantage supplémentaire que souvent ils sont en général plus robustes de toute façon.

Il est évident que l'on doit les appliquer à un rééchantillonnage / bootstrap suivi de l'estimateur moyen, et pas directement uniquement à la sortie brute de l'échantillonnage MC de la fonction avant la moyenne. Vous pouvez également vérifier les L-estimateurs généraux et adapter l'un d'eux pour fusionner ces deux étapes en une seule pour les performances, mais mentalement, les deux distributions ne doivent pas être confondues, même si l'estimateur PDF héritera naturellement de certaines caractéristiques (y compris peut-être le manque de carré intégrabilité).

Quartz
la source
+1, je dois ajouter que la loi des grands nombres ne nécessite pas de second moment, c'est donc un très bon conseil.
mpiktas
Merci pour votre réponse! Je dois admettre que j'ai lu ces termes pour la première fois, mais en les regardant sur WP, je pense que votre réponse me pointe dans la bonne direction. Pourriez-vous ou quelqu'un d'autre suggérer des articles ou des livres qui expliquent les sujets plus en détail?
cschwan
Je remarque maintenant que ma réponse n'était peut-être pas claire. Puisque vous simulez, vous n'avez pas vraiment besoin de rééchantillonnage / amorçage, en théorie, vous pourriez simplement ajouter de nouveaux échantillons à la place et obtenir une distribution empirique pour l'estimateur moyen. Ce n'est que si les ressources sont une préoccupation que vous pouvez précalculer des moyennes partielles et les rééchantillonner, mais les statistiques ne seront pas triviales si elles sont bien faites. Je ne suis pas un expert du boostrap, donc je laisserai des conseils à ce sujet à d'autres, je voulais juste vous indiquer si vous devez aller au-delà de la formulation simple. Concentrez-vous d'abord sur les mesures de dispersion, optimisez ensuite.
Quartz
L'estimateur moyen proposé n'a pas de variance finie. Peu importe que l'on ajoute des échantillons supplémentaires, la distribution empirique de l'estimateur aura AUSSI une variance non finie. Vous pouvez le confirmer avec quelques simulations.
rajb245
1
Bien sûr, c'est ce qui a été discuté et la raison pour laquelle on doit utiliser une autre mesure de dispersion.
Quartz