Supposons que je veuille échantillonner à partir d'une distribution continue . Si j'ai une expression de sous la forme
p
- Échantillonnage d'une étiquette avec une probabilitéa i
- Échantillonnage
Est-il possible de généraliser cette procédure si les sont parfois négatifs? Je soupçonne que j'ai vu cela se produire quelque part - peut-être dans un livre, peut-être pour la distribution de Kolmogorov - alors je serais parfaitement heureux d'accepter une référence comme réponse.
Si un exemple concret de jouet est utile, disons que je voudrais échantillonner à partir de Je vais alors prendre pour des raisons techniques qui ne devraient pas trop d'importance, dans le grand schéma des choses.α ∈ ( 0 , 2 )
En principe, je pourrais ensuite développer cela comme la somme suivante:
Les termes à l'intérieur de la somme peuvent ensuite être échantillonnés indépendamment à partir de variations aléatoires gamma. Mon problème est évidemment que les coefficients sont «occasionnellement» négatifs.
Edit 1 : Je précise que je cherche à générer des échantillons exacts à partir de , plutôt que de calculer les attentes sous . Pour les personnes intéressées, certaines procédures à cet effet sont évoquées dans les commentaires.p
Edit 2 : J'ai trouvé la référence qui inclut une approche particulière de ce problème, dans «Non-Uniform Random Variate Generation» de Devroye . L'algorithme provient de «A Note on Sampling from Combinations of Distributions», de Bignami et de Matteis . La méthode consiste effectivement à délimiter la densité par le haut par les termes positifs de la somme, puis à utiliser un échantillonnage de rejet basé sur cette enveloppe. Cela correspond à la méthode décrite dans la réponse de @ Xi'an.
Réponses:
Je suis perplexe sur cette question, mais je ne suis jamais venu avec une solution satisfaisante.
Une propriété qui peut être utilisée est que, si une densité écrit où est un densité telle que , simulant à partir de et rejetant ces simulations avec probabilité délivre des simulations à partir de . Dans le cas actuel, est la version normalisée des composantes de poids positif et est le reste g g ( x ) ≥ ω h ( x ) g ω h ( x ) / g ( x ) f
Un premier inconvénient de calcul de cette approche est que, bien que simulant d'abord à partir d'un composant choisi , les sommes en et en doivent être calculées pour l'étape de rejet. Si les sommes sont infinies sans version sous forme fermée, cela rend la méthode d'acceptation-rejet impossible à mettre en œuvre .fi g h
Une deuxième difficulté est que, puisque les deux sommes de poids sont du même ordre le taux de rejetn'a pas de limite supérieure. En fait, si la série associée aux ne converge pas absolument, la probabilité d'acceptation est nulle! Et la méthode ne peut pas être mise en œuvre dans cette situation.
Dans le cas d'une représentation de mélange, si peut s'écrire le composant peut être choisi en premier puis la méthode appliquée au composant. Mais cela peut être délicat à mettre en œuvre, identifier les paires qui correspondent à partir de la somme éventuellement infinie n'étant pas nécessairement faisable.f
Je pense qu'une résolution plus efficace pourrait provenir de la représentation en série elle-même. Devroye, Génération de variables aléatoires non uniformes , Section IV.5, contient un large éventail de méthodes de séries. Comme par exemple l'algorithme suivant pour une autre représentation en série de la cible lorsque ' s convergent vers zéro avec et est une densité:
Le problème a été examiné récemment dans le contexte d'estimateurs biaisés de débiasing pour MCMC, comme par exemple dans l' approche de Glynn-Rhee . Et l' estimateur de roulette russe (en lien avec le problème de l'usine de Bernoulli). Et la méthodologie impartiale MCMC . Mais il n'y a pas d'échappatoire à la question des signes ... Ce qui rend son utilisation difficile lors de l'estimation des densités comme dans les méthodes pseudo-marginales.
la source
J'ai le projet d'une idée qui pourrait fonctionner. Ce n'est pas exact , mais espérons-le asymptotiquement exact. Pour en faire une méthode vraiment rigoureuse, où l'approximation est contrôlée, ou quelque chose à ce sujet peut être prouvé, il y a probablement beaucoup de travail à faire.
Premièrement, comme mentionné par Xi'an, vous pouvez regrouper les poids positifs d'une part et les poids négatifs d'autre part, de sorte que finalement le problème n'a que deux distributions et :g h
avec . Notez que vous avez .λ−μ=1 λ≥1
Mon idée est la suivante. Vous voulez un échantillon de observations de . Faire:N p
À la fin, vous obtenez points. Il n'a pas besoin d'être exactement le plus proche voisin, mais juste un point qui est "assez proche". La première étape est comme générer de la matière. La deuxième étape est comme générer de l'antimatière et la laisser entrer en collision et s'annuler avec la matière. Cette méthode n'est pas exacte, mais je crois que, dans certaines conditions, elle est asymptotiquement exacte pour les grands (pour la rendre presque exacte pour les petits vous devez d'abord utiliser un grand , puis prendre une petite partie aléatoire de la liste finale) . Je donne un argument très informel qui est plus une explication qu'une preuve.(λ−μ)N=N N n N
Considérons dans l'espace d'observation et un petit volume autour de avec le volume de Lebesgue . Après échantillonnage à partir de , le nombre d'éléments de la liste qui sont également en est approximativement . Après la deuxième étape, approximativement sera supprimé et vous aurez approximativement le nombre souhaité . Pour cela, vous devez supposer que le nombre de points dans le volume est suffisamment grand.x v x ϵ g v λNg(x)ϵ μNh(x)ϵ Np(x)ϵ
Il est très peu probable que cette méthode résiste aux grandes dimensions ou à certaines pathologies de et mais pourrait fonctionner en petites dimensions et avec des distributions suffisamment lisses et "suffisamment uniformes".g h
Remarque sur une méthode exacte:
J'ai d'abord pensé à cela pour des distributions discrètes, et clairement dans ce cas, la méthode n'est pas exacte, car elle peut générer des échantillons qui ont une probabilité 0. J'ai la forte intuition qu'une méthode exacte n'est pas possible avec un temps de traitement fini, et que cela l'impossibilité pourrait être prouvée, au moins pour les distributions discrètes. La règle du jeu est que vous ne pouvez utiliser que des échantillonneurs "oracle" exacts pour et mais ne connaissez pas et comme fonctions de . Pour plus de simplicité, limitez-vous aux distributions de Bernoulli. L'inexistence d'une méthode exacte est liée à la théorie de Bernoulli Factory : si vous pouviez créer un -coin à partir d'ung h g h x (λp−μq) p -coin et un -coin, alors vous pourriez créer un -coin à partir d'un -coin qui est connu pour être impossible pour .q λp p λ>1
la source