Échantillonnage efficace d'une distribution bêta seuil

Comment dois-je échantillonner efficacement la distribution suivante?

x \sim B (α, β), x > k

$x \sim B(\alpha, \beta),\space x > k$

Si n'est pas trop grand, l'échantillonnage de rejet peut être la meilleure approche, mais je ne sais pas comment procéder lorsque est grand. Peut-être existe-t-il une approximation asymptotique qui peut être appliquée? $k$ $k$

random-generation beta-distribution truncation user1502040
la source

Il n'est pas clair sans ambiguïté ce que vous entendez par "

". Voulez-vous dire une distribution bêta tronquée (tronquée à gauche en

x \sim B (α, β), x > k

$x \sim B(\alpha, \beta),\space x > k$

k

$k$

Glen_b -Reinstate Monica

@Glen_b exactement.

user1502040

Pour les deux paramètres de forme supérieurs à 1, la distribution bêta est log-concave, de sorte que des enveloppes exponentielles peuvent être utilisées pour l'échantillonnage de rejet. Pour générer des variantes bêta non tronquées que vous échantillonnez déjà à partir de distributions exponentielles tronquées (ce qui est facile à faire), il devrait être simple d'adapter cette méthode.

Scortchi - Réintégrer Monica

Réponses:

La manière la plus simple et la plus générale qui s'applique à n'importe quelle distribution tronquée (elle peut également être généralisée à la troncature des deux côtés) est d'utiliser l' échantillonnage par transformée inverse . Si est la distribution cumulative des intérêts, alors et prendre $F$ $p_0 = F(k)$

U \sim U (p_{0}, 1) X = F^{- 1} (U)

$U \sim \mathcal{U}(p_0, 1) \\ X = F^{-1}(U)$

où est un échantillon de tronqué à gauche en . La fonction quantile tracera probabilités à des échantillons de . Étant donné que nous prenons les valeurs de uniquement dans la "zone" qui correspond aux valeurs de la distribution bêta de la région non tronquée, vous n'échantillonnerez que ces valeurs. $X$ $F$ $k$ $F^{-1}$ $F$ $U$

Cette méthode est illustrée sur l'image ci-dessous où la zone tronquée est marquée par un rectangle gris, les points en rouge sont tirés de la distribution puis transformés en échantillons . $\mathcal{U}(p_0, 1)$ $\mathcal{B}(2, 8)$

Tim
la source

(+1) Il convient de noter que la fonction quantile n'est pas si facile à évaluer.

Scortchi - Réintégrer Monica

@Scortchi Si a ou b valent 1 ou au moins un entier, il y a une forme pas si mauvaise (voir wikipedia ). Et en Python il y a scipy.special.betaincpour l'inverse et en R il y en a pbeta.

Graipher

@Graipher: J'aurais dû dire "à bon marché, en général" - il serait préférable d'éviter Newton-Raphson ou d'autres solutions itératives si possible. (BTW c'est qbetapour la fonction quantile en R.)

Scortchi - Reinstate Monica

@Scortchi vous avez raison, mais dans la plupart des cas, pour les ordinateurs modernes, cela ne devrait pas être un problème majeur. Je recommande également cette approche car elle est directement disponible dans la plupart des logiciels et peut être généralisée à n'importe quelle distribution tronquée, uniquement si l'on a accès à la fonction quantile.

Tim

Sans aucun doute, il est bon d'avoir à portée de main une méthode généralement applicable et facile à mettre en œuvre dont le temps d'exécution ne croît pas avec

; & pour les distributions avec des fonctions quantiles de forme fermée, par exemple le Weibull, il doit être aussi bon que possible. Néanmoins, je soupçonne que

devra être réglé pour couper une assez grande partie de la distribution bêta avant de battre les algorithmes d'échantillonnage de rejet efficaces qui sont également disponibles dans la plupart des logiciels et qui ne reposent que sur le calcul de la densité de probabilité de la bêta.

k

$k$

k

$k$

Scortchi - Réintégrer Monica

La réponse de @ Tim montre comment l'échantillonnage par transformée inverse peut être adapté pour les distributions tronquées, libérant ainsi le temps d'exécution de la dépendance au seuil . D'autres gains d'efficacité peuvent être obtenus en évitant une évaluation numérique coûteuse de la fonction quantile bêta et en utilisant l'échantillonnage à transformée inverse dans le cadre de l'échantillonnage de rejet. $k$

La fonction de densité d'une distribution bêta avec des paramètres de forme & doublement tronqués à (pour un peu plus de généralité) est $\alpha$ $\beta$ $k_1<k_2$

F (X) = \frac{X^{(α - 1)} (1 - X)^{(β - 1)}}{B (k 2, α, β) - B (k_{1}, α, β)}

$f(x) = \frac{x^{(\alpha-1)}(1-x)^{(\beta-1)}}{\operatorname{B}(k2, \alpha, \beta) - \operatorname{B}(k_1, \alpha, \beta)}$

Prenez n'importe quelle partie augmentant de façon monotone de la densité entre et : pour elle est log-concave, de sorte que vous pouvez l'envelopper avec une fonction exponentielle dessinée à une tangente en tout point le long de celle-ci: $x_\mathrm{L}$ $x_\mathrm{U}$ $\alpha,\beta>1$

g (X) = c \cdot λ e^{- λ (X - X_{L})}

$g(x) = c \cdot \lambda \mathrm{e}^{-\lambda (x-x_\mathrm{L})}$

$\lambda$

- λ = \frac{une - 1}{X} - \frac{b - 1}{1 - X}

$-\lambda = \frac{a-1}{x} - \frac{b-1}{1-x}$

c

$c$

c = \frac{F (X)}{λ e^{- λ (X - X_{L})}}

$c = \frac{f(x)}{\lambda\mathrm{e}^{-\lambda(x-x_\mathrm{L})}}$

UNE = c \cdot (1 - e^{- λ (X_{U} - X_{L})})

$A = c \cdot (1 - \mathrm{e}^{-\lambda(x_\mathrm{U}-x_\mathrm{L})})$

x

$x$

λ

$\lambda$

c

$c$

\begin{aligned} Q (X) = & \frac{X^{une} (1 - X)^{b}}{(une + b - 2) X - une + 1} \cdot \\ [\exp (\frac{(b - 1) (X - X_{L})}{1 - X} + \frac{X_{L} (une - 1)}{X} - (une - 1)) - \\ \exp (\frac{(b - 1) (X - X_{U})}{1 - X} + \frac{X_{U} (une - 1)}{X} - (une - 1))] \end{aligned}

$\begin{align} Q(x)= & \frac{x^a (1-x)^b}{(a+b-2)x - a+1} \cdot\\ & \left[\exp\left(\frac{(b-1)(x-x_L)}{1-x} + \frac{x_L (a-1)}{x} - (a-1)\right) - \right.\\ & \left. \exp\left(\frac{(b-1)(x-x_U)}{1-x} + \frac{x_U(a-1)}{x} - (a-1)\right)\right]\\ \end{align}$

$\frac{\mathrm{d} Q}{\mathrm{d} x}$ $x$ $\frac{\mathrm{d} Q}{\mathrm{d} x} = 0$

$k_1$ $k_2$ $U$ $\frac{- \log(1-U)}{\lambda}$ $\lambda$

La beauté de cette approche est que tout le travail est mis en place. Une fois la fonction d'enveloppe définie, la constante de normalisation de la densité bêta tronquée calculée, il ne reste plus qu'à générer des variations aléatoires uniformes et à effectuer sur elles quelques opérations arithmétiques simples, journaux et puissances, et comparaisons. Le resserrement de la fonction enveloppe - avec des lignes horizontales ou des courbes plus exponentielles - peut bien sûr réduire le nombre de rejets.

Scortchi - Réintégrer Monica
la source

+1 Belle idée. Étant donné que la bêta est approximativement normale pour des valeurs modestes à grandes de ses paramètres, en fonction de leur proximité, l'utilisation d'une enveloppe gaussienne pourrait être encore un peu plus efficace.

whuber

α < 1

$\alpha<1$

β < 1

$\beta<1$

α

$\alpha$

β

$\beta$

@whuber: (1) L'approche que j'ai adoptée ici pour construire des enveloppes ne fonctionnerait pas car les densités ne sont pas log-concaves. (2) (a) Je voulais dire certainement les fonctions algébriques + journaux et pouvoirs, trig. fonctions si on me l'avait demandé, et peut-être même des fonctions gamma - j'avoue que je n'avais pas de notion précise. (b) Point pris - les évaluations rapides des fonctions ne se limitent pas à celles dont les formulaires sont fermés.

Scortchi - Réintégrer Monica

α < 1

$\alpha\lt 1$

β < 1

$\beta \lt 1$