Somme des coefficients de distribution multinomiale

$\newcommand{\P}{\mathbb{P}}$ Je jette un dé équitable. Chaque fois que j'obtiens un 1, 2 ou 3, j'écris un «1»; chaque fois que j'obtiens un 4, j'écris un «2»; chaque fois que j'obtiens un 5 ou un 6, j'écris un «3».

Soit $N$ le nombre total de lancers dont j'ai besoin pour que le produit de tous les nombres que j'ai notés soit $\geq 100000$ . Je veux calculer (ou approximer) $\P(N\geq 25)$ , et une approximation peut être donnée en fonction de la distribution normale.

Tout d'abord, je sais que $\P(N\geq 11) = 1$ parce que $\log_3 100.000 \approx 10.48$ . Maintenant, soit $a$ , $b$ et $c$ le nombre de fois où j'ai noté 1, 2 et 3, respectivement. Alors:

P (a, b, c ∣ n) = {\begin{cases} (\binom{n}{a, b, c}) {(\frac{1}{2})}^{a} {(\frac{1}{6})}^{b} {(\frac{1}{3})}^{c} & if a + b + c = n \\ 0 & otherwise \end{cases}

$\P(a,b,c\mid n) = \begin{cases}\displaystyle\binom {n}{a, b, c} \left(\frac 1 2\right) ^ a \left(\frac 1 6\right)^b\left(\frac 1 3\right)^c &\text{ if } a + b + c = n \\ 0 &\text{ otherwise}\end{cases}$

Ce que je veux calculer, c'est:

P (a + b + c \geq 25 ∣ 2^{b} 3^{c} \geq 100000)

$\P(a + b + c \geq 25 \mid 2^b3^c\geq 100000)$

Comment puis-je calculer cela?

--ÉDITER:

Il a donc été suggéré de remplacer la condition par:

P (a + b + c \geq 25 ∣ α a + β b + γ c \geq δ)

$\P(a + b + c \geq 25 \mid \alpha a + \beta b + \gamma c \geq \delta)$

où , , et . $\alpha = 0$ $\beta = \log 2$ $\gamma = \log 3$ $\delta = \log 100000$

Cela semble plus résoluble! Je n'ai malheureusement toujours aucune idée de comment le résoudre.

probability normal-distribution conditional-probability multinomial distributions Pedro Carvalho
la source

+1 Ce problème pourrait sembler un peu plus familier et se prêter plus évidemment à des solutions approximatives, si vous deviez écrire la condition sous la forme où et .

α a + β b + γ c \geq δ

$\alpha a + \beta b + \gamma c \ge \delta$

α = 0, β = \log (2), γ = \log (3),

$\alpha=0, \beta=\log(2), \gamma=\log(3),$

δ = \log (100000)

$\delta=\log(100000)$

whuber

J'ai ajouté cette nouvelle façon d'écrire la condition, mais je n'ai malheureusement toujours pas la moindre idée de comment résoudre ce problème!

Pedro Carvalho

Un autre indice est que s'il y a occurrences de «2», vous vous arrêterez. Vous pouvez donc l'approcher avec un binôme négatif avec les paramètres et (également avec et ). La réponse exacte est également gérable car il n'y a pas beaucoup de combinaisons. En outre, la condition est pas exacte - vous devez inclure que « 2 » ou « 3 » a été enregistré sur la ième rouleau

17

$17$

17

$17$

0.5

$0.5$

11

$11$

1 / 3

$1/3$

N

$N$

probabilityislogic

Réponses:

La présente question est un cas spécifique où vous avez affaire à une quantité qui est une fonction linéaire d'une variable aléatoire multinomiale. Il est possible de résoudre votre problème exactement en énumérant les combinaisons multinomiales qui satisfont l'inégalité requise et en additionnant la distribution sur cette plage. Dans le cas où est grand, cela peut devenir impossible à calculer. Dans ce cas, il est possible d'obtenir une distribution approximative en utilisant l'approximation normale au multinomial. Une version généralisée de cette approximation est présentée ci-dessous, puis elle est appliquée à votre exemple spécifique. $N$

Problème général d'approximation: Supposons que nous ayons une séquence de variables aléatoires échangeables de gamme . Pour tout nous pouvons former le vecteur de comptage , qui compte le nombre de apparitions de chaque résultat dans les premières valeurs de la séquence. Puisque la séquence sous-jacente est échangeable, le vecteur de comptage est distribué comme suit: $1, 2, ..., m$ $n \in \mathbb{N}$ $\boldsymbol{X} \equiv \boldsymbol{X} (n) \equiv (X_1, X_2, ..., X_m)$ $n$

\begin{array}{ll} X ~ Mu (n, θ) & θ = lim_{n \to \infty} X (n) / n . \end{array}

$\begin{array} \boldsymbol{X} \text{ ~ Mu}(n, \boldsymbol{\theta}) & & \boldsymbol{\theta} = \lim_{n \rightarrow \infty} \boldsymbol{X}(n)/n. \end{array}$

Supposons maintenant que nous ayons un vecteur de poids non négatifs et que nous utilisons ces poids pour définir la fonction linéaire: $\boldsymbol{w} = (w_1, w_2, ..., w_m)$

A (n) \equiv \sum_{i = 1}^{m} w_{i} X_{i} .

$A(n) \equiv \sum_{i=1}^m w_i X_i.$

Puisque les poids ne sont pas négatifs, cette nouvelle quantité n'est pas décroissante en . Nous définissons ensuite le nombre , qui est le plus petit nombre d'observations nécessaires pour obtenir une valeur minimale spécifiée pour notre fonction linéaire. Nous voulons approximer la distribution de dans le cas où cette valeur est (stochastiquement) grande. $n$ $N(a) \equiv \min \{ n \in \mathbb{N} | A(n) \geqslant a \}$ $N(a)$

Résoudre le problème général d'approximation: Premièrement, nous notons que puisque n'est pas décroissant dans (qui tient parce que nous avons supposé que tous les poids sont non négatifs), nous avons: $A(n)$ $n$

P (N (a) ⩾ n) = P (N (a) > n - 1) = P (A (n - 1) < a) .

$\mathbb{P} (N(a) \geqslant n) = \mathbb{P} (N(a) > n - 1) = \mathbb{P} (A(n-1) < a).$

Par conséquent, la distribution de est directement lié à la distribution de . En supposant que la première quantité est grande, nous pouvons approximer la distribution de cette dernière en remplaçant le vecteur aléatoire discret par une approximation continue de la distribution normale multivariée. Cela conduit à une approximation normale pour la quantité linéaire , et nous pouvons calculer directement les moments de cette quantité. Pour ce faire, nous utilisons le fait que , et pour . Avec une algèbre de base, cela nous donne: $N$ $A$ $\boldsymbol{X}$ $A(n)$ $\mathbb{E}(X_i) = n \theta_i$ $\mathbb{V}(X_i) = n \theta_i (1 - \theta_i)$ $\mathbb{C}(X_i, X_j) = -n \theta_i \theta_j$ $i \neq j$

μ \equiv E (\frac{1}{n} A (n)) = \sum_{i = 1}^{m} w_{i} θ_{i},

$\mu \equiv \mathbb{E}\left(\frac{1}{n} A(n)\right) = \sum_{i=1}^m w_i \theta_i,$

σ^{2} \equiv V (\frac{1}{\sqrt{n}} A (n)) = \sum_{i = 1}^{m} w_{i} θ_{i} - {(\sum_{i = 1}^{m} w_{i} θ_{i})}^{2} = μ (1 - μ) .

$\sigma^2 \equiv \mathbb{V}\left(\frac{1}{\sqrt{n}} A(n)\right) = \sum_{i=1}^m w_i \theta_i - \left(\sum_{i=1}^m w_i \theta_i\right)^2 = \mu (1 - \mu).$

Prendre l'approximation normale du multinomial nous donne maintenant la distribution approximative . L'application de cette approximation donne: $A(n) \text{ ~ N} (n \mu, n \mu (1 - \mu))$

P (N (a) ⩾ n) = P (A (n - 1) < a) \approx Φ (\frac{a - (n - 1) μ}{\sqrt{(n - 1) μ (1 - μ)}}) .

$\mathbb{P} (N(a) \geqslant n) = \mathbb{P} (A(n-1) < a) \approx \Phi \left(\frac{a - (n-1) \mu}{\sqrt{(n-1) \mu (1 - \mu)}}\right).$

(Le symbole est la notation standard pour la fonction de distribution normale standard.) Il est possible d'appliquer cette approximation pour trouver des probabilités relatives à la quantité pour une valeur spécifiée de . Il s'agit d'une approximation de base qui n'a pas tenté d'incorporer une correction de continuité sur les valeurs des valeurs de comptage multinomiales sous-jacentes. Il est obtenu en prenant une approximation normale en utilisant les mêmes deux premiers moments centraux que la fonction linéaire exacte. $\Phi$ $N(a)$ $a$

Application à votre problème: dans votre problème, vous avez des probabilités , poids , et valeur de coupure . Vous avez donc (arrondi à six décimales) . En appliquant l'approximation ci-dessus, nous avons (arrondi à six décimales): $\boldsymbol{\theta} = (\tfrac{1}{2}, \tfrac{1}{6}, \tfrac{1}{3})$ $\boldsymbol{w} = (0, \ln 2, \ln 3)$ $a = \ln 100000$ $\mu = \tfrac{1}{6}\ln 2 + \tfrac{1}{3}\ln 3 = 0.481729$

P (N (a) ⩾ 25) \approx Φ (\frac{\ln 100000 - 24 \cdot 0.481729}{\sqrt{24} \cdot 0.499666}) = Φ (- 0.019838) = 0.492086.

$\mathbb{P}(N(a) \geqslant 25) \approx \Phi \left(\frac{\ln 100000 - 24 \cdot 0.481729}{\sqrt{24} \cdot 0.499666}\right) =\Phi (-0.019838) = 0.492086.$

En appliquant la distribution multinomiale exacte, en additionnant toutes les combinaisons satisfaisant à l'exigence , on peut montrer que le résultat exact est . Par conséquent, nous pouvons voir que l'approximation est assez proche de la réponse exacte dans le cas présent. $\mathbb{P}(A(24) < a)$ $\mathbb{P}(N(a) \geqslant 25) = 0.483500$

J'espère que cette réponse vous donnera une réponse à votre question spécifique, tout en la plaçant dans un cadre plus général de résultats probabilistes qui s'appliquent aux fonctions linéaires des vecteurs aléatoires multinomiaux. La présente méthode devrait vous permettre d'obtenir des solutions approximatives aux problèmes du type général auquel vous êtes confronté, permettant une variation des nombres spécifiques dans votre exemple.

Ben - Réintègre Monica
la source

Faisons une approximation normale.

Tout d'abord, reformulons complètement votre problème dans les journaux. Vous commencez à 0 au temps t = 0. Ensuite, à chaque pas de temps, vous ajoutez:

0 avec probabilité 1/2
$\log(2)$ avec probabilité 1/6
$\log(3)$ avec probabilité 1/3

Vous arrêtez ce processus lorsque votre somme dépasse moment auquel vous regardez le nombre de lancers que vous avez effectués. Le nombre de lancers qu'il vous a fallu pour atteindre ce point est ^ $\log(10^5)$ $N$

Ma calculatrice me dit que la moyenne de vos incréments est: et que la variance est . Pour référence, le point final est à , nous allons donc l'atteindre en environ 24 étapes $\approx 0.48$ $\approx 0.25$ $\approx 11.51$

À condition que nous ayons effectué 25 étapes, la distribution de la somme est à peu près une gaussienne centrée à 12,0 et avec une variance de 6,25. Cela nous donne une approximation gaussienne approximative de $p(N\geq25)\approx 0.5$

Il faudrait regarder les cumulants de la somme à N = 25 pour savoir si l'approximation gaussienne est correcte ou non. Étant donné que les incréments ne sont pas symétriques, l'approximatif n'est peut-être pas le meilleur

Guillaume Dehaene
la source

Pouvez-vous terminer la dérivation pour moi? J'ai du mal à le voir. De plus, n'y a-t-il aucun moyen exact de le calculer?

Pedro Carvalho

Vous ne voulez pas dire "log (2)" et "log (3)" où vous avez log (1) et log (2)?

Glen_b -Reinstate Monica

@GuillaumeDehaene a écrit: .... Par mes calculs, de deux manières différentes, ce qui est très différent de 0,5

p (N \geq 25) \approx 0.5

$p(N\geq25)\approx 0.5$

P (N \geq 25) = 1 - P (N \leq 24) = 1 - \frac{1127291856633071}{6499837226778624} \approx 0.8266

$P(N\geq25) = 1 - P(N\leq 24) = 1 - \frac{1127291856633071}{6499837226778624} \approx 0.8266$

wolfies

comment obtenez-vous P (n \ leq24) \ environ 0,18?

Guillaume Dehaene