Somme des coefficients de distribution multinomiale

10

Je jette un dé équitable. Chaque fois que j'obtiens un 1, 2 ou 3, j'écris un «1»; chaque fois que j'obtiens un 4, j'écris un «2»; chaque fois que j'obtiens un 5 ou un 6, j'écris un «3».

Soit N le nombre total de lancers dont j'ai besoin pour que le produit de tous les nombres que j'ai notés soit 100000 . Je veux calculer (ou approximer) P(N25) , et une approximation peut être donnée en fonction de la distribution normale.

Tout d'abord, je sais que P(N11)=1 parce que log3100.00010.48 . Maintenant, soit a , b et c le nombre de fois où j'ai noté 1, 2 et 3, respectivement. Alors:

P(a,b,cn)={(na,b,c)(12)a(16)b(13)c if a+b+c=n0 otherwise

Ce que je veux calculer, c'est:

P(a+b+c252b3c100000)

Comment puis-je calculer cela?

--ÉDITER:

Il a donc été suggéré de remplacer la condition par:

P(a+b+c25αa+βb+γcδ)

où , , et .α=0β=log2γ=log3δ=log100000

Cela semble plus résoluble! Je n'ai malheureusement toujours aucune idée de comment le résoudre.

Pedro Carvalho
la source
2
+1 Ce problème pourrait sembler un peu plus familier et se prêter plus évidemment à des solutions approximatives, si vous deviez écrire la condition sous la forme où et . αa+βb+γcδα=0,β=log(2),γ=log(3),δ=log(100000)
whuber
J'ai ajouté cette nouvelle façon d'écrire la condition, mais je n'ai malheureusement toujours pas la moindre idée de comment résoudre ce problème!
Pedro Carvalho
Un autre indice est que s'il y a occurrences de «2», vous vous arrêterez. Vous pouvez donc l'approcher avec un binôme négatif avec les paramètres et (également avec et ). La réponse exacte est également gérable car il n'y a pas beaucoup de combinaisons. En outre, la condition est pas exacte - vous devez inclure que « 2 » ou « 3 » a été enregistré sur la ième rouleau17170.5111/3N
probabilityislogic

Réponses:

1

La présente question est un cas spécifique où vous avez affaire à une quantité qui est une fonction linéaire d'une variable aléatoire multinomiale. Il est possible de résoudre votre problème exactement en énumérant les combinaisons multinomiales qui satisfont l'inégalité requise et en additionnant la distribution sur cette plage. Dans le cas où est grand, cela peut devenir impossible à calculer. Dans ce cas, il est possible d'obtenir une distribution approximative en utilisant l'approximation normale au multinomial. Une version généralisée de cette approximation est présentée ci-dessous, puis elle est appliquée à votre exemple spécifique.N


Problème général d'approximation: Supposons que nous ayons une séquence de variables aléatoires échangeables de gamme . Pour tout nous pouvons former le vecteur de comptage , qui compte le nombre de apparitions de chaque résultat dans les premières valeurs de la séquence. Puisque la séquence sous-jacente est échangeable, le vecteur de comptage est distribué comme suit:n N1,2,...,mnNnXX(n)(X1,X2,...,Xm)n

X ~ Mu(n,θ)θ=limnX(n)/n.

Supposons maintenant que nous ayons un vecteur de poids non négatifs et que nous utilisons ces poids pour définir la fonction linéaire:w=(w1,w2,...,wm)

A(n)i=1mwiXi.

Puisque les poids ne sont pas négatifs, cette nouvelle quantité n'est pas décroissante en . Nous définissons ensuite le nombre , qui est le plus petit nombre d'observations nécessaires pour obtenir une valeur minimale spécifiée pour notre fonction linéaire. Nous voulons approximer la distribution de dans le cas où cette valeur est (stochastiquement) grande.N ( a ) min { n N | A ( n ) a } N ( a )nN(a)min{nN|A(n)a}N(a)


Résoudre le problème général d'approximation: Premièrement, nous notons que puisque n'est pas décroissant dans (qui tient parce que nous avons supposé que tous les poids sont non négatifs), nous avons:nA(n)n

P(N(a)n)=P(N(a)>n1)=P(A(n1)<a).

Par conséquent, la distribution de est directement lié à la distribution de . En supposant que la première quantité est grande, nous pouvons approximer la distribution de cette dernière en remplaçant le vecteur aléatoire discret par une approximation continue de la distribution normale multivariée. Cela conduit à une approximation normale pour la quantité linéaire , et nous pouvons calculer directement les moments de cette quantité. Pour ce faire, nous utilisons le fait que , et pour . Avec une algèbre de base, cela nous donne:A X A ( n ) E ( X i ) = n θ i V ( X i ) = n θ i ( 1 - θ i ) C ( X i , X j ) = - n θ i θ j i jNAXA(n)E(Xi)=nθiV(Xi)=nθi(1θi)C(Xi,Xj)=nθiθjij

μE(1nA(n))=i=1mwiθi,

σ2V(1nA(n))=i=1mwiθi(i=1mwiθi)2=μ(1μ).

Prendre l'approximation normale du multinomial nous donne maintenant la distribution approximative . L'application de cette approximation donne:A(n) ~ N(nμ,nμ(1μ))

P(N(a)n)=P(A(n1)<a)Φ(a(n1)μ(n1)μ(1μ)).

(Le symbole est la notation standard pour la fonction de distribution normale standard.) Il est possible d'appliquer cette approximation pour trouver des probabilités relatives à la quantité pour une valeur spécifiée de . Il s'agit d'une approximation de base qui n'a pas tenté d'incorporer une correction de continuité sur les valeurs des valeurs de comptage multinomiales sous-jacentes. Il est obtenu en prenant une approximation normale en utilisant les mêmes deux premiers moments centraux que la fonction linéaire exacte.N ( a ) aΦN(a)a


Application à votre problème: dans votre problème, vous avez des probabilités , poids , et valeur de coupure . Vous avez donc (arrondi à six décimales) . En appliquant l'approximation ci-dessus, nous avons (arrondi à six décimales):w=(0,ln2,ln3)a=ln100000μ=1θ=(12,16,13)w=(0,ln2,ln3)a=ln100000μ=16ln2+13ln3=0.481729

P(N(a)25)Φ(ln100000240.481729240.499666)=Φ(0.019838)=0.492086.

En appliquant la distribution multinomiale exacte, en additionnant toutes les combinaisons satisfaisant à l'exigence , on peut montrer que le résultat exact est . Par conséquent, nous pouvons voir que l'approximation est assez proche de la réponse exacte dans le cas présent.P ( N ( a ) 25 ) = 0,483500P(A(24)<a)P(N(a)25)=0.483500

J'espère que cette réponse vous donnera une réponse à votre question spécifique, tout en la plaçant dans un cadre plus général de résultats probabilistes qui s'appliquent aux fonctions linéaires des vecteurs aléatoires multinomiaux. La présente méthode devrait vous permettre d'obtenir des solutions approximatives aux problèmes du type général auquel vous êtes confronté, permettant une variation des nombres spécifiques dans votre exemple.

Ben - Réintègre Monica
la source
0

Faisons une approximation normale.

Tout d'abord, reformulons complètement votre problème dans les journaux. Vous commencez à 0 au temps t = 0. Ensuite, à chaque pas de temps, vous ajoutez:

  • 0 avec probabilité 1/2

  • log(2) avec probabilité 1/6

  • log(3) avec probabilité 1/3

Vous arrêtez ce processus lorsque votre somme dépasse moment auquel vous regardez le nombre de lancers que vous avez effectués. Le nombre de lancers qu'il vous a fallu pour atteindre ce point est ^Nlog(105)N

Ma calculatrice me dit que la moyenne de vos incréments est: et que la variance est . Pour référence, le point final est à , nous allons donc l'atteindre en environ 24 étapes0,25 11,510.480.2511.51

À condition que nous ayons effectué 25 étapes, la distribution de la somme est à peu près une gaussienne centrée à 12,0 et avec une variance de 6,25. Cela nous donne une approximation gaussienne approximative dep(N25)0.5

Il faudrait regarder les cumulants de la somme à N = 25 pour savoir si l'approximation gaussienne est correcte ou non. Étant donné que les incréments ne sont pas symétriques, l'approximatif n'est peut-être pas le meilleur

Guillaume Dehaene
la source
1
Pouvez-vous terminer la dérivation pour moi? J'ai du mal à le voir. De plus, n'y a-t-il aucun moyen exact de le calculer?
Pedro Carvalho
1
Vous ne voulez pas dire "log (2)" et "log (3)" où vous avez log (1) et log (2)?
Glen_b -Reinstate Monica
@GuillaumeDehaene a écrit: .... Par mes calculs, de deux manières différentes, ce qui est très différent de 0,5P ( N 25 ) = 1 - P ( N 24 ) = 1 - 1127291856633071p(N25)0.5P(N25)=1P(N24)=1112729185663307164998372267786240.8266
wolfies
comment obtenez-vous P (n \ leq24) \ environ 0,18?
Guillaume Dehaene