Approximation simple de la distribution cumulative de Poisson en longue queue?

10

Je veux décider de la capacité d'une table afin qu'elle ait des cotes résiduelles inférieures à pour déborder pour un donné , en supposant que le nombre d'entrées suit une loi de Poisson avec une donnée espérance .C2pp[40120]E[1031012]

Idéalement, je veux le plus petit entier Ctel que 1-CDF[PoissonDistribution[E],C] < 2^-ppour donné pet E; mais je me contente d'un Cpeu plus haut que ça. Mathematica est très bien pour le calcul manuel, mais je voudrais calculer à Cpartir de pet Eau moment de la compilation, ce qui me limite à l'arithmétique entière 64 bits.

Mise à jour: Dans Mathematica (version 7) e = 1000; p = 40; c = Quantile[PoissonDistribution[e], 1 - 2^-p]est 1231et semble correct (merci @Procrastinator); cependant, le résultat pour les deux p = 50et p = 60est 1250, ce qui est faux du côté dangereux (et importe: mon expérience se répète comme fois ou plus, et je veux manifestement moins de probabilités globales d'échec). Je veux une approximation grossière mais sûre en utilisant uniquement l'arithmétique de 64 bits , disponible en C (++) au moment de la compilation.225230

fgrieu
la source
1
Et alors C = Quantile[PoissonDistribution[E],1-2^p]?
1
Le terme principal de la fonction de masse de probabilité du Poisson domine dans la queue.
Cardinal
1
@Procrastinator: oui, cela fonctionne dans Mathematica (sauf pour ples problèmes de signe et de précision, et les noms Eet Cqui sont réservés). MAIS j'ai besoin d'une simple approximation de cela, peut-être grossière (mais du bon côté) en utilisant uniquement l'arityhmétique 64 bits!
fgrieu
3
Concernant la mise à jour: Mathematica 8 renvoie 1262 pour et 1290 pour . Re Approximation normale (@Proc): on ne peut pas s'attendre à ce que cela fonctionne bien dans les queues, ce qui est crucial pour le calcul. p=50p=60
whuber
1
Vous devriez peut-être demander sur stackoverflow. Je ne connais pas les contraintes que vous avez. Je ne sais pas ce qui vous empêche d'utiliser l'allocation de mémoire dynamique, ou si vous pouvez utiliser la ramification pour décider de la taille du tableau, ou quels sont les coûts de définition d'un tableau qui est le double de la taille dont vous avez besoin (et ensuite de ne pas utiliser tout de celui-ci). Si une fonction comme (juste à titre d'exemple) a donné vous la réponse exacte, seriez-vous capable d'implémenter une approximation sous vos contraintes ou non? Cela semble être un problème de programmation maintenant. μ+loglogμlogμμ+pμlogμ
Douglas Zare

Réponses:

10

Une distribution de Poisson avec une moyenne élevée est approximativement normale, mais vous devez faire attention à ce que vous vouliez une limite de queue et l'approximation normale est proportionnellement moins précise près des queues.

Une approche utilisée dans cette question MO et avec les distributions binomiales consiste à reconnaître que la queue diminue plus rapidement qu'une série géométrique, vous pouvez donc écrire une limite supérieure explicite en tant que série géométrique.

k=Dexp(μ)μkk!<k=Dexp(μ)μDD!(μD+1)kD=exp(μ)μDD!11μD+1<exp(μ)μD2πD(D/e)D11μD+1=exp(Dμ)(μD)DD+12πD(D+1μ)

La ligne 2 ligne 3 était liée à la formule de Stirling. En pratique, je pense que vous voulez alors résoudre numériquement en utilisant la recherche binaire. La méthode de Newton commençant par une estimation initiale dedevrait également fonctionner.plog2=log(bound)D=μ+cμ.

Par exemple, avec et , la solution numérique que j'obtiens est 1384,89. Une distribution de Poisson avec une moyenne de prend les valeurs de à avec une probabilité deLes valeurs à se produisent avec la probabilitép=100μ=100010000138411/2100.06.0138311/299.59.

Douglas Zare
la source
1
+1. Une autre approche relie les probabilités de queue de Poisson (à droite) aux probabilités de queue des distributions Gamma (à gauche), qui peuvent être étroitement (surestimées) avec une approximation du point de selle.
whuber
Il y a un long chemin à parcourir jusqu'à quelque chose limité à l'arithmétique entière 64 bits (sans exp, log, sqrt ..) mais je vais y travailler; Merci a tous!
fgrieu
(+1) Jusqu'à l'invocation de l'approximation de Stirling (qui n'est pas pertinente), c'est exactement la limite à laquelle je faisais référence (de manière opaque) dans mon commentaire au PO. (Par exemple, voir ici .)
Cardinal
2

Vous pouvez voir P. Harremoës: Sharp Bounds on Tail Probabilities for Poisson Random Variables https://helda.helsinki.fi/bitstream/handle/10138/229679/witmse_proc_17.pdf Les principales inégalités sont les suivantes. Soit une variable aléatoire de Poisson avec le paramètre . Mettez Soit la fonction de distribution cumulative pour la loi normale standard. Alors, pour tout entier , ce qui équivaut à pour tout entierYλ

G(x)=2(xlnxλ+λx)  sign(xλ).
Φk0
P(Y<k)Φ(G(k))P(Yk),
Φ(G(k1))P(Y<k)Φ(G(k))
k>0. De plus, ce qui implique que pour tout entier .Φ(G(k+(1/2)))P(Yk)
Φ(G(k1/2))P(Y<k)Φ(G(k))
k>0

Pavel Ruzankin
la source
Si vous pouviez écrire l'équation clé (en supposant qu'il n'y en a qu'une ou deux), cela aiderait au cas où le lien disparaîtrait à un moment donné.
jbowman