Relation entre les distributions binomiale et bêta

27

Je suis plus programmeur que statisticien, donc j'espère que cette question n'est pas trop naïve.

Cela se produit lors de l'échantillonnage des exécutions de programme à des moments aléatoires. Si je prends N = 10 échantillons aléatoires de l'état du programme, je pourrais voir la fonction Foo s'exécuter, par exemple, I = 3 de ces échantillons. Je m'intéresse à ce que cela m'apprend sur la fraction réelle de temps F pendant laquelle Foo est en exécution.

Je comprends que je suis binomialement distribué avec une moyenne F * N. Je sais également que, étant donné I et N, F suit une distribution bêta. En fait, j'ai vérifié par programme la relation entre ces deux distributions, ce qui est

cdfBeta(I, N-I+1, F) + cdfBinomial(N, F, I-1) = 1

Le problème est que je n'ai pas de sens intuitif pour la relation. Je ne peux pas "imaginer" pourquoi cela fonctionne.

EDIT: Toutes les réponses étaient difficiles, en particulier @ whuber, que j'ai encore besoin de chercher, mais apporter des statistiques d'ordre était très utile. Néanmoins, j'ai réalisé que j'aurais dû poser une question plus fondamentale: étant donné I et N, quelle est la distribution de F? Tout le monde a fait remarquer que c'est Beta, que je connaissais. J'ai finalement compris à partir de Wikipedia ( Conjugate prior ) que cela semble être le cas Beta(I+1, N-I+1). Après l'avoir exploré avec un programme, cela semble être la bonne réponse. Je voudrais donc savoir si je me trompe. Et, je suis toujours confus quant à la relation entre les deux cdfs montrés ci-dessus, pourquoi ils totalisent 1, et s'ils ont même quelque chose à voir avec ce que je voulais vraiment savoir.

Mike Dunlavey
la source
Si "ce que vous vouliez réellement savoir" est "la fraction réelle de temps pendant laquelle Foo est en cours d'exécution", alors vous vous interrogez sur un intervalle de confiance binomial ou un intervalle crédible binomial (bayésien).
whuber
@whuber: Eh bien, j'utilise la méthode de réglage aléatoire des performances depuis plus de 3 décennies, et d'autres personnes l'ont également découverte. J'ai dit aux gens que si une condition était vraie sur 2 échantillons aléatoires ou plus, le supprimer permettrait d'économiser une bonne fraction de temps. À quel point une fraction est bonne, j'ai essayé d'être explicite, en supposant que nous ne connaissions pas de préalable bayésien. Voici la flamme générale: stackoverflow.com/questions/375913/… et stackoverflow.com/questions/1777556/alternatives-to-gprof/…
Mike Dunlavey
1
Bonne idée. L'hypothèse statistique est que l'interruption est indépendante de l'état d'exécution, ce qui est une hypothèse raisonnable. Un intervalle de confiance binomial est un bon outil à utiliser pour représenter l'incertitude. (Cela peut aussi être révélateur: dans votre situation 3/10, un IC symétrique à 95% bilatéral pour la vraie probabilité est [6,7%, 65,2%]. Dans une situation 2/10, l'intervalle est [2,5 %, 55,6%]. Ce sont de larges plages! Même avec 2/3, la limite inférieure est toujours inférieure à 10%. La leçon ici est que quelque chose d'assez rare peut se produire deux fois.)
whuber
@whuber: Merci. Tu as raison. Quelque chose de plus utile est la valeur attendue. En ce qui concerne les précédents, je souligne que si vous ne voyez quelque chose qu'une seule fois, cela ne vous dit pas grand-chose à moins que vous ne sachiez que le programme est dans une boucle infinie (ou excessivement longue).
Mike Dunlavey
Je pense que toutes les réponses et commentaires ont certainement été éclairants et corrects, mais personne n'a vraiment abordé l'égalité intéressante que @MikeDunlavey a mise dans son message d'origine. Cette égalité peut être trouvée sur la bêta wikipedia en.wikipedia.org/wiki/Beta_function#Incomplete_beta_function mais il n'y a aucune description donnée de la raison pour laquelle c'est le cas, c'est juste indiqué comme une propriété.
bdeonovic

Réponses:

27

Considérez les statistiques d'ordre de tirages indépendants à partir d'une distribution uniforme. Étant donné que les statistiques d'ordre ont des distributions bêta , la probabilité que ne dépasse pas est donnée par l'intégrale bêtax[0]x[1]x[n]n+1x[k]p

Pr[x[k]p]=1B(k+1,nk+1)0pxk(1x)nkdx.

(Pourquoi est-ce? Voici une démonstration non rigoureuse mais mémorable. La chance que se situe entre et est la chance que sur valeurs uniformes, d'entre elles se trouvent entre et , au moins l'un d'entre eux se situe entre et , et le reste se situe entre et Pour le premier ordre dans le infinitésimal, il suffit de considérer le cas où exactement une valeur (à savoir, lui-même) se situe entre et et doncx[k]pp+dpn+1k0ppp+dpp+dp1dpx[k]pp+dpnk valeurs dépassent . Comme toutes les valeurs sont indépendantes et uniformes, cette probabilité est proportionnelle à . Au premier ordre en cela équivaut à , précisément l'intégrande de la distribution bêta. Le terme peut être calculé directement à partir de cet argument comme le coefficient multinomial ou dérivé indirectement comme la constante de normalisation de l'intégrale.)p+dppk(dp)(1pdp)nkdppk(1p)nkdp1B(k+1,nk+1)(n+1k,1,nk)

Par définition, l'événement est que la valeur ne dépasse pas . De manière équivalente, au moins des valeurs ne dépassent pas : cette affirmation simple (et j'espère évidente) fournit l'intuition que vous recherchez. La probabilité de la déclaration équivalente est donnée par la distribution binomiale,x[k]pk+1stp k+1p

Pr[at least k+1 of the xip]=j=k+1n+1(n+1j)pj(1p)n+1j.

En résumé , l'intégrale bêta décompose le calcul d'un événement en une série de calculs: trouver au moins valeurs dans la plage , dont nous calculerions normalement la probabilité avec un cdf binomial, se décompose en cas exclusifs où exactement valeurs sont dans la plage et 1 valeur est dans la plage pour tous les , , et est une longueur infinitésimale. La sommation sur toutes ces "fenêtres" - c'est-à-dire l'intégration - doit donner la même probabilité que le cdf binomial.k+1[0,p] k[0,x][x,x+dx]x0x<pdx[x,x+dx]

texte alternatif

whuber
la source
J'apprécie l'effort. Je vais devoir vraiment étudier ça parce que ce n'est pas ma "langue maternelle". De plus, je vois beaucoup de signes dollar et de mise en forme. Y a-t-il quelque chose que je ne connais pas qui fait ressembler à de vrais mathématiques?
Mike Dunlavey
Qu'est-il arrivé? Tout d'un coup, les mathématiques sont apparues, et taper ici est devenu très lent.
Mike Dunlavey
J'ai révisé la question, si vous voulez y jeter un œil. Merci.
Mike Dunlavey
1
Il est un peu tard, mais j'ai finalement eu le temps de m'asseoir et de recréer votre argument. La clé était le "coefficient multinomial". J'avais essayé de le comprendre en utilisant de vieux coefficients binomiaux simples et j'obtenais tout en boule. Merci encore pour une belle réponse.
Mike Dunlavey
12

Regardez le pdf de Binomial en fonction de : et le pdf de Beta en fonction de : Vous pouvez probablement voir qu'avec un choix (entier) approprié pour et ce sont les mêmes. Pour autant que je sache, c'est tout ce qu'il y a dans cette relation: la façon dont entre dans le pdf binomial se trouve être appelée une distribution bêta.x

f(x)=(nx)px(1p)nx
p
g(p)=Γ(a+b)Γ(a)Γ(b)pa1(1p)b1
abp
Aniko
la source
Je sais que ceux-ci se ressemblent presque, mais si je remplace y par nx, et si je prends le pdf bêta et remplace x par a-1 et y par b-1, j'obtiens un facteur supplémentaire de (x + y + 1), ou n + 1. c'est-à-dire (x + y + 1)! / x! / y! * p ^ x * q ^ y. Cela semble être suffisant pour me décourager.
Mike Dunlavey
1
Peut-être que quelqu'un interviendra avec une réponse complète, mais dans une explication "intuitive", nous pouvons toujours agiter les constantes (comme ) qui ne dépendent pas des variables d'intérêt ( et ), mais qui doivent rendre le pdf ajouter / intégrer à 1. N'hésitez pas à remplacer les signes "égalité" par des signes "proportionnels à". n+1xp
Aniko
Bon point. Je pense que je me rapproche d'une compréhension. J'essaie toujours de pouvoir dire ce que x vous dit sur la distribution p, et pourquoi ces deux cdfs totalisent 1.
Mike Dunlavey
1
Je prends une vue différente des explications "intuitives". Dans certains cas, nous ne nous soucions pas trop des constantes, mais dans ce cas, le nœud du problème est de voir pourquoi un n + 1 apparaît et non un n. Si vous ne comprenez pas cela, votre «intuition» est incorrecte.
whuber
J'ai révisé la question, si vous voulez y jeter un œil. Merci.
Mike Dunlavey
5

Comme vous l' avez noté, la distribution Beta décrit la répartition de la probabilité d'essai paramètre , alors que la distribution binomiale décrit la répartition du résultat paramètre . En réécrivant votre question, vous avez demandé pourquoi Autrement dit, la probabilité que l'observation plus un soit supérieure à l'attente de l'observation est la même que la probabilité que l'observation plus un est supérieure à l'attente de l'observation.FI

P(Fi+1n)+P(Ifn1)=1
P(Fni+1)+P(I+1fn)=1
P(Fni+1)=P(fn<I+1)

J'admets que cela peut ne pas aider à comprendre la formulation originale du problème, mais peut-être que cela aide au moins à voir comment les deux distributions utilisent le même modèle sous-jacent d'essais de Bernoulli répétés pour décrire le comportement de différents paramètres.

sesqu
la source
J'apprécie votre point de vue. Toutes les réponses m'aident à réfléchir à la question et éventuellement à mieux comprendre ce que je demande.
Mike Dunlavey
J'ai révisé la question, si vous voulez y jeter un œil. Merci.
Mike Dunlavey
1
Concernant votre révision: Oui, , tant que vos intervalles d'échantillonnage sont suffisamment longs pour que chaque observation soit indépendante et identiquement distribuée. Notez que si vous voulez être bayésien à ce sujet et spécifier une distribution préalable non uniforme pour ce que vous attendez de la proportion réelle, vous pouvez ajouter autre chose aux deux paramètres. FBeta(I+1,NI+1)
sesqu
@sesqu, votre réponse pourrait-elle être liée à ma question ici: stats.stackexchange.com/questions/147978/… ? J'apprécierais vos réflexions à ce sujet.
Vicent
1

En terre bayésienne, la distribution bêta est le conjugué a priori du paramètre p de la distribution binomiale.

Ian Fiske
la source
2
Oui, mais pourquoi est-ce le cas?
vonjd
1

Je ne peux pas commenter d'autres réponses, je dois donc créer ma propre réponse.

Postérieur = C * Probabilité * Prior (C est une constante qui rend Postérieur intégré à 1)

Étant donné un modèle qui utilise la distribution binomiale pour la vraisemblance, et la distribution bêta pour Prior. Le produit des deux qui génère le postérieur est également une distribution bêta. Puisque le Prior et le Postérieur sont tous deux Beta, et donc ce sont des distributions conjuguées . le Prior (un Bêta) est appelé a priori conjugué pour la vraisemblance (un Binôme). Par exemple, si vous multipliez une Bêta par une Normale, la Postérieure n'est plus une Bêta. En résumé, Beta et Binomial sont deux distributions qui sont fréquemment utilisées dans l'inférence bayésienne. La bêta est un conjugué prioritaire du binôme, mais les deux distributions ne sont pas un sous-ensemble ou un sur-ensemble de l'autre.

L'idée clé de l'inférence bayésienne est que nous traitons le paramètre p comme une variable aléatoire allant de [0,1], ce qui est contraire à l'approche par inférence fréquentiste où nous traitons le paramètre p comme fixe. Si vous regardez attentivement les propriétés de la distribution bêta, vous verrez que sa moyenne et son mode sont uniquement déterminés par et sans rapport avec le paramètre pαβ . Ceci, associé à sa flexibilité, est la raison pour laquelle la version bêta est généralement utilisée en tant que Prior.

John Li
la source
1

Résumé: On dit souvent que la distribution bêta est une distribution sur les distributions! Mais qu'est-ce que cela signifie?

Cela signifie essentiellement que vous pouvez fixer et penser à en fonction de . Ce que dit le calcul ci-dessous, c'est que la valeur de augmente de à lorsque vous réglez de à . Le taux croissant à chaque est exactement à ce .n,kP[Bin(n,p)k]pP[Bin(n,p)k]01p01pβ(k,nk+1)p

entrez la description de l'image ici


Soit une variable aléatoire binomiale avec échantillons et la probabilité de succès . En utilisant l'algèbre de base, nous avonsBin(n,p)np

ddpP[Bin(n,p)=i]=n(P[Bin(n1,p)=i1]P[Bin(n1,p)=i]).

Il a aussi de belles preuves combinatoires, pensez-y comme un exercice!

Nous avons donc:

ddpP[Bin(n,p)k]=ddpi=knP[Bin(n,p)=i]=n(i=knP[Bin(n1,p)=i1]P[Bin(n1,p)=i])
qui est une série télescopique et peut être simplifiée comme

ddpP[Bin(n,p)k]=nP[Bin(n1,p)=k1]=n!(k1)!(nk)!pk1(1p)nk=β(k,nk+1).


Remarque Pour voir une version interactive de l'intrigue, regardez ceci . Vous pouvez télécharger le cahier ou simplement utiliser le lien Binder.

MR_BD
la source