Je suis plus programmeur que statisticien, donc j'espère que cette question n'est pas trop naïve.
Cela se produit lors de l'échantillonnage des exécutions de programme à des moments aléatoires. Si je prends N = 10 échantillons aléatoires de l'état du programme, je pourrais voir la fonction Foo s'exécuter, par exemple, I = 3 de ces échantillons. Je m'intéresse à ce que cela m'apprend sur la fraction réelle de temps F pendant laquelle Foo est en exécution.
Je comprends que je suis binomialement distribué avec une moyenne F * N. Je sais également que, étant donné I et N, F suit une distribution bêta. En fait, j'ai vérifié par programme la relation entre ces deux distributions, ce qui est
cdfBeta(I, N-I+1, F) + cdfBinomial(N, F, I-1) = 1
Le problème est que je n'ai pas de sens intuitif pour la relation. Je ne peux pas "imaginer" pourquoi cela fonctionne.
EDIT: Toutes les réponses étaient difficiles, en particulier @ whuber, que j'ai encore besoin de chercher, mais apporter des statistiques d'ordre était très utile. Néanmoins, j'ai réalisé que j'aurais dû poser une question plus fondamentale: étant donné I et N, quelle est la distribution de F? Tout le monde a fait remarquer que c'est Beta, que je connaissais. J'ai finalement compris à partir de Wikipedia ( Conjugate prior ) que cela semble être le cas Beta(I+1, N-I+1)
. Après l'avoir exploré avec un programme, cela semble être la bonne réponse. Je voudrais donc savoir si je me trompe. Et, je suis toujours confus quant à la relation entre les deux cdfs montrés ci-dessus, pourquoi ils totalisent 1, et s'ils ont même quelque chose à voir avec ce que je voulais vraiment savoir.
la source
Réponses:
Considérez les statistiques d'ordre de tirages indépendants à partir d'une distribution uniforme. Étant donné que les statistiques d'ordre ont des distributions bêta , la probabilité que ne dépasse pas est donnée par l'intégrale bêtax[0]≤x[1]≤⋯≤x[n] n+1 x[k] p
(Pourquoi est-ce? Voici une démonstration non rigoureuse mais mémorable. La chance que se situe entre et est la chance que sur valeurs uniformes, d'entre elles se trouvent entre et , au moins l'un d'entre eux se situe entre et , et le reste se situe entre et Pour le premier ordre dans le infinitésimal, il suffit de considérer le cas où exactement une valeur (à savoir, lui-même) se situe entre et et doncx[k] p p+dp n+1 k 0 p p p+dp p+dp 1 dp x[k] p p+dp n−k valeurs dépassent . Comme toutes les valeurs sont indépendantes et uniformes, cette probabilité est proportionnelle à . Au premier ordre en cela équivaut à , précisément l'intégrande de la distribution bêta. Le terme peut être calculé directement à partir de cet argument comme le coefficient multinomial ou dérivé indirectement comme la constante de normalisation de l'intégrale.)p+dp pk(dp)(1−p−dp)n−k dp pk(1−p)n−kdp 1B(k+1,n−k+1) (n+1k,1,n−k)
Par définition, l'événement est que la valeur ne dépasse pas . De manière équivalente, au moins des valeurs ne dépassent pas : cette affirmation simple (et j'espère évidente) fournit l'intuition que vous recherchez. La probabilité de la déclaration équivalente est donnée par la distribution binomiale,x[k]≤p k+1st p k+1 p
En résumé , l'intégrale bêta décompose le calcul d'un événement en une série de calculs: trouver au moins valeurs dans la plage , dont nous calculerions normalement la probabilité avec un cdf binomial, se décompose en cas exclusifs où exactement valeurs sont dans la plage et 1 valeur est dans la plage pour tous les , , et est une longueur infinitésimale. La sommation sur toutes ces "fenêtres" - c'est-à-dire l'intégration - doit donner la même probabilité que le cdf binomial.k+1 [0,p] k [0,x] [x,x+dx] x 0≤x<p dx [x,x+dx]
la source
Regardez le pdf de Binomial en fonction de : et le pdf de Beta en fonction de : Vous pouvez probablement voir qu'avec un choix (entier) approprié pour et ce sont les mêmes. Pour autant que je sache, c'est tout ce qu'il y a dans cette relation: la façon dont entre dans le pdf binomial se trouve être appelée une distribution bêta.x
la source
Comme vous l' avez noté, la distribution Beta décrit la répartition de la probabilité d'essai paramètre , alors que la distribution binomiale décrit la répartition du résultat paramètre . En réécrivant votre question, vous avez demandé pourquoi Autrement dit, la probabilité que l'observation plus un soit supérieure à l'attente de l'observation est la même que la probabilité que l'observation plus un est supérieure à l'attente de l'observation.F I
J'admets que cela peut ne pas aider à comprendre la formulation originale du problème, mais peut-être que cela aide au moins à voir comment les deux distributions utilisent le même modèle sous-jacent d'essais de Bernoulli répétés pour décrire le comportement de différents paramètres.
la source
En terre bayésienne, la distribution bêta est le conjugué a priori du paramètre p de la distribution binomiale.
la source
Je ne peux pas commenter d'autres réponses, je dois donc créer ma propre réponse.
Postérieur = C * Probabilité * Prior (C est une constante qui rend Postérieur intégré à 1)
Étant donné un modèle qui utilise la distribution binomiale pour la vraisemblance, et la distribution bêta pour Prior. Le produit des deux qui génère le postérieur est également une distribution bêta. Puisque le Prior et le Postérieur sont tous deux Beta, et donc ce sont des distributions conjuguées . le Prior (un Bêta) est appelé a priori conjugué pour la vraisemblance (un Binôme). Par exemple, si vous multipliez une Bêta par une Normale, la Postérieure n'est plus une Bêta. En résumé, Beta et Binomial sont deux distributions qui sont fréquemment utilisées dans l'inférence bayésienne. La bêta est un conjugué prioritaire du binôme, mais les deux distributions ne sont pas un sous-ensemble ou un sur-ensemble de l'autre.
L'idée clé de l'inférence bayésienne est que nous traitons le paramètre p comme une variable aléatoire allant de [0,1], ce qui est contraire à l'approche par inférence fréquentiste où nous traitons le paramètre p comme fixe. Si vous regardez attentivement les propriétés de la distribution bêta, vous verrez que sa moyenne et son mode sont uniquement déterminés par et sans rapport avec le paramètre pα β . Ceci, associé à sa flexibilité, est la raison pour laquelle la version bêta est généralement utilisée en tant que Prior.
la source
Résumé: On dit souvent que la distribution bêta est une distribution sur les distributions! Mais qu'est-ce que cela signifie?
Cela signifie essentiellement que vous pouvez fixer et penser à en fonction de . Ce que dit le calcul ci-dessous, c'est que la valeur de augmente de à lorsque vous réglez de à . Le taux croissant à chaque est exactement à ce .n,k P[Bin(n,p)⩾k] p P[Bin(n,p)⩾k] 0 1 p 0 1 p β(k,n−k+1) p
Soit une variable aléatoire binomiale avec échantillons et la probabilité de succès . En utilisant l'algèbre de base, nous avonsBin(n,p) n p
Il a aussi de belles preuves combinatoires, pensez-y comme un exercice!
Nous avons donc:
Remarque Pour voir une version interactive de l'intrigue, regardez ceci . Vous pouvez télécharger le cahier ou simplement utiliser le lien Binder.
la source