Comme je suis sûr que tout le monde ici le sait déjà, le PDF de la distribution Beta est donné par
J'ai cherché partout pour une explication des origines de cette formule, mais je ne la trouve pas. Chaque article que j'ai trouvé sur la distribution bêta semble donner cette formule, illustrer quelques-unes de ses formes, puis passer directement à la discussion de ses moments et à partir de là.
Je n'aime pas utiliser des formules mathématiques que je ne peux pas dériver ni expliquer. Pour d'autres distributions (par exemple le gamma ou le binôme), il y a une dérivation claire que je peux apprendre et utiliser. Mais je ne trouve rien de tel pour la distribution bêta.
Ma question est donc: quelles sont les origines de cette formule? Comment peut-il être dérivé des premiers principes dans le contexte dans lequel il a été développé à l'origine?
[Pour clarifier, je ne demande pas comment utiliser la distribution bêta dans les statistiques bayésiennes, ni ce que cela signifie intuitivement dans la pratique (j'ai lu l'exemple de baseball). Je veux juste savoir comment dériver le PDF. Il y avait une question précédente qui demandait quelque chose de similaire, mais elle a été marquée (je pense à tort) comme un double d' une autre question qui n'a pas résolu le problème, donc je n'ai pas pu trouver d'aide ici jusqu'ici.]
EDIT 2017-05-06: Merci à tous pour les questions. Je pense qu'une bonne explication de ce que je veux vient d'une des réponses que j'ai obtenues quand j'ai demandé ceci à certains de mes instructeurs de cours:
"Je suppose que les gens pourraient dériver la densité normale comme une limite d'une somme de n choses divisées par sqrt (n), et vous pouvez dériver la densité de poisson de l'idée d'événements se produisant à un taux constant. De même, afin de dériver la la densité bêta, vous devez avoir une idée de ce qui fait une distribution bêta indépendamment de la densité et logiquement avant. "
Donc l'idée "ab initio" dans les commentaires est probablement la plus proche de ce que je recherche. Je ne suis pas mathématicien, mais je me sens plus à l'aise avec les mathématiques que je peux dériver. Si les origines sont trop avancées pour que je puisse les gérer, tant pis, mais sinon je voudrais les comprendre.
la source
Réponses:
En tant qu'ancien physicien, je peux voir comment cela aurait pu être dérivé. Voici comment les physiciens procèdent:
lorsqu'ils rencontrent une intégrale finie d'une fonction positive, telle que la fonction bêta : ils définissent instinctivement une densité: f ( s | x , y ) = s x - 1 ( 1 - s ) y - 1
Ils font cela à toutes sortes d'intégrales tout le temps si souvent que cela se produit par réflexe sans même y penser. Ils appellent cette procédure "normalisation" ou des noms similaires. Remarquez comment, par définition, la densité a toutes les propriétés que vous voulez qu'elle soit, comme toujours positive et s'additionne à une.
La densité que j'ai donnée ci-dessus est de distribution bêta.F( t )
MISE À JOUR
@ whuber demande ce qui est si spécial à propos de la distribution bêta alors que la logique ci-dessus pourrait être appliquée à un nombre infini d'intégrales appropriées (comme je l'ai noté dans ma réponse ci-dessus)?
La partie spéciale provient de la distribution binomiale . J'écrirai son PDF en utilisant une notation similaire à ma version bêta, pas la notation habituelle pour les paramètres et les variables:
Ici, - nombre de succès et d'échecs, et - probabilité de succès. Vous pouvez voir comment cela est très similaire au numérateur dans la distribution bêta. En fait, si vous recherchez l'a priori pour la distribution binomiale, ce sera la distribution bêta. Ce n'est pas surprenant aussi parce que le domaine de la bêta est de 0 à 1, et c'est ce que vous faites dans le théorème de Bayes: intégrer sur le paramètre , qui est la probabilité de succès dans ce cas comme indiqué ci-dessous: ici - probabilité (densité) de probabilité de succès donnée les paramètres précédents de la distribution bêta, etx , y s s
la source
la source
Tout d'abord, je ne suis pas bon dans la description mathématique précise des concepts dans ma tête, mais je ferai de mon mieux en utilisant un exemple simple:
where the normalization constantC′ is the beta function. For the standard parametrization of the beta distribution we would set λmax=1 .
In other words the beta distribution can be seen as the distribution of probabilities in the center of a jittered distribution.
I hope that this derivation gets somewhat close to what your instructor meant. Note that the functional forms ofg(x) and P(x0) are very flexible and reach from triangle like distributions and U-shaped distributions (see example below) to sharply peaked distributions.
FYI: I discovered this as a side effect in my doctoral work and reported about it in my thesis in the context of non-stationary neural tuning curves leading to zero-inflated spike count distributions (bimodal with a mode at zero). Applying the concept described above yielded the Beta-Poisson mixture distribution for the neural acticity. That distribution can be fit to data. The fitted parameters allow to estimate both, the distributiong(x) as well as the jitter distribution p(x0) by applying the reverse logics. The Beta-Poisson mixture is a very interesting and flexible alternative to the widely used negative binomial distribution (which is a Gamma-Poisson mixture) to model overdispersion. Below you find an example the "Jitter → Beta" - idea in action:
A : déplacement d'essai simulé 1D, tiré de la distribution de la gigue dans l'encart (P( j i t t e r ) ∝ g( x )p - 1 ). Le champ de tir moyenné par l'essai (ligne noire continue) est plus large et a un taux de crête inférieur par rapport à la courbe de réglage sous-jacente sans gigue (ligne bleue continue, paramètres utilisés:λm a x= 10 , p = 0,6 , q= 0,5 . B : La distribution résultante deλ à X0 sur N = 100 essais et le pdf analytique de la distribution bêta. C : Distribution du nombre de pointes simulé à partir d'un processus de Poisson avec paramètresλje où je dénote les indices des essais et la distribution Beta-Poisson résultante telle que dérivée comme esquissée ci-dessus. D : Situation analogue en 2D avec des angles de décalage aléatoires conduisant à des statistiques identiques.
la source