D'où la distribution bêta?

13

Comme je suis sûr que tout le monde ici le sait déjà, le PDF de la distribution Beta est donné parXB(a,b)

f(x)=1B(a,b)xa1(1x)b1

J'ai cherché partout pour une explication des origines de cette formule, mais je ne la trouve pas. Chaque article que j'ai trouvé sur la distribution bêta semble donner cette formule, illustrer quelques-unes de ses formes, puis passer directement à la discussion de ses moments et à partir de là.

Je n'aime pas utiliser des formules mathématiques que je ne peux pas dériver ni expliquer. Pour d'autres distributions (par exemple le gamma ou le binôme), il y a une dérivation claire que je peux apprendre et utiliser. Mais je ne trouve rien de tel pour la distribution bêta.

Ma question est donc: quelles sont les origines de cette formule? Comment peut-il être dérivé des premiers principes dans le contexte dans lequel il a été développé à l'origine?

[Pour clarifier, je ne demande pas comment utiliser la distribution bêta dans les statistiques bayésiennes, ni ce que cela signifie intuitivement dans la pratique (j'ai lu l'exemple de baseball). Je veux juste savoir comment dériver le PDF. Il y avait une question précédente qui demandait quelque chose de similaire, mais elle a été marquée (je pense à tort) comme un double d' une autre question qui n'a pas résolu le problème, donc je n'ai pas pu trouver d'aide ici jusqu'ici.]

EDIT 2017-05-06: Merci à tous pour les questions. Je pense qu'une bonne explication de ce que je veux vient d'une des réponses que j'ai obtenues quand j'ai demandé ceci à certains de mes instructeurs de cours:

"Je suppose que les gens pourraient dériver la densité normale comme une limite d'une somme de n choses divisées par sqrt (n), et vous pouvez dériver la densité de poisson de l'idée d'événements se produisant à un taux constant. De même, afin de dériver la la densité bêta, vous devez avoir une idée de ce qui fait une distribution bêta indépendamment de la densité et logiquement avant. "

Donc l'idée "ab initio" dans les commentaires est probablement la plus proche de ce que je recherche. Je ne suis pas mathématicien, mais je me sens plus à l'aise avec les mathématiques que je peux dériver. Si les origines sont trop avancées pour que je puisse les gérer, tant pis, mais sinon je voudrais les comprendre.

Will Bradshaw
la source
5
Dérivé de quoi? Si l'approche binomiale-conjugué-a priori n'est pas acceptable, plusieurs alternatives sont ici (par exemple, les statistiques d'ordre d'une variable aléatoire uniforme, les proportions des variables gamma).
GeoMatt22
3
Remarque: tout l'historique de la distribution bêta est fourni dans l'incroyable page Wikipedia de cette distribution, qui contient tous les détails possibles!
Xi'an
1
La question précédente a été marquée comme un double de l'autre après que le PO a clarifié ce qu'ils recherchaient dans un commentaire. whuber a posé la même question que @ Geomatt22 ici: "Une dérivation signifie une connexion logique de quelque chose supposé à quelque chose à établir. Que voulez-vous supposer ?"
Scortchi - Réintégrer Monica
2
@Aksakal mais alors la question est trop large - elle peut être dérivée de toutes sortes de façons; si vous avez raison, je le fermerai comme trop large jusqu'à ce que la question soit suffisamment restreinte pour être autre chose qu'un sac à main de réponses possibles
Glen_b -Reinstate Monica
3
Une brève discussion d'un petit contexte historique est ici (au moins en termes de sa relation avec la fonction bêta incomplète). Il a des connexions avec la distribution gamma, et beaucoup, beaucoup d'autres distributions en plus et survient assez raisonnablement de différentes manières; comme Xi'an le fait remarquer, il a également des origines historiques dans le système Pearson . Quel genre de réponse cherchez-vous ici? Qu'est-ce qui est donné / qu'est-ce qui doit être dérivé?
Glen_b -Reinstate Monica

Réponses:

6

En tant qu'ancien physicien, je peux voir comment cela aurait pu être dérivé. Voici comment les physiciens procèdent:

lorsqu'ils rencontrent une intégrale finie d'une fonction positive, telle que la fonction bêta : ils définissent instinctivement une densité: f ( s | x , y ) = s x - 1 ( 1 - s ) y - 1

B(x,y)=01tx1(1t)y1dt
0<s<1
f(s|x,y)=sx1(1s)y101tx1(1t)y1dt=sx1(1s)y1B(x,y),
0<s<1

Ils font cela à toutes sortes d'intégrales tout le temps si souvent que cela se produit par réflexe sans même y penser. Ils appellent cette procédure "normalisation" ou des noms similaires. Remarquez comment, par définition, la densité a toutes les propriétés que vous voulez qu'elle soit, comme toujours positive et s'additionne à une.

La densité que j'ai donnée ci-dessus est de distribution bêta.F(t)

MISE À JOUR

@ whuber demande ce qui est si spécial à propos de la distribution bêta alors que la logique ci-dessus pourrait être appliquée à un nombre infini d'intégrales appropriées (comme je l'ai noté dans ma réponse ci-dessus)?

La partie spéciale provient de la distribution binomiale . J'écrirai son PDF en utilisant une notation similaire à ma version bêta, pas la notation habituelle pour les paramètres et les variables:

f(x,y|s)=(y+xx)sx(1-s)y

Ici, - nombre de succès et d'échecs, et - probabilité de succès. Vous pouvez voir comment cela est très similaire au numérateur dans la distribution bêta. En fait, si vous recherchez l'a priori pour la distribution binomiale, ce sera la distribution bêta. Ce n'est pas surprenant aussi parce que le domaine de la bêta est de 0 à 1, et c'est ce que vous faites dans le théorème de Bayes: intégrer sur le paramètre , qui est la probabilité de succès dans ce cas comme indiqué ci-dessous: ici - probabilité (densité) de probabilité de succès donnée les paramètres précédents de la distribution bêta, etX,yss

f^(x|X)=f(X|s)f(s)01f(X|s)f(s)ds,
f(s)f(X|s)- densité de cet ensemble de données (c'est-à-dire succès et échecs observés) étant donné une probabilité .s
Aksakal
la source
1
@ Xi'an OP ne semble pas s'intéresser à l'histoire.
Aksakal
1
"Explication des origines de cette formule ... dans le contexte dans lequel elle a été développée à l'origine" sonne comme de l'histoire :-).
whuber
3
Je crois que l'on peut s'intéresser à la fois à l'histoire et aux premiers principes en même temps. :-) Bien que votre réponse soit mathématiquement correcte, elle est malheureusement beaucoup trop générale: on peut faire une densité de toute fonction non négative à intégrale finie. Quelle est donc la particularité de cette famille particulière de distributions? En tant que telle, votre approche ne semble satisfaire ni l'un ni l'autre point de vue.
whuber
2
@ WillBradshaw, oui. Normalement, nous considérons la distribution binomiale en fonction du nombre d'échecs (ou de succès) étant donné la probabilité et le nombre d'essais comme paramètres. De cette façon, c'est une distribution discrète . Cependant, si vous le regardez en fonction des probabilités étant donné le nombre de succès et d'échecs en tant que paramètres, alors il devient une distribution bêta une fois que vous le redimensionnez, une distribution continue , btw.
Aksakal
2
L' article de Wikipedia sur la distribution bêta la retrace à Karl Pearson, exactement comme suggéré par @ Xi'an. Stigler, dans son histoire de la statistique: la mesure de l'incertitude avant 1900 , donne un bref compte rendu de la dérivation de Pearson en utilisant la notation moderne.
whuber
15

entrez la description de l'image ici

B(a,b)mentionne Wallis (1616-1703), Newton (1642-1726) et Stirling (1692-1770) traitant de cas spéciaux de l'intégrale encore plus tôt. Karl Pearson (1895) d' abord cataloguer cette famille de distributions comme Pearson de type I .


F(p,q)

ϱ=σ^12/σ^22pσ^12χp2qσ^12χq2
pϱq+pϱB(p/2,q/2)
ωB(a,b)
ω/a(1ω)/bF(2a,2b)
B(a,b)F(p,q)
fp,q(x){px/q}p/21(1+px/q)(p+q)/2
y={px/q}{1+px/q}y(0,1)
x=qyp(1y)
dxdy=qp(1y)+qyp(1y)2=pq(1y)2
g(y)yp/21(1y)q/2+1(1y)2=yp/21(1y)q/2+1
[où toutes les constantes de normalisation sont obtenues en imposant que la densité s'intègre à une.
Xi'an
la source
2
+1. Il convient de noter que K. Pearson n'a pas simplement "catalogué" les distributions bêta: il les a dérivées via des solutions d'une famille d'équations différentielles inspirées d'une relation qu'il a observée entre les équations de différence pour le binomial et les équations différentielles pour la distribution normale. La généralisation de l'équation de différence binomiale à la distribution hypergéométrique a produit une généralisation de l'équation différentielle, dont les solutions comprenaient les distributions bêta "Type I" et "Type II". C'est précisément le type de dérivation ab initio que l'OP semble rechercher.
whuber
2
Je pense que je peux apprendre beaucoup en étudiant cette réponse. C'est trop avancé pour moi en ce moment, mais quand j'aurai le temps, je reviendrai et rechercherai les sujets que vous mentionnez, puis réessayez de le comprendre. Merci beaucoup. :)
Will Bradshaw
1

Tout d'abord, je ne suis pas bon dans la description mathématique précise des concepts dans ma tête, mais je ferai de mon mieux en utilisant un exemple simple:

λ

λ=g(x)=λmax(q|xx0|)1q, q>0, 0λλmax
x0q=1/2

x0g(x)P(x0)=Cg(x)p1)P(λ)dλ=P(x0)dx0λ

P(λ)=P(g1(λ))|dg1(λ)dλ|=Cλp1(λmaxλ)q1

where the normalization constant C is the beta function. For the standard parametrization of the beta distribution we would set λmax=1.

In other words the beta distribution can be seen as the distribution of probabilities in the center of a jittered distribution.

I hope that this derivation gets somewhat close to what your instructor meant. Note that the functional forms of g(x) and P(x0) are very flexible and reach from triangle like distributions and U-shaped distributions (see example below) to sharply peaked distributions.

FYI: I discovered this as a side effect in my doctoral work and reported about it in my thesis in the context of non-stationary neural tuning curves leading to zero-inflated spike count distributions (bimodal with a mode at zero). Applying the concept described above yielded the Beta-Poisson mixture distribution for the neural acticity. That distribution can be fit to data. The fitted parameters allow to estimate both, the distribution g(x) as well as the jitter distribution p(x0) by applying the reverse logics. The Beta-Poisson mixture is a very interesting and flexible alternative to the widely used negative binomial distribution (which is a Gamma-Poisson mixture) to model overdispersion. Below you find an example the "Jitter Beta" - idea in action:

A jitter model leading to the Beta-Poisson spiking model.

A : déplacement d'essai simulé 1D, tiré de la distribution de la gigue dans l'encart (P(jjetter)g(X)p-1). Le champ de tir moyenné par l'essai (ligne noire continue) est plus large et a un taux de crête inférieur par rapport à la courbe de réglage sous-jacente sans gigue (ligne bleue continue, paramètres utilisés:λmuneX=dix,p=.6,q=.5. B : La distribution résultante deλ à X0sur N = 100 essais et le pdf analytique de la distribution bêta. C : Distribution du nombre de pointes simulé à partir d'un processus de Poisson avec paramètresλjeoù je dénote les indices des essais et la distribution Beta-Poisson résultante telle que dérivée comme esquissée ci-dessus. D : Situation analogue en 2D avec des angles de décalage aléatoires conduisant à des statistiques identiques.

Jojo
la source