La distribution bêta apparaît sous deux paramétrisations (ou ici )
ou celui qui semble être le plus utilisé
Mais pourquoi exactement y a-t-il " " dans la deuxième formule?
La première formulation semble intuitivement correspondre plus directement à la distribution binomiale
mais « vu » de la perspective de . Cela est particulièrement clair dans le modèle bêta-binomial où peut être compris comme un nombre antérieur de succès et est un nombre antérieur d'échecs.
Alors, pourquoi exactement la deuxième forme a-t-elle gagné en popularité et quelle est la justification derrière elle? Quelles sont les conséquences de l'utilisation de l'une ou l'autre des paramétrisations (par exemple pour la connexion avec la distribution binomiale)?
Ce serait formidable si quelqu'un pouvait en outre indiquer les origines d'un tel choix et les arguments initiaux pour cela, mais ce n'est pas une nécessité pour moi.
Réponses:
C'est une histoire sur les degrés de liberté et les paramètres statistiques et pourquoi il est agréable que les deux aient une connexion simple et directe.
Historiquement, les termes " " sont apparus dans les études d'Euler sur la fonction Bêta. Il utilisait cette paramétrisation en 1763, tout comme Adrien-Marie Legendre: leur utilisation a établi la convention mathématique suivante. Ce travail est antérieur à toutes les applications statistiques connues.−1
La théorie mathématique moderne fournit de nombreuses indications, grâce à la richesse des applications en analyse, en théorie des nombres et en géométrie, que les termes " " ont réellement une signification. J'ai esquissé certaines de ces raisons dans les commentaires sur la question.−1
Ce qui devrait être la "bonne" paramétrisation statistique est plus intéressant. Ce n'est pas aussi clair et cela n'a pas à être le même que la convention mathématique. Il existe un immense réseau de familles de distributions de probabilités bien connues et interdépendantes. Ainsi, les conventions utilisées pour nommer (c'est-à-dire paramétrer) une famille impliquent généralement des conventions liées pour nommer les familles liées. Modifiez un paramétrage et vous voudrez tous les changer. Nous pourrions donc examiner ces relations pour trouver des indices.
Peu de gens seraient en désaccord avec le fait que les familles de distribution les plus importantes dérivent de la famille normale. Rappelons qu'une variable aléatoire est dite "distribuée normalement" lorsque ( X - μ ) / σ a une densité de probabilité f ( x ) proportionnel à exp ( - x deux / deux ) . Lorsque σ = 1 et μ = 0 , X aurait une distribution normale standard .X (X−μ)/σ f(x) exp(−x2/2) σ=1 μ=0 X
De nombreux ensembles de données sont étudiés à l'aide de statistiques relativement simples impliquant des combinaisons rationnelles des données et de faibles puissances (généralement des carrés). Lorsque ces données sont modélisées comme des échantillons aléatoires à partir d'une distribution normale - de sorte que chaque x i est considéré comme une réalisation d'une variable normale X i , tous les X i partagent une distribution commune et sont indépendants - les distributions de ces statistiques sont déterminés par cette distribution normale. Celles qui surviennent le plus souvent dans la pratique sontx1,x2,…,xn xi Xi Xi
,ladistribution deStudent ttν t avec "degrés de liberté". Il s'agit de la distribution de la statistique t = ˉ Xν=n−1 où ˉ X =(X1+X2+⋯+Xn)/nmodélise la moyenne des données etse(X)=(1/√
,ladistribution χ 2 (khi carré)avec ν "degrés de liberté" (df). Il s'agit de la distribution de la somme des carrés desvariables normales standard indépendantes ν . La répartition de la moyenne des carrés de ces variables sera donc un χ 2 de distribution miséchelle par 1 / ν : Je vaisréférence à cela comme une « normalisée » χ 2 distribution.χ2ν χ2 ν ν χ2 1/ν χ2
Mathematical calculations show that all three of these distributions have densities. Importantly, the density of theχ2ν distribution is proportional to the integrand in Euler's integral definition of the Gamma (Γ ) function. Let's compare them:
This shows that twice aχ2ν variable has a Gamma distribution with parameter ν/2 . The factor of one-half is bothersome enough, but subtracting 1 would make the relationship much worse. This already supplies a compelling answer to the question: if we want the parameter of a χ2 distribution to count the number of squared Normal variables that produce it (up to a factor of 1/2 ), then the exponent in its density function must be one less than half that count.
Why is the factor of1/2 less troublesome than a difference of 1 ? The reason is that the factor will remain consistent when we add things up. If the sum of squares of n independent standard Normals is proportional to a Gamma distribution with parameter n (times some factor), then the sum of squares of m independent standard Normals is proportional to a Gamma distribution with parameter m (times the same factor), whence the sum of squares of all n+m variables is proportional to a Gamma distribution with parameter m+n (still times the same factor). The fact that adding the parameters so closely emulates adding the counts is very helpful.
If, however, we were to remove that pesky-looking "−1 " from the mathematical formulas, these nice relationships would become more complicated. For example, if we changed the parameterization of Gamma distributions to refer to the actual power of x in the formula, so that a χ21 distribution would be related to a "Gamma(0) " distribution (since the power of x in its PDF is 1−1=0 ), then the sum of three χ21 distributions would have to be called a "Gamma(2) " distribution. In short, the close additive relationship between degrees of freedom and the parameter in Gamma distributions would be lost by removing the −1 from the formula and absorbing it in the parameter.
Similarly, the probability function of anF ratio distribution is closely related to Beta distributions. Indeed, when Y has an F ratio distribution, the distribution of Z=ν1Y/(ν1Y+ν2) has a Beta(ν1/2,ν2/2) distribution. Its density function is proportional to
Furthermore--taking these ideas full circle--the square of a Studentt distribution with ν d.f. has an F ratio distribution with parameters (1,ν) . Once more it is apparent that keeping the conventional parameterization maintains a clear relationship with the underlying counts that contribute to the degrees of freedom.
From a statistical point of view, then, it would be most natural and simplest to use a variation of the conventional mathematical parameterizations ofΓ and Beta distributions: we should prefer calling a Γ(α) distribution a "Γ(2α) distribution" and the Beta(α,β) distribution ought to be called a "Beta(2α,2β) distribution." In fact, we have already done that: this is precisely why we continue to use the names "Chi-squared" and "F Ratio" distribution instead of "Gamma" and "Beta". Regardless, in no case would we want to remove the "−1 " terms that appear in the mathematical formulas for their densities. If we did that, we would lose the direct connection between the parameters in the densities and the data counts with which they are associated: we would always be off by one.
la source
The notation is misleading you. There is a "hidden−1 " in your formula (1) , because in (1) , α and β must be bigger than −1 (the second link you provided in your question says this explicitly). The α 's and β 's in the two formulas are not the same parameters; they have different ranges: in (1) , α,β>−1 , and in (2) , α,β>0 . These ranges for α and β are necessary to guarantee that the integral of the density doesn't diverge. To see this, consider in (1) the case α=−1 (or less) and β=0 , then try to integrate the (kernel of the) density between 0 and 1 . Equivalently, try the same in (2) for α=0 (or less) and β=1 .
la source
For me, the existence of -1 in the exponent is related with the develpment of the Gamma function. The motivation of the Gamma function is to find a smooth curve to connect the points of a factorialx! . Since it is not possible to compute x! directly if x is not integer, the idea was to find a function for any x≥0 that satisfies the recurrence relation defined by the factorial, namely
Solution was by means of the convergence of an integral. For the function defined as
integration by parts provides the following:
So, the function above satisfies this property, and the -1 in the exponent derives from the procedure of integration by parts. See the Wikipedia article https://en.wikipedia.org/wiki/Gamma_function .
Edit: I apologise if my post is not fully clear; I am just trying to point that, in my idea, the existence of -1 in the beta distribution comes from the generalisation of the factorial by means of the Gamma function. There are two conditions:f(1)=1 and f(x+1)=x⋅f(x) . We have Γ(x)=(x−1)! , therefore it satisfies Γ(x+1)=x⋅Γ(x)=x⋅(x−1)!=x! . In addition, we have Γ(1)=(1−1)!=0!=1 . As for the beta distribution with parameters α,β , generalisation of the Binomial coefficient is Γ(α+β)Γ(α)⋅Γ(β)=(α+β−1)!(α−1)!⋅(β−1)! . There we have the -1 in the denominator, for both parameters.
la source