Asymétrie du logarithme d'une variable aléatoire gamma

16

Considérons la variable aléatoire gamma XΓ(α,θ) . Il existe des formules soignées pour la moyenne, la variance et l'asymétrie:

E[X]=αθVar[X]=αθ2=1/αE[X]2Asymétrie[X]=2/α

Considérons maintenant une variable aléatoire transformée en log Y=log(X) . Wikipedia donne des formules pour la moyenne et la variance:

E[Oui]=ψ(α)+Journal(θ)Var[Oui]=ψ1(α)

via les fonctions digamma et trigamma qui sont définies comme les première et deuxième dérivées du logarithme de la fonction gamma.

Quelle est la formule de l'asymétrie?

La fonction tetragamma apparaîtra-t-elle?

(Ce qui m'a fait me demander à ce sujet est un choix entre les distributions lognormale et gamma, voir Gamma vs distributions lognormales . Entre autres, elles diffèrent dans leurs propriétés d'asymétrie. En particulier, l'asymétrie du log de lognormal est trivialement égale à zéro. Alors que l'asymétrie du log de gamma est négative. Mais à quel point? ..)

amibe dit réintégrer Monica
la source
1
Est- ce que cela aide? Ou ça ?
S.Kolassa - Rétablir Monica
Je ne sais pas exactement quelle est la distribution log-gamma. Si c'est lié au gamma car lognormal est lié à normal, alors je pose une question sur autre chose (parce que "lognormal", confusément, est la distribution de exp (normal) et non de log (normal)).
amibe dit Réintégrer Monica
1
@Glen_b: Pour être honnête, je dirais que qualifier l'exponentielle de la normale de «lognormal» est beaucoup plus incohérent et déroutant. Bien que, malheureusement, plus établi.
S.Kolassa - Rétablir Monica
2
@Stephan voir aussi log-logistic, log-Cauchy, log-Laplace etc. etc. C'est une convention plus clairement établie que l'inverse
Glen_b -Reinstate Monica
1
Oui; J'ai pris soin de ne pas dire "log-gamma" n'importe où par rapport à cette distribution pour cette raison. (Je l'ai utilisé dans le passé d'une manière cohérente avec la log-normale)
Glen_b -Reinstate Monica

Réponses:

12

La fonction de génération de moment de Y = ln X est utile dans ce cas, car elle a une forme algébrique simple. Par la définition de mgf, nous avons M ( t )M(t)Oui=lnX

M(t)=E[etlnX]=E[Xt]=1Γ(α)θα0Xα+t-1e-X/θX=θtΓ(α)0yα+t-1e-yy=θtΓ(α+t)Γ(α).

Vérifions l'attente et la variance que vous avez données. En prenant des dérivées, on a etM(t)=Γ(α+t)

M(t)=Γ(α+t)Γ(α)θt+Γ(α+t)Γ(α)θtln(θ)
Par conséquent,E[Y]=ψ(0)(α)+ln(θ),
M(t)=Γ(α+t)Γ(α)θt+2Γ(α+t)Γ(α)θtln(θ)+Γ(α+t)Γ(α)θtln2(θ).
E[Y]=ψ(0)(α)+ln(θ),E[Y2]=Γ(α)Γ(α)+2ψ(0)(α)ln(θ)+ln2(θ).
Var(Y)=E[Y2]E[Y]2=Γ(α)Γ(α)(Γ(α)Γ(α))2=ψ(1)(α).

To find the skewness, note the cumulant generating function (thanks @probabilityislogic for the tip) is

K(t)=lnM(t)=tlnθ+lnΓ(α+t)lnΓ(α).
The first cumulant is thus simply K(0)=ψ(0)(α)+ln(θ). Recall that ψ(n)(x)=dn+1lnΓ(x)/dxn+1, so the subsequent cumulants are K(n)(0)=ψ(n1)(α), n2. The skewness is therefore
E[(YE[Y])3]Var(Y)3/2=ψ(2)(α)[ψ(1)(α)]3/2.

As a side note, this particular distribution appeared to have been thoroughly studied by A. C. Olshen in his Transformations of the Pearson Type III Distribution, Johnson et al.'s Continuous Univariate Distributions also has a small piece about it. Check those out.

Francis
la source
3
You should differentiate K(t)=log[M(t)]=tlog[θ]+log[Γ(α+t)]log[Γ(α)] instead of M(t) as this is the cumulant generating function - more directly related to central moments - skew=K(3)(0)=ψ(2)(α) where ψ(n)(z) is the polygamma function
probabilityislogic
1
@probabilityislogic: very good call, changed my answer
Francis
@probabilityislogic This is a great addition, thanks a lot. I just want to note, lest some readers be confused, that skewness is not directly given by the third cumulant: it's the third standardized moment, not the third central moment. Francis has it correct in his answer, but the last formula in your comment is not quite right.
amoeba says Reinstate Monica
13

I. Direct computation

Gradshteyn & Ryzhik [1] (sect 4.358, 7th ed) list explicit closed forms for

0xν1eμx(lnx)pdx
for p=2,3,4 while the p=1 case is done in 4.352 (assuming you regard expressions in Γ,ψ and ζ functions as closed form) -- from which it is definitely doable up to kurtosis; they give the integral for all p as a derivative of a gamma function so presumably it's feasible to go higher. So skewness is certainly doable but not especially "neat".

Details of the derivation of the formulas in 4.358 are in [2]. I'll quote the formulas given there since they're slightly more succinctly stated and put 4.352.1 in the same form.

Let δ=ψ(a)lnμ. Then:

0xa1eμxlnxdx=Γ(a)μa{δ}0xa1eμxln2xdx=Γ(a)μa{δ2+ζ(2,a)}0xa1eμxln3xdx=Γ(a)μa{δ3+3ζ(2,a)δ2ζ(3,a)}0xa1eμxln4xdx=Γ(a)μa{δ4+6ζ(2,a)δ28ζ(3,a)δ+3ζ2(2,a)+6ζ(4,a))}

where ζ(z,q)=n=01(n+q)z is the Hurwitz zeta function (the Riemann zeta function is the special case q=1).

Now on to the moments of the log of a gamma random variable.

Noting firstly that on the log scale the scale or rate parameter of the gamma density is merely a shift-parameter, so it has no impact on the central moments; we may take whichever one we're using to be 1.

If XGamma(α,1) then

E(logpX)=1Γ(α)0logpxxα1exdx.

We can set μ=1 in the above integral formulas, which gives us raw moments; we have E(Y), E(Y2), E(Y3), E(Y4).

Since we have eliminated μ from the above, without fear of confusion we're now free to re-use μk to represent the k-th central moment in the usual fashion. We may then obtain the central moments from the raw moments via the usual formulas.

Then we can obtain the skewness and kurtosis as μ3μ23/2 and μ4μ22.


A note on terminology

It looks like Wolfram's reference pages write the moments of this distribution (they call it ExpGamma distribution) in terms of the polygamma function.

By contrast, Chan (see below) calls this the log-gamma distribution.


II. Chan's formulas via MGF

Chan (1993) [3] gives the mgf as the very neat Γ(α+t)/Γ(α).

(A very nice derivation for this is given in Francis' answer, using the simple fact that the mgf of log(X) is just E(Xt).)

Consequently the moments have fairly simple forms. Chan gives:

E(Y)=ψ(α)

and the central moments as

E(YμY)2=ψ(α)E(YμY)3=ψ(α)E(YμY)4=ψ(α)

and so the skewness is ψ(α)/(ψ(α)3/2) and kurtosis is ψ(α)/(ψ(α)2). Presumably the earlier formulas I have above should simplify to these.

Conveniently, R offers digamma (ψ) and trigamma (ψ) functions as well as the more general polygamma function where you select the order of the derivative. (A number of other programs offer similarly convenient functions.)

Consequently we can compute the skewness and kurtosis quite directly in R:

skew.eg <- function(a) psigamma(a,2)/psigamma(a,1)^(3/2)
kurt.eg <- function(a) psigamma(a,3)/psigamma(a,1)^2

Trying a few values of a (α in the above), we reproduce the first few rows of the table at the end of Sec 2.2 in Chan [3], except that the kurtosis values in that table are supposed to be excess kurtosis, but I just calculated kurtosis by the formulas given above by Chan; these should differ by 3.

(E.g. for the log of an exponential, the table says the excess kurtosis is 2.4, but the formula for β2 is ψ(1)/ψ(1)2 ... and that is 2.4.)

Simulation confirms that as we increase sample size, the kurtosis of a log of an exponential is converging to around 5.4 not 2.4. It appears that the thesis possibly has an error.

Consequently, Chan's formulas for central moments appear to actually be the formulas for the cumulants (see the derivation in Francis' answer). This would then mean that the skewness formula was correct as is; because the second and third cumulants are equal to the second and third central moments.

Nevertheless these are particularly convenient formulas as long as we keep in mind that kurt.eg is giving excess kurtosis.

References

[1] Gradshteyn, I.S. & Ryzhik I.M. (2007), Table of Integrals, Series, and Products, 7th ed.
Academic Press, Inc.

[2] Victor H. Moll (2007)
The integrals in Gradshteyn and Ryzhik, Part 4: The gamma function
SCIENTIA Series A: Mathematical Sciences, Vol. 15, 37–46
Universidad Técnica Federico Santa María, Valparaíso, Chile
http://129.81.170.14/~vhm/FORM-PROOFS_html/final4.pdf

[3] Chan, P.S. (1993),
A statistical study of log-gamma distribution,
McMaster University (Ph.D. thesis)
https://macsphere.mcmaster.ca/bitstream/11375/6816/1/fulltext.pdf

Glen_b -Reinstate Monica
la source
1
Cool. Merci beaucoup! Selon l'entrée de l'encyclopédie liée à Stephan ci-dessus, la réponse finale à l'asymétrie estψ(α)/ψ(α)3/2(ce qui est presque qualifié de "soigné"!). Il semble donc que tous les zetas effrayants devront être annulés.
amibe dit Réintégrer Monica
1
Désolé, je viens juste de voir votre commentaire (je fais des modifications depuis environ une heure); c'est exact, bien que si l'Encyclopédie donne à Kurtosis la façon dont Chan le donne dans sa thèse, il semble que ce soit faux (comme indiqué ci-dessus), mais facilement corrigé. Les formules soignées semblent viser les cumulants plutôt que les moments centraux standardisés.
Glen_b -Reinstate Monica
Oui, l'Encyclopédie donne la même formule pour le kurtosis.
amibe dit Réintégrer Monica
Hmm, je veux parler des choses normalement désignées γ1 et γ2. Je vais réparer.
Glen_b -Reinstate Monica
2
Je devrais probablement ajouter la note que la fonction zêta de Hurwitz peut être exprimée en termes de fonction polygamma, et vice versa :
ψ(n)(z)=(-1)n+1Γ(n+1)ζ(n+1,z)
Ainsi, la réponse à la question de @ amoeba: "la fonction tetragamma apparaîtra-t-elle?" est OUI.
JM n'est pas statisticien