Quelle est la distribution du CDF normal inverse d'une variable aléatoire bêta?

14

Supposons que vous définissiez:

XBeta(α,β)

YΦ1(X)

Φ1 est l'inverse du CDF de la distribution normale standard .

Ma question est: Y aYY - t-il une distribution simple que Y suit, ou qui peut approximer Y ? Je demande parce que j'ai une forte suspicion basée sur les résultats de simulation (montrés ci-dessous) que Y converge vers une distribution normale lorsque α et β sont élevés, mais je ne sais pas pourquoi cela se ferait mathématiquement. (Bien sûr, lorsque α=1;β=1 , X serait uniforme et Y serait la norme normale, mais pourquoi serait-ce vrai pour des valeurs plus élevées?).

Si cela converge vers une normale, quels seraient les paramètres de cette normale, en termes de α et β ? (Je suppose que la moyenne serait Φ1(αα+β)puisque c'est la transformation du mode, mais je ne connais pas l'écart type).

(Autrement dit, cela pourrait se demander "est-ce que Φ(Norm(μ,σ)) converge vers une distribution bêta, pour une certaine direction de μ et σ "? Je ne sais pas si c'est plus facile de répondre).

Résultats de la simulation

Ici, je montre pourquoi je soupçonne que le résultat est normal (car je ne peux pas le sauvegarder avec les mathématiques). La simulation de Y peut se faire en R avec qnormet rnorm. Par exemple, en choisissant les paramètres élevés α=3000 et β=7000 :

hist(qnorm(rbeta(5000, 3000, 7000)))

Cela semble normal, et qqnormle test de Shapiro-Wilk (dans lequel la normalité est l'hypothèse nulle) le suggère également:

qqnorm(qnorm(rbeta(5000, 3000, 7000)))

shapiro.test(qnorm(rbeta(5000, 3000, 7000)))
#> 
#>  Shapiro-Wilk normality test
#> 
#> data:  qnorm(rbeta(5000, 3000, 7000))
#> W = 0.99954, p-value = 0.2838

Pour explorer la normalité un peu plus profondément, j'effectue 2 000 simulations, simulant à chaque fois 5 000 valeurs à partir de Y , puis j'effectue le test pour le comparer à la normale. (J'ai choisi des valeurs de 5K car c'est le maximum que l' shapiro.teston peut gérer et maximise la puissance pour détecter les écarts par rapport à la norme).

Si la distribution était vraiment normale, nous nous attendrions à ce que les valeurs de p soient uniformes (puisque le zéro est vrai). Ils sont en effet proches de l'uniforme, suggérant que la distribution est très proche de la normale:

hist(replicate(2000, shapiro.test(qnorm(rbeta(5000, 3000, 7000)))$p.value))

Certaines expérimentations montrent que plus et β sont élevés , plus la distribution se rapproche de la normale (par exemple, elle est assez loin de la normale, mais essayez et elle semble être quelque part entre les deux).αβrbeta(5000, 3, 7)hist(replicate(2000, shapiro.test(qnorm(rbeta(5000, 30, 70)))$p.value))

David Robinson
la source
2
Rien d'intéressant ne se passe ici. Comme et β grandissent, supposons qu'ils restent dans la même proportion, ou du moins que α / ( α + β ) reste à l'écart de 0 et 1 . La distribution bêta ( α , β ) devient alors normale et concentrée dans une plage arbitrairement étroite. Φ - 1 , étant différenciable, devient essentiellement linéaire, d'où vous regardez simplement une transformation linéaire d'une variable presque normale. Ce résultat n'a rien de plus à faire avec Φ - 1αβα/(α+β)01(α,β)Φ1Φ1lui-même et n'ajoute aucune information sur les distributions bêta.
whuber
1
@whuber Cela a du sens pour les grands et β (j'ai eu quelques simulations qui m'ont fait penser que c'était plus proche de la normale que la normale équivalente à la bêta, mais lors de la réexécution, je pense que j'avais une erreur à l'époque). Toute réflexion sur α = 2 ; β = 2 ? Dist est très loin de la normale, mais qnorm est assez proche. αβα=2β=2
David Robinson
1
Par exemple @whuber essayer hist(replicate(1000, shapiro.test(rbeta(5000, 2, 2))$p.value)), puis hist(replicate(1000, shapiro.test(qnorm(rbeta(5000, 2, 2)))$p.value)). En d'autres termes, quand c'est normal parce que la bêta est uniforme, quand α et β sont élevés c'est parce que la bêta est à peu près normale - mais pourquoi ça marche quand ils sont égaux et entre les deux, où ce n'est ni normal ni uniforme? α=β=1αβ
David Robinson
5
C'est définitivement plus intéressant! Vous avez raison de dire que la bêta n'est pas très proche de la normale mais que la transformation est approximativement normale, même pour les petits paramètres de la bêta. Les écarts par rapport à la normalité apparaissent dans les queues, autour de Z=±3 ou plus, mais sont remarquablement faibles dans tout le corps de la distribution. En fin de compte, cela est attribuable au comportement de la loi de puissance des queues bêta.
whuber

Réponses:

7

Synopsis

Vous avez redécouvert une partie de la construction décrite dans le théorème de limite centrale pour les médianes d'échantillon , qui illustre une analyse de la médiane d'un échantillon. (L'analyse s'applique évidemment, mutatis mutandis , à tout quantile, pas seulement à la médiane). Par conséquent, il n'est pas surprenant que pour les grands paramètres bêta (correspondant à de grands échantillons) une distribution normale se produit sous la transformation décrite dans la question. Ce qui est intéressant, c'est à quel point la distribution est normale, même pour les petites paramètres bêta. Cela mérite une explication.

Je vais esquisser une analyse ci-dessous. Pour garder ce message à une longueur raisonnable, il implique beaucoup de signes de main suggestifs: je ne vise qu'à souligner les idées clés. Permettez-moi donc de résumer les résultats ici:

  1. Quand est proche de β , tout est symétrique. Cela fait que la distribution transformée a déjà l'air normale.αβ

  2. Les fonctions de la forme semblent assez normales en premier lieu, même pour les petites valeurs de α et β (à condition que les deux dépassent 1 et que leur rapport ne soit pas trop proche de 0 ou 1 ).Φα1(x)(1Φ(x))β1αβ101

  3. La normalité apparente de la distribution transformée est due au fait que sa densité consiste en une densité normale multipliée par une fonction en (2).

  4. À mesure que et β augmentent, l'écart par rapport à la normalité peut être mesuré dans les termes restants dans une série de Taylor pour la densité logarithmique. Le terme d'ordre n décroît proportionnellement aux puissances ( n - 2 ) / 2 de α et β . Cela implique que finalement, pour des α et β suffisamment grands , tous les termes de puissance n = 3 ou plus sont devenus relativement petits, ne laissant qu'un quadratique: qui est précisément la densité logarithmique d'une distribution normale.αβn(n2)/2αβαβn=3

Collectivement, ces comportements expliquent bien pourquoi même pour les petits et βαβ les quantiles non extrêmes d'un échantillon iid Normal semblent approximativement normaux.


Une analyse

Parce qu'il peut être utile de généraliser, que soit n'importe quelle fonction de distribution, bien que nous ayons à l'espritF .F=Φ

La fonction de densité d'un Beta ( α , βg(y)variable ) est, par définition, proportionnelle à(α,β)

yα1(1y)β1dy.

Soit la transformée intégrale de probabilité de x et l'écriture de f pour la dérivée de Fy=F(x)xfF , il est immédiat que ait une densité proportionnelle àx

G(x;α,β)=F(x)α1(1F(x))β1f(x)dx.

Parce qu'il s'agit d'une transformation monotone d'une distribution fortement unimodale (une Beta), à moins que ne soit plutôt étrange, la distribution transformée sera également unimodale. Pour étudier sa proximité avec la normale, examinons le logarithme de sa densité,F

(1)logG(x;α,β)=(α1)logF(x)+(β1)log(1F(x))+logf(x)+C

C est une constante de normalisation non pertinente.

Développez les composantes de dans la série de Taylor pour en ordonner trois autour d'une valeur x 0 (qui sera proche d'un mode). Par exemple, nous pouvons écrire l'expansion de log F commelogG(x;α,β)x0logF

logF(x)=c0F+c1F(xx0)+c2F(xx0)2+c3Fh3

pour certains avec | h | | x - x 0 | . Utilisez une notation similaire pour log ( 1 - F ) et log f . h|h||xx0|log(1F)logf

Termes linéaires

Le terme linéaire dans devient ainsi(1)

g1(α,β)=(α1)c1F+(β1)c11F+c1f.

Lorsque est un mode de G (x0 , cette expression est nulle. Notez que parce que les coefficients sont des fonctions continues de x 0 , comme α et β varient, le mode x 0 variera également en continu. De plus, une fois que α et β sont suffisamment grands, leterme c f 1 devient relativement sans conséquence. Si nous cherchons à étudier la limite α et β pour laquelle α : β reste en proportion constante γG(;α,β)x0αβx0αβc1fαβ α:βγ, we may therefore once and for all choose a base point x0 for which

γc1F+c11F=0.

A nice case is where γ=1, where α=β throughout, and F is symmetric about 0. In that case it is obvious x0=F(0)=1/2.

We have achieved a method whereby (a) in the limit, the first-order term in the Taylor series vanishes and (b) in the special case just described, the first-order term is always zero.

Quadratic terms

Ce sont la somme

g2(α,β)=(α1)c2F+(β1)c21F+c2f.

(1/2)(xx0)2/σ2, we may estimate that 1/(2g2(α,β)) is approximately the variance of G. Let us standardize G by rescaling x by its square root. we don't really need the details; it suffices to understand that this rescaling is going to multiply the coefficient of (xx0)n in the Taylor expansion by (1/(2g2(α,β)))n/2.

Remainder term

Here's the punchline: the term of order n in the Taylor expansion is, according to our notation,

gn(α,β)=(α1)cnF+(β1)cn1F+cnf.

After standardization, it becomes

gn(α,β)=gn(α,β)(2g2(α,β))n/2).

Both of the gi are affine combination of α and β. By raising the denominator to the n/2 power, the net behavior is of order (n2)/2 in each of α and β. As these parameters grow large, then, each term in the Taylor expansion after the second decreases to zero asymptotically. In particular, the third-order remainder term becomes arbitrarily small.

The case when F is normal

The vanishing of the remainder term is particularly fast when F is standard Normal, because in this case f(x) is purely quadratic: it contributes nothing to the remainder terms. Consequently, the deviation of G from normality depends solely on the deviation between Fα1(1F)β1 and normality.

This deviation is fairly small even for small α and β. To illustrate, consider the case α=β. G is symmetric, whence the order-3 term vanishes altogether. The remainder is of order 4 in xx0=x.

Here is a plot showing how the standardized fourth order term changes with small values of α>1:

Figure

The value starts out at 0 for α=β=1, because then the distribution obviously is Normal (Φ1 applied to a uniform distribution, which is what Beta(1,1) is, gives a standard Normal distribution). Although it increases rapidly, it tops off at less than 0.008--which is practically indistinguishable from zero. After that the asymptotic reciprocal decay kicks in, making the distribution ever closer to Normal as α increases beyond 2.

whuber
la source
2

Convergence

Suppose that α=β and let α and take any small ε>0. Then var(X)0. By Chebyshev's inequality we have P[|X0.5|>ε]0 and P[|Y|>ε]0. This means that Y converges in probability (not in distribution actually it converges in distribution - to singleton).

Exact distribution

Denote by fX the density of beta distribution. Then your variable Y has density

fY(y)=fX(Φ(y))ϕ(y).
Since Φ does not have a closed form I believe that this is the furthest you can get (analytically). You can try to put it into FullSimplify function in Wolfram Mathematica to see if it finds some better form.

Here is the density in R so you can plot it instead of histogram.

f_y <- function(x, alpha, beta) {
  dbeta(pnorm(x), alpha, beta) * dnorm(x)
}

Modification

However, you are maybe interested in distribution of

Z=Φ1(αX)
. (still assuming α=β) This may be useful because var(αX)1/8 (useful because it is not zero).
Jan Kislinger
la source
1

Here I present a heuristic explanation (which can be made rigorous at least asymptotically). For simplicity, take kN, k2. Let XBeta(k,k). I want to argue that Y=Φ1(X) is approximately normal.

Now let n=2k1. We start by drawing n i.i.d. uniformly distributed random variables U1,,Un. Next, form the order statistics U(1)U(n).

It is well known that U(k)Beta(k,n+1k), thus:

U(k)Beta(k,k)

In other words: The sample median of n i.i.d. uniformly distributed random variables is Beta(k,k) distributed.

Now let's transform by Zi=Φ1(Ui). Then by the probability integral transform, the Zi are i.i.d. normally distributed. Also form the order statistics of the Zi (Z(1)Z(n)). Since Φ1 is strictly increasing, it follows that:

Φ1(U(k))=Z(k)

Therefore, to show that Y is approximately normal, we just have to argue that the sample median of n i.i.d. normal random variables is approximately normal.

For k large, this can be made precise by a central limit theorem for sample medians. For k small, say k=2, I will let everyone's gut feeling do the speaking.

For ab (but not too different) one can argue similarly by using corresponding quantiles.

air
la source