Supposons que vous définissiez:
où est l'inverse du CDF de la distribution normale standard .
Ma question est: Y a - t-il une distribution simple que Y suit, ou qui peut approximer Y ? Je demande parce que j'ai une forte suspicion basée sur les résultats de simulation (montrés ci-dessous) que converge vers une distribution normale lorsque et sont élevés, mais je ne sais pas pourquoi cela se ferait mathématiquement. (Bien sûr, lorsque , serait uniforme et serait la norme normale, mais pourquoi serait-ce vrai pour des valeurs plus élevées?).
Si cela converge vers une normale, quels seraient les paramètres de cette normale, en termes de et ? (Je suppose que la moyenne serait puisque c'est la transformation du mode, mais je ne connais pas l'écart type).
(Autrement dit, cela pourrait se demander "est-ce que converge vers une distribution bêta, pour une certaine direction de et "? Je ne sais pas si c'est plus facile de répondre).
Résultats de la simulation
Ici, je montre pourquoi je soupçonne que le résultat est normal (car je ne peux pas le sauvegarder avec les mathématiques). La simulation de peut se faire en R avec qnorm
et rnorm
. Par exemple, en choisissant les paramètres élevés et :
hist(qnorm(rbeta(5000, 3000, 7000)))
Cela semble normal, et qqnorm
le test de Shapiro-Wilk (dans lequel la normalité est l'hypothèse nulle) le suggère également:
qqnorm(qnorm(rbeta(5000, 3000, 7000)))
shapiro.test(qnorm(rbeta(5000, 3000, 7000)))
#>
#> Shapiro-Wilk normality test
#>
#> data: qnorm(rbeta(5000, 3000, 7000))
#> W = 0.99954, p-value = 0.2838
Pour explorer la normalité un peu plus profondément, j'effectue 2 000 simulations, simulant à chaque fois 5 000 valeurs à partir de , puis j'effectue le test pour le comparer à la normale. (J'ai choisi des valeurs de 5K car c'est le maximum que l' shapiro.test
on peut gérer et maximise la puissance pour détecter les écarts par rapport à la norme).
Si la distribution était vraiment normale, nous nous attendrions à ce que les valeurs de p soient uniformes (puisque le zéro est vrai). Ils sont en effet proches de l'uniforme, suggérant que la distribution est très proche de la normale:
hist(replicate(2000, shapiro.test(qnorm(rbeta(5000, 3000, 7000)))$p.value))
Certaines expérimentations montrent que plus et β sont élevés , plus la distribution se rapproche de la normale (par exemple, elle est assez loin de la normale, mais essayez et elle semble être quelque part entre les deux).rbeta(5000, 3, 7)
hist(replicate(2000, shapiro.test(qnorm(rbeta(5000, 30, 70)))$p.value))
la source
hist(replicate(1000, shapiro.test(rbeta(5000, 2, 2))$p.value))
, puishist(replicate(1000, shapiro.test(qnorm(rbeta(5000, 2, 2)))$p.value))
. En d'autres termes, quand c'est normal parce que la bêta est uniforme, quand α et β sont élevés c'est parce que la bêta est à peu près normale - mais pourquoi ça marche quand ils sont égaux et entre les deux, où ce n'est ni normal ni uniforme?Réponses:
Synopsis
Vous avez redécouvert une partie de la construction décrite dans le théorème de limite centrale pour les médianes d'échantillon , qui illustre une analyse de la médiane d'un échantillon. (L'analyse s'applique évidemment, mutatis mutandis , à tout quantile, pas seulement à la médiane). Par conséquent, il n'est pas surprenant que pour les grands paramètres bêta (correspondant à de grands échantillons) une distribution normale se produit sous la transformation décrite dans la question. Ce qui est intéressant, c'est à quel point la distribution est normale, même pour les petites paramètres bêta. Cela mérite une explication.
Je vais esquisser une analyse ci-dessous. Pour garder ce message à une longueur raisonnable, il implique beaucoup de signes de main suggestifs: je ne vise qu'à souligner les idées clés. Permettez-moi donc de résumer les résultats ici:
Quand est proche de β , tout est symétrique. Cela fait que la distribution transformée a déjà l'air normale.α β
Les fonctions de la forme semblent assez normales en premier lieu, même pour les petites valeurs de α et β (à condition que les deux dépassent 1 et que leur rapport ne soit pas trop proche de 0 ou 1 ).Φα−1(x)(1−Φ(x))β−1 α β 1 0 1
La normalité apparente de la distribution transformée est due au fait que sa densité consiste en une densité normale multipliée par une fonction en (2).
À mesure que et β augmentent, l'écart par rapport à la normalité peut être mesuré dans les termes restants dans une série de Taylor pour la densité logarithmique. Le terme d'ordre n décroît proportionnellement aux puissances ( n - 2 ) / 2 de α et β . Cela implique que finalement, pour des α et β suffisamment grands , tous les termes de puissance n = 3 ou plus sont devenus relativement petits, ne laissant qu'un quadratique: qui est précisément la densité logarithmique d'une distribution normale.α β n (n−2)/2 α β α β n=3
Collectivement, ces comportements expliquent bien pourquoi même pour les petits et βα β les quantiles non extrêmes d'un échantillon iid Normal semblent approximativement normaux.
Une analyse
Parce qu'il peut être utile de généraliser, que soit n'importe quelle fonction de distribution, bien que nous ayons à l'espritF .F=Φ
La fonction de densité d'un Beta ( α , βg(y) variable ) est, par définition, proportionnelle à(α,β)
Soit la transformée intégrale de probabilité de x et l'écriture de f pour la dérivée de Fy=F(x) x f F , il est immédiat que ait une densité proportionnelle àx
Parce qu'il s'agit d'une transformation monotone d'une distribution fortement unimodale (une Beta), à moins que ne soit plutôt étrange, la distribution transformée sera également unimodale. Pour étudier sa proximité avec la normale, examinons le logarithme de sa densité,F
oùC est une constante de normalisation non pertinente.
Développez les composantes de dans la série de Taylor pour en ordonner trois autour d'une valeur x 0 (qui sera proche d'un mode). Par exemple, nous pouvons écrire l'expansion de log F commelogG(x;α,β) x0 logF
pour certains avec | h | ≤ | x - x 0 | . Utilisez une notation similaire pour log ( 1 - F ) et log f .h |h|≤|x−x0| log(1−F) logf
Termes linéaires
Le terme linéaire dans devient ainsi(1)
Lorsque est un mode de G (x0 , cette expression est nulle. Notez que parce que les coefficients sont des fonctions continues de x 0 , comme α et β varient, le mode x 0 variera également en continu. De plus, une fois que α et β sont suffisamment grands, leterme c f 1 devient relativement sans conséquence. Si nous cherchons à étudier la limite α → ∞ et β → ∞ pour laquelle α : β reste en proportion constante γG(;α,β) x0 α β x0 α β cf1 α→∞ β→∞ α:β γ , we may therefore once and for all choose a base point x0 for which
A nice case is whereγ=1 , where α=β throughout, and F is symmetric about 0 . In that case it is obvious x0=F(0)=1/2 .
We have achieved a method whereby (a) in the limit, the first-order term in the Taylor series vanishes and (b) in the special case just described, the first-order term is always zero.
Quadratic terms
Ce sont la somme
Remainder term
Here's the punchline: the term of ordern in the Taylor expansion is, according to our notation,
After standardization, it becomes
Both of thegi are affine combination of α and β . By raising the denominator to the n/2 power, the net behavior is of order −(n−2)/2 in each of α and β . As these parameters grow large, then, each term in the Taylor expansion after the second decreases to zero asymptotically. In particular, the third-order remainder term becomes arbitrarily small.
The case whenF is normal
The vanishing of the remainder term is particularly fast whenF is standard Normal, because in this case f(x) is purely quadratic: it contributes nothing to the remainder terms. Consequently, the deviation of G from normality depends solely on the deviation between Fα−1(1−F)β−1 and normality.
This deviation is fairly small even for smallα and β . To illustrate, consider the case α=β . G is symmetric, whence the order-3 term vanishes altogether. The remainder is of order 4 in x−x0=x .
Here is a plot showing how the standardized fourth order term changes with small values ofα>1 :
The value starts out at0 for α=β=1 , because then the distribution obviously is Normal (Φ−1 applied to a uniform distribution, which is what Beta(1,1) is, gives a standard Normal distribution). Although it increases rapidly, it tops off at less than 0.008 --which is practically indistinguishable from zero. After that the asymptotic reciprocal decay kicks in, making the distribution ever closer to Normal as α increases beyond 2 .
la source
Convergence
Suppose thatα=β and let α→∞ and take any small ε>0 . Then var(X)→0 . By Chebyshev's inequality we have P[|X−0.5|>ε]→0 and P[|Y|>ε]→0 . This means that Y converges in probability (
not in distributionactually it converges in distribution - to singleton).Exact distribution
Denote byfX the density of beta distribution. Then your variable Y has density
FullSimplify
function in Wolfram Mathematica to see if it finds some better form.Here is the density in R so you can plot it instead of histogram.
Modification
However, you are maybe interested in distribution of
la source
Here I present a heuristic explanation (which can be made rigorous at least asymptotically). For simplicity, takek∈N , k≥2 . Let X∼Beta(k,k) . I want to argue that Y=Φ−1(X) is approximately normal.
Now letn=2k−1 . We start by drawing n i.i.d. uniformly distributed random variables U1,…,Un . Next, form the order statistics U(1)≤…≤U(n) .
It is well known thatU(k)∼Beta(k,n+1−k) , thus:
In other words: The sample median ofn i.i.d. uniformly distributed random variables is Beta(k,k) distributed.
Now let's transform byZi=Φ−1(Ui) . Then by the probability integral transform, the Zi are i.i.d. normally distributed. Also form the order statistics of the Zi (Z(1)≤…≤Z(n) ). Since Φ−1 is strictly increasing, it follows that:
Therefore, to show thatY is approximately normal, we just have to argue that the sample median of n i.i.d. normal random variables is approximately normal.
Fork large, this can be made precise by a central limit theorem for sample medians. For k small, say k=2 , I will let everyone's gut feeling do the speaking.
Fora≠b (but not too different) one can argue similarly by using corresponding quantiles.
la source