Erreur dans l'approximation normale d'une distribution de somme uniforme

20

Une méthode naïve pour approximer une distribution normale consiste à additionner peut-être variables aléatoires IID uniformément réparties sur , puis plus récentes et redimensionnées, en s'appuyant sur le théorème de la limite centrale. ( Remarque : il existe des méthodes plus précises telles que la transformée de Box – Muller .) La somme des variables aléatoires IID est connue sous le nom de distribution de somme uniforme ou distribution d' Irwin – Hall .100[0,1]U(0,1)

Quelle est l'erreur dans l'approximation d'une distribution de somme uniforme par une distribution normale?

Chaque fois que ce type de question se pose pour approximer la somme des variables aléatoires IID, les gens (y compris moi) font apparaître le théorème de Berry-Esseen , qui est une version efficace du théorème central limite étant donné que le troisième moment existe:

|Fn(x)Φ(x)|Cρσ3n

où est la fonction de distribution cumulative pour la somme rééchelonnée de variables aléatoires IID, est le troisième moment central absolu, est l'écart-type, et est une constante absolue qui peut être prise égale à ou même .FnnρE|(XEX)3|σC11/2

Ce n'est pas satisfaisant. Il me semble que l'estimation de Berry – Esseen est la plus proche de forte sur les distributions binomiales qui sont discrètes, avec la plus grande erreur à pour une distribution binomiale symétrique. La plus grande erreur survient au plus grand saut. Cependant, la distribution de somme uniforme n'a pas de sauts.0

Les tests numériques suggèrent que l'erreur diminue plus rapidement que .c/n

En utilisant , l'estimation de Berry – Esseen estC=1/2

|Fn(x)Φ(x)|121321123n0.650n

qui pour est d'environ , et 0,103 , respectivement. Les différences maximales réelles pour n = 10, 20, 40 semblent être d'environ 0,00281 , 0,00139 et 0,000692 , respectivement, qui sont beaucoup plus petites et semblent tomber en c / n au lieu de c / \ sqrt n .0,205 0,145 0,103 n = 10 , 20 , 40 0,00281 0,00139 0,000692 c / n c / n=10,20,400.2050.1450.103n=10,20,400.002810.001390.000692c/nc/n

Douglas Zare
la source
7
Si vous développez la distribution de la somme dans une expansion Edgeworth , vous trouvez que uniformément dans comme (puisque la distribution uniforme est symétrique), donc sonne juste. En raison du terme , cela ne vous donne cependant pas de limite ...x n c / n o ( n - 1 )Fn(x)=Φ(x)+n1g(x)+o(n1)xnc/no(n1)
MånsT
1
Merci, cela semble expliquer également le modèle pour de nombreuses autres distributions. c/n
Douglas Zare

Réponses:

17

Soit des variables aléatoires iid et considérons la somme normalisée et la norme où est la distribution de .U ( - b , b ) S n = U1,U2,U(b,b)sup δ n = sup x R | F n ( x ) - Φ (

Sn=3je=1nUjebn,
souperF n S n
δn=souperXR|Fn(X)-Φ(X)|,
FnSn

Lemme 1 ( Uspensky ): La borne suivante sur est . δ n <δn

δn<17,5πn+1π(2π)n+12π3nexp(-π2n/24).

Preuve . Voir JV Uspensky (1937), Introduction à la probabilité mathématique , New York: McGraw-Hill, p. 305.

Cela a été amélioré par la suite par R. Sherman.

Lemme 2 ( Sherman ): L'amélioration suivante sur la limite d'Uspensky tient.

δn<17,5πn-(π180+17,5πn)e-π2n/24+1(n+1)π(2π)n+12π3ne-π2n/24.

Preuve : Voir R. Sherman, Erreur de l'approximation normale à la somme de N variables aléatoires , Biometrika , vol. 58, non. 2, 396–398.

La preuve est une application assez simple de l'inégalité du triangle et des bornes classiques sur la queue de la distribution normale et sur appliquée aux fonctions caractéristiques de chacune des deux distributions.(péchéX)/X

cardinal
la source
2
+1 Est-ce que dans le lemme 2? N=n
@Procrastinator: Bonne capture.
cardinal
1
Merci! Ces références sont très utiles. Les estimations semblent se situer dans un facteur de de la valeur réelle. 2
Douglas Zare