Je m'interroge sur celui-ci depuis un moment. Je trouve cela un peu étrange de voir comment cela se produit brusquement. Fondamentalement, pourquoi n'avons-nous besoin que de trois uniformes que comme il le fait? Et pourquoi le lissage a-t-il lieu si rapidement?
:
:
(images volées sans vergogne sur le blog de John D. Cook: http://www.johndcook.com/blog/2009/02/12/sums-of-un-uniform-random-values/ )
Pourquoi ne faut-il pas, disons, quatre uniformes? Ou cinq? Ou...?
Réponses:
Nous pouvons adopter différentes approches, chacune d’elles pouvant sembler intuitive à certaines personnes et moins intuitive pour d’autres. Pour s'adapter à cette variation, cette réponse passe en revue plusieurs de ces approches, couvrant les principales divisions de la pensée mathématique - analyse (l'infini et l'infiniment petit), géométrie / topologie (relations spatiales) et algèbre (modèles formels de manipulation symbolique) - comme ainsi que la probabilité elle-même. Cela aboutit à une observation qui unifie les quatre approches, démontre qu'il y a une vraie question à laquelle il faut répondre ici et montre exactement quel est le problème. Chaque approche fournit, à sa manière, un aperçu plus approfondi de la nature des formes des fonctions de distribution de probabilité des sommes de variables uniformes indépendantes.
Contexte
La distribution Uniform[0,1] a plusieurs descriptions de base. Quand a une telle distribution,X
La chance queX dans un ensemble mesurable A n’est que la mesure (longueur) de , écrit | A ∩ [ 0 , 1 ] | .A∩[0,1] |A∩[0,1]|
A partir de là, il est immédiat que la fonction de distribution cumulative (CDF) soit
La fonction de densité de probabilité (PDF), qui est la dérivée du CDF, est pour 0 ≤ x ≤ 1 et f XfX(x)=1 0≤x≤1 sinon. (Il est indéfini à 0 et 1. )fX(x)=0 0 1
Intuition à partir de fonctions caractéristiques (Analyse)
La fonction caractéristique (CF) de toute variable aléatoire est l’espérance de exp ( i tX (où i est l'unité imaginaire, i 2 = - 1 ). En utilisant le PDF d’une distribution uniforme, nous pouvons calculerexp(itX) i i2=−1
La fibrose kystique est une (version du) transformée de Fourier du PDF, . Les théorèmes les plus fondamentaux sur les transformées de Fourier sont les suivants:ϕ(t)=f^(t)
La FC d'une somme de variables indépendantes est le produit de leurs FC.X+Y
Lorsque le PDF originalf est continue et est bornée, f peut être récupéré à partir du CF φ par une version très proche de la transformée de Fourier,X f ϕ
Lorsque est différentiable, sa dérivée peut être calculée sous le signe de l'intégrale:f
Pour que ceci soit bien défini, la dernière intégrale doit absolument converger; C'est,
doit converger vers une valeur finie. Inversement, quand elle converge, la dérivée existe partout grâce à ces formules d'inversion.
Il est à présent clair à quel point le fichier PDF pour une somme de variables uniformes est différentiable: à partir du premier point, le FC de la somme des variables iid est le FC de l’une d’entre elles élevéen puissance, ici égale à ( exp ( i t ) - 1 ) n / ( i t ) n . Le numérateur est borné (il consiste en ondes sinusoïdales) tandis que le dénominateur est O ( t n ) . On peut multiplier un tel intégrande par nth (exp(it)−1)n/(it)n O(tn) et il convergera encore absolument quand s < nts et convergent conditionnellement lorsque s = n - 1 . Ainsi, une application répétée de la troisième puce montre que le PDF pour la somme de n variables variables uniformes sera continuellement n - 2 fois différentiable et, dans la plupart des endroits, n - 1 fois différentiable.s<n−1 s=n−1 n n−2 n−1
La courbe ombrée en bleu est un graphique en log-log de la valeur absolue de la partie réelle de la FC de la somme de variables uniformes. La ligne pointillée rouge est une asymptote; sa pente est de - 10 , ce qui montre que le PDF est 10 - 2 = 8 fois différentiable. Pour référence, la courbe grise représente la partie réelle du CF pour une fonction gaussienne de forme similaire (un PDF normal).n=10 −10 10−2=8
Intuition de Probabilité
Soit et X des variables aléatoires indépendantes où X a un uniforme [ 0 ,Y X X distribution 1 ] . Considérons un intervalle étroit ( t , t + d t ] . Nous décomposons le risque que X + Y ∈ ( t , t + d t ] en un chance que Y soit suffisamment proche de cet intervalle fois le risque que X soit juste le droit. taille pour placer X + Y[0,1] (t,t+dt] X+Y∈(t,t+dt] Y X X+Y dans cet intervalle, étant donné que est assez proche:Y
L'égalité finale vient de l'expression pour le PDF de . Diviser les deux côtés par d t et prendre la limite comme suit : d t → 0 donneX dt dt→0
En d'autres termes, l'ajout d'une variable uniforme X à une variable quelconque Y modifie le pdf f Y en un CDF différencié F Y ( t ) - F Y ( t - 1 ) . Comme le PDF est la dérivée du CDF, cela implique que chaque fois que nous ajoutons une variable uniforme indépendante à Y , le PDF résultant est une fois plus différentiable qu'avant.[0,1] X Y fY FY(t)−FY(t−1) Y
Appliquons cette idée, en commençant par une variable uniforme . Le PDF original n'est pas différentiable à 0 ou 1 : il y est discontinu. Le PDF de Y + X n'est pas différentiables à 0 , 1 ou 2 , mais il doit être continu à ces points, car il est la différence de PDF du Intégrales de Y . Ajouter une autre variable uniforme indépendante X 2 : le PDF de Y + X + X 2 est différentiable à 0 , 1 , 2Y 0 1 Y+X 0 1 2 Y X2 Y+X+X2 0 1 2 , et mais il n’existe pas nécessairement de dérivées secondes à ces points. Etc.3
Intuition de la géométrie
If it were not for the presence of the other corners of the hypercube, this scaling would continue indefinitely. A plot of the area of then−1 -simplex would look like the solid blue curve below: it is zero at negative values and equals tn−1/(n−1)! at the positive one, conveniently written θ(t)tn−1/(n−1)! . It has a "kink" of order n−2 at the origin, in the sense that all derivatives through order n−3 exist and are continuous, but that left and right derivatives of order n−2 exist but do not agree at the origin.
(The other curves shown in this figure are−3θ(t−1)(t−1)2/2! (red), 3θ(t−2)(t−2)2/2! (gold), and −θ(t−3)(t−3)2/2! (black). Their roles in the case n=3 are discussed further below.)
To understand what happens whent crosses 1 , let's examine in detail the case n=2 , where all the geometry happens in a plane. We may view the unit "cube" (now just a square) as a linear combination of quadrants, as shown here:
The first quadrant appears in the lower left panel, in gray. The value oft is 1.5 , determining the diagonal line shown in all five panels. The CDF equals the yellow area shown at right. This yellow area is comprised of:
The triangular gray area in the lower left panel,
minus the triangular green area in the upper left panel,
minus the triangular red area in the low middle panel,
plus any blue area in the upper middle panel (but there isn't any such area, nor will there be untilt exceeds 2 ).
Every one of these2n=4 areas is the area of a triangle. The first one scales like tn=t2 , the next two are zero for t<1 and otherwise scale like (t−1)n=(t−1)2 , and the last is zero for t<2 and otherwise scales like (t−2)n . This geometric analysis has established that the CDF is proportional to θ(t)t2−θ(t−1)(t−1)2−θ(t−1)(t−1)2+θ(t−2)(t−2)2 = θ(t)t2−2θ(t−1)(t−1)2+θ(t−2)(t−2)2 ; equivalently, the PDF is proportional to the sum of the three functions θ(t)t , −2θ(t−1)(t−1) , and θ(t−2)(t−2) (each of them scaling linearly when n=2 ). The left panel of this figure shows their graphs: evidently, they are all versions of the original graph θ(t)t , but (a) shifted by 0 , 1 , and 2 units to the right and (b) rescaled by 1 , −2 , and 1 , respectively.
The right panel shows the sum of these graphs (the solid black curve, normalized to have unit area: this is precisely the angular-looking PDF shown in the original question.
Now we can understand the nature of the "kinks" in the PDF of any sum of iid uniform variables. They are all exactly like the "kink" that occurs at0 in the function θ(t)tn−1 , possibly rescaled, and shifted to the integers 1,2,…,n corresponding to where the hyperplane Hn(t) crosses the vertices of the hypercube. For n=2 , this is a visible change in direction: the right derivative of θ(t)t at 0 is 0 while its left derivative is 1 . For n=3 , this is a continuous change in direction, but a sudden (discontinuous) change in second derivative. For general n , there will be continuous derivatives through order n−2 but a discontinuity in the n−1st derivative.
Intuition from Algebraic Manipulation
The integration to compute the CF, the form of the conditional probability in the probabilistic analysis, and the synthesis of a hypercube as a linear combination of quadrants all suggest returning to the original uniform distribution and re-expressing it as a linear combination of simpler things. Indeed, its PDF can be written
Let us introduce the shift operatorΔ : it acts on any function f by shifting its graph one unit to the right:
Formally, then, for the PDF of a uniform variableX we may write
The PDF of a sum ofn iid uniforms is the convolution of fX with itself n times. This follows from the definition of a sum of random variables: the convolution of two functions f and g is the function
It is easy to verify that convolution commutes withΔ . Just change the variable of integration from y to y+1 :
For the PDF of the sum ofn iid uniforms, we may now proceed algebraically to write
(where the⋆n "power" denotes repeated convolution, not pointwise multiplication!). Now θ⋆n is a direct, elementary integration, giving
The rest is algebra, because the Binomial Theorem applies (as it does in any commutative algebra over the reals):
BecauseΔi merely shifts its argument by i , this exhibits the PDF f as a linear combination of shifted versions of θ(x)xn−1 , exactly as we deduced geometrically:
(John Cook quotes this formula later in his blog post, using the notation(x−i)n−1+ for (x−i)n−1θ(x−i) .)
Accordingly, becausexn−1 is a smooth function everywhere, any singular behavior of the PDF will occur only at places where θ(x) is singular (obviously just 0 ) and at those places shifted to the right by 1,2,…,n . The nature of that singular behavior--the degree of smoothness--will therefore be the same at all n+1 locations.
Illustrating this is the picture forn=8 , showing (in the left panel) the individual terms in the sum and (in the right panel) the partial sums, culminating in the sum itself (solid black curve):
Closing Comments
It is useful to note that this last approach has finally yielded a compact, practical expression for computing the PDF of a sum ofn iid uniform variables. (A formula for the CDF is similarly obtained.)
The Central Limit Theorem has little to say here. After all, a sum of iid Binomial variables converges to a Normal distribution, but that sum is always discrete: it never even has a PDF at all! We should not hope for any intuition about "kinks" or other measures of differentiability of a PDF to come from the CLT.
la source
You could argue that the probability density function of a uniform random variable is finite,
so its integral the cumulative density function of a uniform random variable is continuous,
so the probability density function of the sum of two uniform random variables is continuous,
so its integral the cumulative density function of the sum of two uniform random variables is smooth (continuously differentiable),
so the probability density function of the sum of three uniform random variables is smooth.
la source
I think the more surprising thing is that you get the sharp peak forn=2 .
The Central Limit Theorem says that for large enough sample sizes the distribution of the mean (and the sum is just the mean timesn , a fixed constant for each graph) will be approximately normal. It turns out that the uniform distribution is really well behaved with respect to the CLT (symmetric, no heavy tails (well not much of any tails), no possibility of outliers), so for the uniform the sample size needed to be "large enough" is not very big (around 5 or 6 for a good approximation), you are already seeing the OK approximation at n=3 .
la source