Considérez
où sont iid et le CLT est valide .
Combien des termes les plus importants représentent jusqu'à la moitié de la somme totale?
Par exemple, 10 + 9 + 8 (10 + 9 + 8 + 1) / 2: 30% des termes atteignent environ la moitié du total.
Définissez
Existe-t-il un résultat asymptotique général pour la demi-somme ( )?
Une dérivation simple et intuitive serait bien.
(Un peu de Monte Carlo suggère que parfois la demi-somme ( ) / 4 environ;
c'est-à-dire que le plus grand 1/4 du ajoute jusqu'à la moitié du total. J'obtiens
0,24 pour la demi-normale, 0,19 pour exponentielle, pour = 20, 50, 100.)
Réponses:
Non, il n'y a pas de résultat asymptotique général. Soit le ordonné , où est le plus grand. x i x [ 1 ]x[1]…x[N] xi x[1]
Considérez les deux exemples suivants:
1) . Clairement, le CLT tient. Vous n'avez besoin que de observation pour. M = 1 ∑ M j = 1 | x [ j ] | ≥ 1P(x=0)=1 M=1 ∑Mj=1|x[j]|≥12∑N|xi|
2) . Clairement, le CLT tient. Vous avez besoin de observations de pour.M = ⌈ N / 2 ⌉ ∑ M j = 1 | x [ j ] | ≥ 1P(x=1)=1 M=⌈N/2⌉ ∑Mj=1|x[j]|≥12∑N|xi|
Pour un exemple non trivial, la distribution de Bernoulli:
3) . Encore une fois, le CLT tient bon. Vous avez besoin de des observations pour répondre à vos conditions. En variant entre 0 et 1, vous pouvez vous rapprocher autant de l'exemple 1 que de l'exemple 2.⌈ p N / 2 ⌉ pP(x=1)=p, P(x=0)=1−p ⌈pN/2⌉ p
la source
Voici un argument grossier donnant une estimation légèrement différente pour les variables aléatoires uniformément réparties. Supposons que les sont des variables aléatoires continues réparties uniformément sur . Alors, a la valeur moyenne . Supposons que par une coïncidence surprenante et totalement incroyable, la somme soit exactement égale à . Nous voulons donc estimer combien des plus grandes valeurs de résument à ou plus. Maintenant, l'histogramme de échantillons ( très grand) tiré de la distribution uniforme est à peu près plat de àXi [0,1] ∑iXi N/2 N/2 X N/4 N N U[0,1] 0 1 , et donc pour tout , , il y a
échantillons répartis approximativement uniformément entre à . Ces échantillons ont une valeur moyenne et une somme égale à
. La somme dépasse pour . Ainsi, la somme de échantillons les plus grands dépasse
.x 0<x<1 (1−x)N x 1 (1+x)/2 (1−x)N(1+x)/2)=(1−x2)N/2 N/4 x≤1/2–√ (1−1/2–√)N≈0.3N N/4
Vous pourriez essayer de généraliser un peu cela. Si , alors pour tout donné , nous voulons que soit tel que où est normal avec la moyenne et la variance . Ainsi, conditionné à une valeur de , . Multipliez par la densité de et intégrez (de à ) pour trouver le nombre moyen d'échantillons les plus grands qui dépassera la moitié de la somme aléatoire.∑iXi=Y Y x (1−x2)N/2=Y/2 Y N/2 N/12 Y x=1−(Y/N)−−−−−−−−−√ Y Y=0 Y=N
la source
Supposons que X ait juste des valeurs positives pour se débarrasser de la valeur absolue.
Sans une preuve exacte, je pense que vous devez résoudre pour k
puis la réponse est donnée en prenant les valeurs les plus élevées.n(1−FX(k))
Ma logique est que la somme de toutes les valeurs supérieures à k devrait être asymétrique
et asymétriquement la moitié de la somme totale est d'environ
La simulation numérique montre que le résultat est valable pour le cas uniforme (uniforme dans ) où et j'obtiens . Je ne sais pas si le résultat est toujours valable ou s'il peut être simplifié davantage, mais je pense que cela dépend vraiment de la fonction de distribution F.[0,1] k = √F(k)=k k=(√12)
la source