Combien des plus grands termes deajouter jusqu'à la moitié du total?

11

Considérez i=1N|Xi|X1,,XN sont iid et le CLT est valide .
Combien des termes les plus importants représentent jusqu'à la moitié de la somme totale?
Par exemple, 10 + 9 + 8 (10 + 9 + 8 + 1) / 2: 30% des termes atteignent environ la moitié du total.

Définissez
sumbiggest( j;X1XN)sum of the j biggest of |X1||XN|
halfsum(N)the smallest j such that sumbiggest( j )sumbiggest(N)/2.

Existe-t-il un résultat asymptotique général pour la demi-somme ( N,μ,σ )?
Une dérivation simple et intuitive serait bien.

(Un peu de Monte Carlo suggère que parfois la demi-somme ( N ) N / 4 environ;
c'est-à-dire que le plus grand 1/4 du Xi ajoute jusqu'à la moitié du total. J'obtiens
0,24 N pour la demi-normale, 0,19 N pour exponentielle, pour N = 20, 50, 100.)

denis
la source
3
Ne vous attendez pas à un résultat universel de type CLT. Par exemple, la réponse pour les variables uniformes (0,1) sera très différente de la réponse pour les variables uniformes (1000,1001)!
whuber
À droite, la demi-somme dépendra bien sûr de la moyenne et de la sd. Mais pourquoi ~ N / 5 pour exponentielle?
denis
2
Asymptotiquement, Denis, la valeur seuil pour la demi-somme sera la valeur pour laquelle où est le pdf pour; la question demande ( est le cdf pour ). Dans le cas de la distribution uniforme vous obtenez la réponse de @ Dilip; pour une exponentielle, . x 0 t f ( t ) d t = une / 2 f | X i | N ( 1 - F ( x ) ) F | X i | [ 0 , 1 ] x 0,1886682 N N / 5x0xtf(t)dt=1/2f|Xi|N(1F(x))F|Xi|[0,1]x0.186682NN/5
whuber

Réponses:

2

Non, il n'y a pas de résultat asymptotique général. Soit le ordonné , où est le plus grand. x i x [ 1 ]x[1]x[N]xix[1]

Considérez les deux exemples suivants:

1) . Clairement, le CLT tient. Vous n'avez besoin que de observation pour. M = 1 M j = 1 | x [ j ] | 1P(x=0)=1M=1j=1M|x[j]|12N|xi|

2) . Clairement, le CLT tient. Vous avez besoin de observations de pour.M = N / 2 M j = 1 | x [ j ] | 1P(x=1)=1M=N/2j=1M|x[j]|12N|xi|

Pour un exemple non trivial, la distribution de Bernoulli:

3) . Encore une fois, le CLT tient bon. Vous avez besoin de des observations pour répondre à vos conditions. En variant entre 0 et 1, vous pouvez vous rapprocher autant de l'exemple 1 que de l'exemple 2.p N / 2 pP(x=1)=p, P(x=0)=1ppN/2p

jbowman
la source
4
Il est en effet évident que la réponse peut être n'importe où entre et , mais cela n'implique pas l'inexistence d'un résultat général. Ce que cela implique, c'est que nous devrions considérer des réponses où la fraction dépend de certaines propriétés de la distribution sous-jacente telles que sa moyenne et SD. Celles-ci sont suffisantes, avec le CLT, pour fournir des informations spécifiques et quantitatives sur la façon dont les sont distribués par rapport à leur somme, il est donc raisonnable d'espérer un tel résultat. N / 2 x [ i ]0N/2x[i]
whuber
1

Voici un argument grossier donnant une estimation légèrement différente pour les variables aléatoires uniformément réparties. Supposons que les sont des variables aléatoires continues réparties uniformément sur . Alors, a la valeur moyenne . Supposons que par une coïncidence surprenante et totalement incroyable, la somme soit exactement égale à . Nous voulons donc estimer combien des plus grandes valeurs de résument à ou plus. Maintenant, l'histogramme de échantillons ( très grand) tiré de la distribution uniforme est à peu près plat de àXi[0,1]iXiN/2N/2XN/4NNU[0,1]01, et donc pour tout , , il y a échantillons répartis approximativement uniformément entre à . Ces échantillons ont une valeur moyenne et une somme égale à . La somme dépasse pour . Ainsi, la somme de échantillons les plus grands dépasse .x0<x<1(1x)Nx1(1+x)/2(1x)N(1+x)/2)=(1x2)N/2N/4x1/2(11/2)N0.3NN/4

Vous pourriez essayer de généraliser un peu cela. Si , alors pour tout donné , nous voulons que soit tel que où est normal avec la moyenne et la variance . Ainsi, conditionné à une valeur de , . Multipliez par la densité de et intégrez (de à ) pour trouver le nombre moyen d'échantillons les plus grands qui dépassera la moitié de la somme aléatoire.iXi=YYx(1x2)N/2=Y/2YN/2N/12Yx=1(Y/N)YY=0Y=N

Dilip Sarwate
la source
La distance entre deux points restreints pour être dans l'intervalle ne peut pas être distribuée exponentiellement car la distance doit être inférieure à tandis qu'une variable aléatoire exponentielle prend des valeurs dans . Ce qui est vrai, c'est que si sont des variables aléatoires exponentielles indépendantes, puis conditionnées à , les statistiques de commande sont uniformément distribués dans . Voir, par exemple, cette question et réponse sur le site compagnon math.SE. (suite)1 ( 0 , ) Y 1 , Y 2(0,1)1(0,)Y1,Y2,,Yn+1Ymax=α Y(1),Y(2),,Y(n)(0,α)
Dilip Sarwate
En tout cas, mon argument n'utilise pas les distances entre les échantillons ordonnés de la distribution uniforme.
Dilip Sarwate
Vous avez raison, je vous ai mal compris. Comme question secondaire, les pièces entre les points aléatoires uniformes ne sont-elles pas distribuées de façon exponentielle, après la mise à l'échelle - l'inverse de votre q + a? [Règle de bâton brisée du Wolfram Demonstrations Project] ( démonstrations.wolfram.com /BrokenStickRule) semble certainement exponentielle, il doit y avoir une solution facile? preuve.
denis
Veuillez poser votre question secondaire en tant que question distincte.
Dilip Sarwate
Commencé, puis vu la probabilité-distribution-de-longueurs de fragments , vous pouvez commenter là-bas.
denis
0

Supposons que X ait juste des valeurs positives pour se débarrasser de la valeur absolue.

Sans une preuve exacte, je pense que vous devez résoudre pour k

(1FX(k))E(X|X>=k)=12E(X) avec F étant la fonction de distribution cumulative pour X

puis la réponse est donnée en prenant les valeurs les plus élevées.n(1FX(k))

Ma logique est que la somme de toutes les valeurs supérieures à k devrait être asymétrique

n(1FX(k))E(X|X>=k)

et asymétriquement la moitié de la somme totale est d'environ

12nE(X) .

La simulation numérique montre que le résultat est valable pour le cas uniforme (uniforme dans ) où et j'obtiens . Je ne sais pas si le résultat est toujours valable ou s'il peut être simplifié davantage, mais je pense que cela dépend vraiment de la fonction de distribution F.[0,1]k = F(k)=kk=(12)

Erik
la source