Quelle est la variance du maximum d'un échantillon?
13
BX = { X 1 , … , X M } M μ 1 , … , μ M σ 2 1 , … , σ 2 M
Var(maxiXi)≤B,
X={X1,…,XM}Mμ1,…,μMσ21,…,σ2M
Je peux en déduire que
Var(maxiXi)≤∑iσ2i,
mais cette limite semble très lâche. Un test numérique semble indiquer que B=maxiσ2i pourrait être une possibilité, mais je n'ai pas pu le prouver. Toute aide est appréciée.
(Voulez-vous supposer que les sont indépendants?) La conjecture est plausible mais semble fausse. Par exemple, faites quelques essais où les sont iid avec CDF , , . La variance de leur maximum, par rapport à leur variance commune, augmente sans limite à mesure que croît. X i 1 - x 1 - s 1 ≤ x ≤ ∞ s > 3 MXiXi1−x1−s1≤x≤∞s>3M
whuber
@whuber Merci, cela explique pourquoi je n'ai pas pu prouver cette conjecture :) Je suis en effet intéressé par le cas où les sont indépendants. Juste pour clarifier, je m'intéresse principalement aux limites générales qui n'utilisent que les deux premiers moments. Je ne sais pas s'il existe même des limites générales plus nettes que la variance commune. Xi
Peter
1
Je dois souligner que votre somme liée (en supposant qu'elle est correcte - ce serait bien de voir un croquis de la preuve) est serrée. Par exemple, laissez être pris en charge sur l'intervalle avec des écarts ne dépassant pas et laissez être pris en charge sur . Alors as, avec variance , mais l'inégalité peut être resserrée autant que vous le souhaitez en rétrécissant . [ - ∞ , a ] ε 2 X 1 [ a , ∞ ] max i X i = X 1 σ 2 1 ≤ σ 2 1 + ( M - 1 ) ε 2 ε 2X2,…,XM[−∞,a]ε2X1[a,∞]maxiXi=X1σ21≤σ21+(M−1)ε2ε2
whuber
1
Pour les données iid, la théorie des valeurs extrêmes fournit les classes de distributions vers lesquelles le maximum d'échantillon converge, avec certaines conditions sur les queues des distributions originales donnant différentes classes des distributions asymptotiques. Je doute donc que vous serez en mesure de tirer une bonne limite basée uniquement sur les deux moments, bien que je ne connaisse que tangentiellement la théorie.
StasK
Réponses:
9
Pour toute variable aléatoire , la meilleure limite générale est
comme indiqué dans la question d'origine. Voici un schéma de preuve: si X, Y sont IID alors . Étant donné un vecteur de variables éventuellement dépendantes , soit un vecteur indépendant avec la même distribution conjointe. Pour tout , nous avons par la limite d'union que , et l'intégration de ce de à produit l'inégalité revendiquée.X i V a r ( max X i ) ≤ ∑ i V a r ( X i ) E [ ( X - Y ) 2 ] = 2 V a r ( X ) ( X 1 , … , X n ) ( Y 1 , … , Y n ) r > 0 P [nXiVar(maxXi)≤∑iVar(Xi)E[(X−Y)2]=2Var(X)(X1,…,Xn)(Y1,…,Yn)r>0P[|maxiXi−maxiYi|2>r]≤∑iP[|Xi−Yi|2>r]dr0∞
Si sont des indicateurs IID d'événements de probabilité , alors est un indicateur d'un événement de probabilité . En fixant et en laissant tendre à zéro, on obtient et .XiϵmaxXinϵ+O(n2ϵ2)nϵVar(Xi)=ϵ−ϵ2Var(maxiXi)=nϵ+O(n2ϵ2)
Une question sur MathOverflow est liée à cette question.
Pour les variables aléatoires IID, la ème la plus élevée est appelée statistique d'ordre .k
Même pour les variables aléatoires IID Bernoulli, la variance de toute statistique d'ordre autre que la médiane peut être supérieure à la variance de la population. Par exemple, si est avec une probabilité et avec une probabilité et , alors le maximum est avec une probabilité , donc la variance de la population est de tandis que la variance du maximum est d'environ .Xi11/1009/10M=101≈1−1/e0.090.23
Voici deux articles sur les variances des statistiques de commande:
Yang, H. (1982) "Sur les variances de la médiane et d'autres statistiques d'ordre". Taureau. Inst. Math. Acad. Sinica, 10 (2) pp. 197-204
Je crois que la limite supérieure de la variance du maximum dans le deuxième article est . Ils soulignent que l'égalité ne peut pas se produire, mais toute valeur inférieure peut se produire pour les variables aléatoires IID Bernoulli.Mσ2
Réponses:
Pour toute variable aléatoire , la meilleure limite générale est comme indiqué dans la question d'origine. Voici un schéma de preuve: si X, Y sont IID alors . Étant donné un vecteur de variables éventuellement dépendantes , soit un vecteur indépendant avec la même distribution conjointe. Pour tout , nous avons par la limite d'union que , et l'intégration de ce de à produit l'inégalité revendiquée.X i V a r ( max X i ) ≤ ∑ i V a r ( X i ) E [ ( X - Y ) 2 ] = 2 V a r ( X ) ( X 1 , … , X n ) ( Y 1 , … , Y n ) r > 0 P [n Xi Var(maxXi)≤∑iVar(Xi) E[(X−Y)2]=2Var(X) (X1,…,Xn) (Y1,…,Yn) r>0 P[|maxiXi−maxiYi|2>r]≤∑iP[|Xi−Yi|2>r] dr 0 ∞
Si sont des indicateurs IID d'événements de probabilité , alors est un indicateur d'un événement de probabilité . En fixant et en laissant tendre à zéro, on obtient et .Xi ϵ maxXi nϵ+O(n2ϵ2) n ϵ Var(Xi)=ϵ−ϵ2 Var(maxiXi)=nϵ+O(n2ϵ2)
la source
Une question sur MathOverflow est liée à cette question.
Pour les variables aléatoires IID, la ème la plus élevée est appelée statistique d'ordre .k
Même pour les variables aléatoires IID Bernoulli, la variance de toute statistique d'ordre autre que la médiane peut être supérieure à la variance de la population. Par exemple, si est avec une probabilité et avec une probabilité et , alors le maximum est avec une probabilité , donc la variance de la population est de tandis que la variance du maximum est d'environ .Xi 1 1/10 0 9/10 M=10 1 ≈1−1/e 0.09 0.23
Voici deux articles sur les variances des statistiques de commande:
Yang, H. (1982) "Sur les variances de la médiane et d'autres statistiques d'ordre". Taureau. Inst. Math. Acad. Sinica, 10 (2) pp. 197-204
Papadatos, N. (1995) "Variance maximale des statistiques de commande". Ann. Inst. Statist. Math., 47 (1) p. 185-193
Je crois que la limite supérieure de la variance du maximum dans le deuxième article est . Ils soulignent que l'égalité ne peut pas se produire, mais toute valeur inférieure peut se produire pour les variables aléatoires IID Bernoulli.Mσ2
la source