Nombre prévu de fois que la moyenne empirique dépassera une valeur

11

Étant donné une séquence de variables aléatoires iid, disons, pour , j'essaie de limiter le nombre attendu de fois la moyenne empirique dépassera une valeur, , alors que nous continuons à tirer des échantillons, à savoir: i = 1 , 2 , . .Xi[0,1]1i=1,2,...,nc0T d e f = n j=1P1ni=1nXic0

T=defj=1nP({1ji=1jXic})

Si nous supposons que pour certains , nous pouvons utiliser l'inégalité de Hoeffding pour arriver àc=a+E[X]a>0

Tj=1ne2ja2=1e2a2ne2a21

Ce qui semble agréable (peut-être) mais est en fait une limite assez lâche, existe-t-il de meilleures façons de limiter cette valeur? Je m'attends à ce qu'il y ait un moyen puisque les différents événements (pour chaque ) ne sont clairement pas indépendants, je ne connais aucun moyen d'exploiter cette dépendance. En outre, il serait bon de supprimer la restriction selon laquelle est supérieur à la moyenne.cjc

edit : La restriction sur étant supérieur à la moyenne peut être supprimée si nous utilisons l'inégalité de Markov comme suit:c

Tj=1n1jE[X]c=E[X]Hnc
Ce qui est plus général, mais bien pire que la limite ci-dessus, bien qu'il soit clair que doit diverger chaque fois que . c E [ X ]TcE[X]
fairidox
la source
Votre définition de ne correspond pas à votre description. Si les " " étaient supprimés, ce serait le nombre attendu de dépassements de , mais tel qu'écrit, il s'agit d'une combinaison linéaire des temps . Ce n'est manifestement pas une attente car les probabilités ne s'excluent pas mutuellement. Par exemple, lorsque , . j × c c 0 T = n ( n + 1 ) / 2Tj×cc0T=n(n+1)/2
whuber
@whuber oh, à droite, bon point merci, je l'ai corrigé ci-dessus.
fairidox
Je remarque que vous avez changé votre limite supérieure. Il semble désormais négatif ;-).
whuber
Le « » de l'exponentielle ne devrait-il pas être carré? - Ok ça simplifie avec le domaine [0,1]j
Alecos Papadopoulos

Réponses:

1

Il s'agit d'une approche plutôt artisanale, et j'apprécierais vraiment certains commentaires à ce sujet (et les critiques sont généralement les plus utiles). Si je comprends bien, l'OP calcule la échantillon , où chaque échantillon contient l'observation précédente de l'échantillon +1 à partir d'un nouveau la distribution de chaque moyenne de l'échantillon. Ensuite, nous pouvons écrire x¯jFj

T=defj=1n(1Fj(c))=nj=1nFj(c)

Considérons une taille de l' échantillon après quoi la distribution de la moyenne échantillon est presque normal, noterons . Ensuite, nous pouvons écriremG^

T=nj=1mFj(c)j=m+1nG^j(c)<nj=m+1nG^j(c)

En résolvant nous obtenons où est la normale standard cdf, est l'écart-type du processus iid, et est sa moyenne. Insérer dans la limite et réorganiser nous obtenonsG^j(c)

G^j(c)=1Φ(jσ(μc))
Φσμ

T<m+j=m+1nΦ(jσ(a))

Notez que cette limite dépend également de la variance du processus. Est-ce une meilleure limite que celle présentée dans la question? Cela dépendra essentiellement de la rapidité avec laquelle la distribution de la moyenne de l'échantillon deviendra «presque normale». Pour donner un exemple numérique, supposons que . Supposons également que les variables aléatoires soient uniformes dans . Ensuite, et . Considérons un écart de 10% par rapport à la moyenne, c'est-à-dire . alors: déjà pour la borne que je propose (qui est significative pour ) devient plus serrée. Pour la limite de Hoeffding est dem=30[0,1]σ=112 a=0,05n=34n>30n=10078,536,2199,538,5aa=0,149,530,5nμ=12a=0.05n=34n>30n=10078.5tandis que la limite que je propose est de . La limite de Hoeffding converge vers tandis que la limite que je propose à Si vous augmentez l'écart entre les deux limites diminue mais reste visible: pour un écart de 20%, , la limite de Hoeffding converge vers tandis que le borne que je propose converge à (c'est-à-dire que la somme des cdfs normaux contribue très peu à la borne globale). Un peu plus généralement, nous notons que pour la borne de Hoeffding converge vers36.2199.538.5aa=0.149.530.5
n

Abm

Hb1e2a21
tandis que mon lié à
Abm

Étant donné que pour les petites valeurs de (ce qui est plutôt le cas d'intérêt) devient un grand nombre, il est toujours possible que surpasse en étanchéité, même si l'échantillon est tel que la distribution de la moyenne de l'échantillon converge lentement vers la distribution normale.H b A baHbAb

Alecos Papadopoulos
la source
" (c'est-à-dire pas plus que le seuil de taille d'échantillon supposé dont on a besoin pour obtenir l'approximation normale de la distribution de la moyenne de l'échantillon) " de quoi parlez-vous ici?
Glen_b -Reinstate Monica
Rien d'important. Au moment où j'écris quelques lignes ci-dessus, une règle de base pour que la distribution de la moyenne de l'échantillon soit "beaucoup" comme la normale, c'est que nous avons besoin d'au moins une taille d'échantillon de 30. Donc, pour la taille d'échantillon 100, et un écart de 20% cas, ma borne est soit - en d'autres termes, la partie de la borne contribue très peu. m + 0,5 n j = m + 1 Φ (30.5m+0.5j=m+1nΦ(jσ(a))
Alecos Papadopoulos
À moins que vous ne puissiez indiquer les circonstances dans lesquelles il se tient , veuillez éviter d'appeler cette chose une règle générale dans un sens général. Le chiffre de 30 est complètement arbitraire (généralement soit beaucoup trop faible ou bien trop fort), et ce 30 apparaît également dans votre cas est, je crois, une simple coïncidence.
Glen_b -Reinstate Monica
1
@Glen_b "30" n'était même pas une coïncidence - je l'ai juste utilisé pour fournir un exemple numérique. Je n'ai aucune objection à la question, je n'aime pas les "règles de base" (surtout quand elles sont douteuses). J'ai apporté quelques changements dans ma réponse. Merci pour la contribution.
Alecos Papadopoulos
@Glen_b Merci pour la mémoire éventuellement non stationnaire (c'est-à-dire longue)!
Alecos Papadopoulos