Afficher l'estimation converge vers le centile grâce aux statistiques de commande

10

Soit une séquence de variables aléatoires iid échantillonnées à partir d'une distribution alpha stable , avec les paramètres .X1,X2,,X3nα=1.5,β=0,c=1.0,μ=1.0

Considérons maintenant la séquence , où , pour .Y1,Y2,,YnYj+1=X3j+1X3j+2X3j+31j=0,,n1

Je veux estimer le centile.0.01

Mon idée est de faire une sorte de simulation Monte-Carlo:

l = 1;
while(l < max_iterations)
{
  Generate $X_1, X_2, \ldots, X_{3n}$ and compute $Y_1, Y_2, \ldots, Y_{n}$;
  Compute $0.01-$percentile of current repetition;
  Compute mean $0.01-$percentile of all the iterations performed;
  Compute variance of $0.01-$percentile of all the iterations performed;
  Calculate confidence interval for the estimate of the $0.01-$percentile;

  if(confidence interval is small enough)
    break;

}

L' appel de la moyenne de l' ensemble de l'échantillon centiles calculée pour être μ n et leur variance σ 2 n , pour calculer l'intervalle de confiance approprié pour μ , je recours à la forme forte du théorème central limite :0.01μ^nσ^n2μ

Soit une suite de iid variables aléatoires avec E [ X i ] = μ et 0 < V [ X i ] = σ 2 < . Définir la moyenne échantillon μ n = ( 1 / n ) Σ n i = 1 X i . Ensuite, ( μ n - μ ) /X1,X2,E[Xi]=μ0<V[Xi]=σ2<μ^n=(1/n)i=1nXi a une distribution normale standard limite, c'est-à-dire (μ^nμ)/σ2/n

μ^nμσ2/nnN(0,1).

et le théorème de Slutksy pour conclure que

nμ^nμσ^n2nN(0,1).

Alors un intervalle de confiance pour estμ(1α)×100%μ

Iα=[μ^nz1α/2σ^n2n,μ^n+z1α/2σ^n2n],
où est le -quantile de la distribution normale standard. ( 1 - α / 2 )z1α/2(1α/2)

Des questions:

1) Mon approche est-elle correcte? Comment puis-je justifier l'application du CLT? Je veux dire, comment puis-je montrer que la variance est finie? (Dois-je regarder la variance de ? Parce que je ne pense pas que ce soit fini ...)Yj

2) Comment puis-je montrer que la moyenne de tous les échantillons0.01 centiles calculé converge vers la valeur réelle du percentile? (Je devrais utiliser les statistiques de commande mais je ne sais pas comment procéder; les références sont appréciées.)0.01

Maya
la source
3
Toutes les méthodes appliquées aux échantillons de médianes sur stats.stackexchange.com/questions/45124 s'appliquent également aux autres centiles. En effet, votre question est identique à celle-ci mais remplace simplement le 50e centile par le 1er (ou 0,01 peut-être?) Centile.
whuber
@whuber, votre réponse à cette question est extrêmement bonne. cependant, Glen_b déclare, à la fin de son article (la réponse acceptée), que la normalité approximative "ne s'applique pas aux quantiles extrêmes, parce que le CLT n'y entre pas en jeu (la moyenne des Z ne sera pas asymptotiquement normale Vous avez besoin d'une théorie différente pour les valeurs extrêmes ". Dans quelle mesure devrais-je m'inquiéter de cette déclaration?
Maya
2
Je crois qu'il ne voulait pas vraiment dire des quantiles extrêmes , mais seulement les extrêmes eux-mêmes. (En fait, il a corrigé ce laps de temps à la fin de la même phrase, les qualifiant de «valeurs extrêmes».) La distinction est qu'un quantile extrême, tel que le centile 0,01 (qui marque le 1/10000e inférieur de la dans la limite, se stabilisera parce que de plus en plus de données dans un échantillon tomberont toujours en dessous et de plus en plus tomberont au-dessus de ce centile. Avec un extrême (comme le maximum ou le minimum) ce n'est plus le cas.
whuber
C'est un problème qui devrait être résolu en général en utilisant la théorie des processus empiriques. Une aide sur votre niveau de formation serait utile.
AdamO

Réponses:

2

La variance de n'est pas finie. Y En effet , une variable alpha-stable avec α = trois / 2 (une répartition Holtzmark ) n'a une attente finie μ mais sa variance est infinie. Si Y avait une variance finie σ 2 , alors en exploitant l'indépendance du X i et la définition de la variance, nous pourrions calculerXα=3/2μYσ2Xi

σ2=Var(Y)=E(Y2)E(Y)2=E(X12X22X32)E(X1X2X3)2=E(X2)3(E(X)3)2=(Var(X)+E(X)2)3μ6=(Var(X)+μ2)3μ6.

Var(X)Var(X)


Passons à la deuxième question.

Tout quantile d'échantillon converge vers le vrai quantile lorsque l'échantillon grandit. Les paragraphes suivants prouvent ce point général.

q=0.0101FZq=F1(q)qth

F1ϵ>0q<qq+>q

F(Zqϵ)=q,F(Zq+ϵ)=q+,

ϵ0[q,q+]{q}

nZq(q,n)qZqnZqnqnq(1q)Φnq

1Φ(nqnqnq(1q))=1Φ(nqqq(1q)).

ΦnnΦ1

nqZqnqZq+qZqϵZq+ϵ

ϵ1αnnq1αϵZq


q=0.50

Figure: histogramme de 0,01 quantile de Y avec n = 300 pour 1000 itérations

q=0.01Yn=300Y

library(stabledist)
n <- 3e2
q <- 0.01
n.sim <- 1e3

Y.q <- replicate(n.sim, {
  Y <- apply(matrix(rstable(3*n, 3/2, 0, 1, 1), nrow=3), 2, prod) - 1
  log(-quantile(Y, 0.01))
})
m <- median(-exp(Y.q))
hist(Y.q, freq=FALSE, 
     main=paste("Histogram of the", q, "quantile of Y for", n.sim, "iterations" ),
     xlab="Log(-Y_q)",
     sub=paste("Median is", signif(m, 4), 
               "Negative log is", signif(log(-m), 4)),
     cex.sub=0.8)
abline(v=log(-m), col="Red", lwd=2)
whuber
la source