Intervalles de confiance pour ECDF

8

L'inégalité Dvoretzky – Kiefer – Wolfowitz est la suivante:

Pr(sup|F^n(x)F(x)|>ϵ)2exp(2nϵ2) ,

et il prédit à quel point une fonction de distribution déterminée empiriquement sera proche de la fonction de distribution à partir de laquelle les échantillons empiriques sont tirés. En utilisant cette inégalité, nous pouvons tracer des intervalles de confiance (IC) autour de (ECDF). Mais ces CI seront égaux en distance autour de chaque point de l'ECDF.F^n(x)

Ce que je me demande, est-il une autre façon de construire un CI autour de l'ECDF?

En lisant les statistiques ordonnées, nous constatons que la distribution asymptotique de la statistique ordonnée est la suivante:

formule d'un hyperlien

Maintenant, tout d'abord, que signifie l' index avec ces symboles?np

Question principale: pouvons-nous utiliser ce résultat, conjointement avec la méthode delta (voir ci-dessous), pour fournir des IC pour l'ECDF. Je veux dire, l'ECDF est une fonction de la statistique ordonnée, non? Mais en même temps, l'ECDF est une fonction non paramétrique, est-ce donc une impasse?

Nous savons que et E(F^n(x))=F(x)Var(F^n(x))=F(x)(1F(x))n

J'espère que je suis clair sur ce que je veux en venir ici et apprécie toute aide.

MODIFIER :

Méthode Delta: si vous avez une séquence de variables aléatoires satisfaisantXn

entrez la description de l'image ici,

et et sont finis, alors ce qui suit est satisfait:θσ2

entrez la description de l'image ici,

pour toute fonction g satisfaisant à la propriété que existe, est non nulle, et est polynomiale avec la variable aléatoire (citation wikipedia)g(θ)

Erosennin
la source
1
np signifie arrondi au nombre entier suivant. serait le -ème plus grande observation (la -ème statistique de l' ordre ); assembler ces deux bits de notation (soit ) vous donne . npX(je)jejeje=npX(np)
Glen_b -Reinstate Monica
D'accord! Et p est juste égal à , tel que np est égal à i ? F^n(X)
Erosennin
1
Voir inside-r.org/packages/cran/sfsmisc/docs/ecdf.ksCI pour une solution dans R.
kjetil b halvorsen
Donc, votre façon de calculer les IC est basée sur la statistique de Kolmogorov-Smirnov, si je comprends bien? Je peux aussi examiner cela! Merci!
Erosennin
1
Si je me souviens bien, l'utilisation de la statistique KS vous donnerait le Dvoretzky–Kiefer–Wolfowitz.band. La déclaration que vous avez ne dit pas que vous choisissez pour faire . Si vous prenez du vous avez un résultat asymptotique que vous avez cité; cela impliquera la limite d'une séquence de valeurs, et vous n'avez pas besoin que soit entier pour aucune d'entre elles. pnp=ipnnp
Glen_b -Reinstate Monica

Réponses:

4

Je ne vois aucun moyen d'utiliser la méthode delta, mais ...

En lisant sur la convergence de la fonction de distribution empirique, nous lisons que le théorème de la limite centrale nous donne:

n(F^n(X)-F(X))N(0,F(X)(1-F(X)))

Nous pouvons l'utiliser pour créer différents CI autour de chaque :F^n(X)

F^n(X)±1,96F^n(X)(1-F^n(X))n ,

puisque , est notre meilleure estimation de .E(F^n(X))=F(X)F^n(X)F(X)

En utilisant le code R suivant:

#confidenc ebands calculation:
sim_norm<-rnorm(100)
plot(sim_norm)
hist(sim_norm)
sim_norm_sort<-sort(sim_norm)
n = sum(!is.na(sim_norm_sort))
plot(sim_norm_sort, (1:n)/n, type = 's', ylim = c(0, 1), 
     xlab = 'sample', ylab = '', main = 'Empirical Cumluative Distribution')

# Dvoretzky–Kiefer–Wolfowitz inequality:
# P ( sup|F_n - F| > epsilon  ) leq 2*exp(-2n*epsilon^2)
# set alpha to 0.05 and alpha=2*exp(-2n*epsilon^2):
# --> epsilon_n = sqrt(-log(0.5*0.05)/(2*n))
#
#lower and upper bands:
L<-1:n
U<-1:n


  epsilon_i = sqrt(log(2/0.05)/(2*n))

  L=pmax(1:n/n-epsilon_i, 0)
  U=pmin(1:n/n+epsilon_i, 1)
  lines(sim_norm_sort, U, col="blue")
  lines(sim_norm_sort, L, col="blue")

#using clt:
U2=(1:n/n)+1.96*sqrt( (1:n/n)*(1-1:n/n)/n )
L2=(1:n/n)-1.96*sqrt( (1:n/n)*(1-1:n/n)/n )
lines(sim_norm_sort, L2, col="red")
lines(sim_norm_sort, U2, col="red")

On a:

Bleu = bandes KWD, rouge = bandes CLT

Nous voyons que les bandes rouges (de la méthode CLT) nous donnent des bandes de confiance plus étroites.

EDIT : Comme l'a souligné @Kjetil B Halvorsen - ces deux types de bandes sont de types différents. J'avais @Glen_b expliquer exactement ce qu'il voulait dire:

Types de bandes de confiance très différents. Avec une bande de confiance point par point, vous vous attendriez à un certain nombre de points en dehors de la bande même si c'était la distribution à partir de laquelle les données ont été tirées. Avec des groupes simultanés, vous ne le feriez pas. Si vous avez une bande de 95% point par point, en moyenne 5% des points pour la distribution correcte seraient en dehors des bandes. Avec des bandes simultanées, il y a 5% de chances que le point avec le plus grand écart soit à l'extérieur.

Un grand merci aux deux!

Erosennin
la source
Pourquoi cette méthode n'est-elle pas préférée à l'utilisation de l'inégalité DKW - ou de la statistique KS? Je n'ai jamais vu personne construire les bandes de confiance de cette façon auparavant ...
Erosennin
1
Il ne donne que des bandes de confiance individuellement, pour chaque , pas simultanémentX
kjetil b halvorsen
Par "cela", je suppose que vous entendez la "voie CLT". Et par exemple, DKW ne donne rien vraiment simultanément non plus, il indique simplement la distance "maximale" et l'utilise comme bande de confiance pour chaque point x. Et de même pour KS. ϵ
Erosennin
Oui, et en utilisant un maximum de cette manière, ils obtiennent une bande de confiance valide simultanément.
kjetil b halvorsen
2
Discussion intéressante ici. J'ai ajouté les intervalles CDF ponctuels à Wikipedia et une discussion sur les différences entre ces méthodes. J'ai également mis à jour la page DKW pour discuter plus précisément des intervalles. Jetez un œil et n'hésitez pas à mettre à jour les pages ou envoyez-moi un MP sur l'un des sites en.wikipedia.org/wiki/… en.wikipedia.org/wiki/…
Bscan