Distribution asymptotique d'échantillons censurés de

8

Soit la statistique d'ordre d'un échantillon iid de taille de . Supposons que les données soient censurées afin que nous ne voyions que le haut des données, c'est-à-direMettez , quelle est la distribution asymptotique de X(1),,X(n)nexp(λ)(1p)×100

X(pn),X(pn+1),,X(n).
m=pn
(X(m),i=m+1nX(i)(nm))?

Ceci est quelque peu lié à cette question et à cela et aussi marginalement à cette question.

Toute aide serait appréciée. J'ai essayé différentes approches mais n'ai pas pu progresser beaucoup.

leur
la source
On peut montrer que conditionné sur , vecteur est distribué comme une statistique d'ordre de iid échantillons de (avec comme défini dans la question, c'est-à-dire ), donc donc à la limite , nous le CLT en raison de l'indépendance de , cela semble être la bonne voie, mais Je ne peux pas pousser cet argument plus loin et trouver asymptotique pour .. .X(m)(X(m+1)X(m),,X(n)X(m)|X(m)){Yi}1nmexp(1)mm=pn1mni=m+1nX(i)X(m)|X(m)=1mni=1nmY(i)nYi(X(m),1mni=m+1nX(i))
les
2
À OP: Pourquoi faites-vous référence à votre échantillon comme étant censuré? Le terme censuré indiquerait que les valeurs en dessous du point de censure sont enregistrées comme 0, ou enregistrées au point de censure, etc. Mais ce n'est pas ce que vous faites ... vous les jetez, ce qui n'est pas de la censure ... c'est plutôt comme les tronquer. Et puisque vous envisagez la distribution asymptotique et que est grand, pourquoi vous souciez-vous de commander d'abord l'échantillon et de tronquer l'échantillon commandé ??? Pourquoi ne pas simplement considérer une distribution exponentielle tronquée, tronquée ci-dessous à p%, puis additionner les termes de cela? n
wolfies
@wolfies, j'ai corrigé toutes les fautes de frappe que vous avez signalées. Je vais examiner la distribution réduite . Concernant la censure, j'ai supprimé la note. Cependant, certaines sources que j'ai consultées font référence à un problème similaire à la censure de type II haut de la page 6 ici
les
1
@them c'est une terminologie non standard pour autant que je sache. Vous devez utiliser ici un modèle tronqué .
shadowtalker

Réponses:

2

Comme n'est qu'un facteur d'échelle, sans perte de généralité, choisissez les unités de mesure qui font , ce qui rend la fonction de distribution sous-jacente avec la densité .λλ=1F(x)=1exp(x)f(x)=exp(x)

D'après des considérations parallèles à celles du théorème de la limite centrale pour les médianes de l'échantillon , est asymptotiquement normal avec la moyenne et la varianceX(m)F1(p)=log(1p)

Var(X(m))=p(1p)nf(log(1p))2=pn(1p).

En raison de la propriété sans mémoire de la distribution exponentielle , les variables agissent comme les statistiques d'ordre d'un échantillon aléatoire de tirées de , auquel a été ajouté. L'écriture(X(m+1),,X(n))nmFX(m)

Y=1nmi=m+1nX(i)

pour leur moyenne, il est immédiat que la moyenne de est la moyenne de (égale à ) et que la variance de est multipliée par la variance de (également égale à ). Le théorème central limite implique que le normalisé est asymptotiquement Standard Normal. De plus, parce que est conditionnellement indépendante de , nous avons en même temps la version normalisée de devient asymptotiquement standard normal et décorrélé . C'est,YF1Y1/(nm)F1YYX(m)X(m)Y

(1)(X(m)+log(1p)p/(n(1p)),YX(m)1nm)

a asymptotiquement une distribution bivariée Standard Normal.


Les graphiques rapportent des données simulées pour des échantillons de ( itérations) et . Une trace d'asymétrie positive demeure, mais l'approche de la normalité bivariée est évidente dans le manque de relation entre et et la proximité des histogrammes à la densité normale normale (illustrée dans points rouges). n=1000500p=0.95YX(m)X(m)Figure

La matrice de covariance des valeurs standardisées (comme dans la formule ) pour cette simulation était confortablement proche de la matrice unitaire dont elle se rapproche.(1)

(0.9670.0210.0211.010),

Le Rcode qui a produit ces graphiques est facilement modifié pour étudier d'autres valeurs de , et de taille de simulation.np

n <- 1e3
p <- 0.95
n.sim <- 5e3
#
# Perform the simulation.
# X_m will be in the first column and Y in the second.
#
set.seed(17)
m <- floor(p * n)
X <- apply(matrix(rexp(n.sim * n), nrow = n), 2, sort)
X <- cbind(X[m, ], colMeans(X[(m+1):n, , drop=FALSE]))
#
# Display the results.
#
par(mfrow=c(2,2))

plot(X[,1], X[,2], pch=16, col="#00000020", 
     xlab=expression(X[(m)]), ylab="Y",
     main="Y vs X", sub=paste("n =", n, "and p =", signif(p, 2)))

plot(X[,1], X[,2]-X[,1], pch=16, col="#00000020", 
     xlab=expression(X[(m)]), ylab=expression(Y - X[(m)]),
     main="Y-X vs X", sub="Loess smooth shown")
lines(lowess(X[,2]-X[,1] ~ X[,1]), col="Red", lwd=3, lty=1)

x <- (X[,1] + log(1-p))  / sqrt(p/(n*(1-p)))
hist(x, main="Standardized X", freq=FALSE, xlab="Value")
curve(dnorm(x), add=TRUE, col="Red", lty=3, lwd=2)

y <- (X[,2] - X[,1] - 1) * sqrt(n-m)
hist(y, main="Standardized Y-X", freq=FALSE, xlab="Value")
curve(dnorm(x), add=TRUE, col="Red", lty=3, lwd=2)
par(mfrow=c(1,1))

round(var(cbind(x,y)), 3) # Should be close to the unit matrix
whuber
la source