Déterminer si un processus distribué à queue lourde s'est considérablement amélioré

12

J'observe les temps de traitement d'un processus avant et après un changement afin de savoir si le processus s'est amélioré par le changement. Le processus s'est amélioré si le temps de traitement est réduit. La distribution du temps de traitement est grossière, donc une comparaison basée sur la moyenne n'est pas raisonnable. Au lieu de cela, je voudrais savoir si la probabilité d'observer un temps de traitement inférieur après le changement est nettement supérieure à 50%.

Soit la variable aléatoire pour le temps de traitement après la modification et Y la précédente. Si P ( X < Y ) est nettement supérieur à 0,5, je dirais que le processus s'est amélioré.XYP(X<Y)0.5

Maintenant , j'ai observations ix i de X et m observations y j de Y . La observé probabilité de P ( X < Y ) est p = 1nxiXmyjYP(X<Y).p^=1nmij1xi<yj

Que puis-je dire à propos de compte tenu des observations x i et y j ?P(X<Y)xiyj

Christian
la source

Réponses:

12

Votre estimation p est égal à la Mann-Whitney U statistique divisée par m n (merci, Glen!), Et est donc équivalent à la statistique-Wilcoxon W (également connu sous le nom statistique de Wilcoxon-Mann-Whitney): W = U + n ( n + 1 )p^UmnWW=U+n(n+1)2 , oùnest la taille de l'échantillon dey(en supposant qu'il n'y a pas de liens.) Vous pouvez donc utiliser les tables / logiciels du test de Wilcoxon et les retransformer enUpour obtenir un intervalle de confiance ou une valeur dep.

Soit m la taille d'échantillon de x , N = m+n . Ensuite, asymptotiquement,

W=Wm(N+1)2mn(N+1)12N(0,1)

Source: Hollander et Wolfe , Méthodes statistiques non paramétriques, grosso modo p. 117, mais probablement la plupart des livres de statistiques non paramétriques vous y mèneront.

jbowman
la source
@Glen_b - merci, j'ai mis à jour la réponse. Très généreuse supposition que vous avez faite sur la cause de l'erreur!
jbowman
13

@jbowman fournit une (belle) solution standard au problème d'estimation de connu sous le nom de modèle de résistance aux contraintes .θ=P(X<Y)

Une autre alternative non paramétrique a été proposée dans Baklizi et Eidous (2006) pour le cas où et Y sont indépendants. Ceci est décrit ci-dessous.XY

Par définition, nous avons cela

θ=P(X<Y)=FX(y)fY(y)dy,

est le CDF de X et f Y est la densité de Y . Ensuite, en utilisant les échantillons de X et Y, nous pouvons obtenir des estimateurs de noyau de F X et f Y et par conséquent et un estimateur de θFXXfYYXYFXfYθ

θ^=F^X(y)f^Y(y)dy.

Ceci est implémenté dans le code R suivant en utilisant un noyau gaussien.

# Optimal bandwidth
h = function(x){
n = length(x)
return((4*sqrt(var(x))^5/(3*n))^(1/5))
}

# Kernel estimators of the density and the distribution
kg = function(x,data){
hb = h(data)
k = r = length(x)
for(i in 1:k) r[i] = mean(dnorm((x[i]-data)/hb))/hb
return(r )
} 

KG = function(x,data){
hb = h(data)
k = r = length(x)
for(i in 1:k) r[i] = mean(pnorm((x[i]-data)/hb))
return(r )
} 

# Baklizi and Eidous (2006) estimator
nonpest = function(dat1B,dat2B){
return( as.numeric(integrate(function(x) KG(x,dat1B)*kg(x,dat2B),-Inf,Inf)$value))  
}

# Example when X and Y are Cauchy
datx = rcauchy(100,0,1)
daty =  rcauchy(100,0,1)

nonpest(datx,daty)

Afin d'obtenir un intervalle de confiance pour vous pouvez obtenir un échantillon bootstrap de cet estimateur comme suit.θ

# bootstrap
B=1000
p = rep(0,B)

for(j in 1:B){
dat1 =  sample(datx,length(datx),replace=T)
dat2 =  sample(daty,length(daty),replace=T)
p[j] = nonpest(dat1,dat2)
}

# histogram of the bootstrap sample
hist(p)

# A confidence interval (quantile type)
c(quantile(p,0.025),quantile(p,0.975))

D'autres types d'intervalles de bootstrap pourraient également être envisagés.


la source
2
Intéressant et une bonne référence papier (+1). Je vais l'ajouter à mon répertoire!
jbowman
0

XiYiP(XiYi<0)=pI{XiYi<0}i=1,2,..,nXXi<Yin p=P(XiYi<0)X/n

Michael R. Chernick
la source
2
Quelle est la base de l'association, Michael?
whuber
L'OP a dit "Soit X la variable aléatoire pour le temps de traitement après le changement et Y celui avant" Donc Xi est après l'intervention et Yi est avant.
Michael R. Chernick
m=nXjeOuij
1
Tu as raison. Je suppose qu'une sorte de test à deux échantillons tel que le Wilcoxon suggéré par jbowman ci-dessus serait approprié. Il est intéressant de noter que la forme de Mann-Whitney et le test comptent le nombre de Xis <les Yjs.
Michael R. Chernick