Estimation des paramètres de la distribution exponentielle avec échantillonnage biaisé

8

Je veux calculer le paramètre λ de la distribution exponentielle eλxà partir d'un échantillon de population extrait de cette distribution dans des conditions biaisées. Pour autant que je sache, pour un échantillon de n valeurs, l'estimateur habituel estλ^=nxi. Cependant, mon échantillon est biaisé comme suit:

A partir d'une population complète de m éléments tirés iid de la distribution exponentielle, seuls les n plus petits éléments sont connus. Comment estimer le paramètreλ dans ce scénario?

Un peu plus formellement, si {x1,x2,x3,...,xm} les échantillons sont-ils tirés de eλx, de telle sorte que pour chaque i<j on a xixj, alors comment puis-je estimer λ de l'ensemble {x1,x2,x3,...,xn}n<m.

Merci beaucoup!

Michael

Michael
la source
1
Connaissez-vous la valeur de m?
jbowman
3
Il s'agit de la censure de type II ( en.wikipedia.org/wiki/Censoring_%28statistics%29 ). Maintenant, on peut montrer que la probabilité habituelle dans l'analyse de survie s'applique également à un mécanisme de censure de type II.
ocram
1
Les rôles de m et nsemblent être échangés à mi-chemin à travers cette réponse.
Cardinal
Merci, vous avez raison. J'ai fixé les rôles de m et n dans l'énoncé du problème.
Michael

Réponses:

8

L'estimateur du maximum de vraisemblance pour le paramètre de la distribution exponentielle sous la censure de type II peut être dérivé comme suit. Je suppose que la taille de l'échantillon estm, dont le n<m les plus petits sont observés et mn les plus grands sont non observés (mais connus pour exister).

Supposons (pour des raisons de simplicité de notation) que les xi sont commandés: 0x1x2xn. Ensuite, la densité de probabilité conjointe dex1,,xn est:

f(x1,,xn)=m!λn(mn)!exp{λi=1nxi}exp{λ(mn)xn}

où la première exponentielle se rapporte aux probabilités de la n observé xi et le second aux probabilités du mn inobservé xi qui sont supérieurs à xn (qui est juste 1 - le CDF à xn.) Réorganiser les termes conduit à:

f(x1,,xn)=m!λn(mn)!exp{λ[i=1n1xi+(mn+1)xn]}

(Notez que la somme n1 car il y a un "+1"dans le coefficient de xn.) Prendre le log, puis le dérivé wrt λ et ainsi de suite conduit à l'estimateur du maximum de vraisemblance:

λ^=n/[i=1n1xi+(mn+1)xn]

jbowman
la source
1
Bonne réponse. Avez-vous changém et npar rapport à la question par accident?
Neil G
2
@NeilG - merci! Je viens de remarquer que le PO est passé de "d'une population complète dem les éléments sont dessinés ... seul le n les plus petits sont connus "dans le texte m<nà la fin. Je vais clarifier quelle notation j'utilise dans un montage ...
jbowman
2

Cela relie la réponse de @ jbowman à mon commentaire. À savoir, selon des hypothèses de travail courantes, on peut utiliser la «probabilité de survie standard» sous la censure de type II.

> #------seed------
> set.seed(1907)
> #----------------
> 
> #------some data------
> t <- sort(rexp(n=20, rate=2))        #true sample
> t[16:20] <- t[15]                    #observed sample
> delta <- c(rep(1, 15), rep(0, 5))    #censoring indicator
> data <- data.frame(t, delta)         #observed data
> #---------------------
> 
> #-----using @jbowman's formula------
> 15 / (sum(t[1:14]) + (5 + 1)*t[15])
[1] 2.131323
> #-----------------------------------
> 
> #------using the usual survival likelihood------
> library(survival)
> fit <- survreg(Surv(t, delta)~1, dist="exponential", data=data)
> exp(-fit$coef)
(Intercept) 
   2.131323 
> #-----------------------------------------------

PS1: Notez que cela n'est pas limité à la distribution exponentielle.

PS2: Les détails peuvent être trouvés dans la section 2.2 du livre de Lawless .

ocram
la source
1

En supposant n est connue, une estimation peut être obtenue via

Φ(xk)=1eλxk(k/n)xk, 0<k<m, se réfère à la k'e valeur la plus petite de votre ensemble de données réduit.

La logique est: si vous aviez l'ensemble complet de n échantillons, vous pouvez construire le CDF empirique, Φ, à partir de cet échantillon. Ensuite, si vous avez pris un articlek de ce tableau trié, il correspondrait à la valeur CDF k/n. Dans de nombreux cas,k=n/2 est un choix utile.

Dave
la source