Estimation ML de la distribution exponentielle (avec données censurées)

9

Dans l'Analyse de survie, vous supposez que le temps de survie d'un rv est distribué de façon exponentielle. Considérant maintenant que j'ai "résultats" de de iid rv . Seule une partie de ces résultats est en fait "pleinement réalisée", c'est-à-dire que les observations restantes sont toujours "vivantes".x 1 , , x n X iXix1,,xnXi

Si je voulais effectuer une estimation ML pour le paramètre de taux de la distribution, comment puis-je utiliser les observations non réalisées de manière cohérente / appropriée? Je pense qu'ils contiennent encore des informations utiles pour l'estimation.λ

Quelqu'un pourrait-il me guider vers la littérature sur ce sujet? Je suis sûr que ça existe. J'ai cependant du mal à trouver de bons mots clés / termes de recherche pour le sujet.

Good Guy Mike
la source
3
Vous dites donc qu'à partir des variables aléatoires dont vous avez une mesure, disons que observations représentent des durées de vie "finalisées" (parce que les variables aléatoires associées étaient "mortes" au moment de la mesure), tandis que les autres observations sont des durées de survie de variables aléatoires qui étaient "encore en vie" au moment de la mesure? ( )n 1 < n n 2 < n n 1 + n 2 = nnn1<nn2<nn1+n2=n
Alecos Papadopoulos
1
il s'agit d'un modèle tronqué, les variables aléatoires "vivantes" étant tronquées au moment où l'observation s'arrête.
Xi'an
1
Consultez les modèles Tobit pour les données tronquées et les sources associées (par exemple ici ).
Richard Hardy
2
Vous semblez avoir censuré des données, comme des vies, où certaines personnes sont mortes, mais certaines sont encore en vie, par exemple, vous savez seulement que, par exemple, pour une constante connue t i . xi>titi
kjetil b halvorsen
3
Méfiez-vous de la différence parfois subtile entre les deux situations. Il n'est pas rare que la troncature soit confondue avec la censure, et vice-versa.
Alecos Papadopoulos

Réponses:

17

Vous pouvez toujours estimer les paramètres en utilisant directement la vraisemblance. Soit les observations avec la distribution exponentielle de taux λ > 0 et inconnue. La fonction de densité est f ( x ; λ ) = λ e - λ x , la fonction de distribution cumulative F ( x ; λ ) = 1 - e - λ x et la fonction de queue G ( x ; λx1,,xnλ>0f(x;λ)=λeλxF(x;λ)=1eλx . Supposons que les premières r observations sont pleinement observées, tandis que pour x r + 1 , , x n, nous savons seulement que x j > t j pour certaines constantes positives connues t j . Comme toujours, la vraisemblance est la "probabilité des données observées", pour les observations censurées, donnée par P ( X j > t jG(x;λ)=1F(x;λ)=eλxrxr+1,,xnxj>tjtj , donc la fonction de vraisemblance complète est L ( λ ) = r i = 1 f ( x i ; λ ) n i = r + 1 G ( t j ; λ ) La loglik vraisemblance devient alors l ( λ ) = r log λ - λ ( xP(Xj>tj)=G(tj;λ)

L(λ)=i=1rf(xi;λ)i=r+1nG(tj;λ)
qui a la même forme que la loglik vraisemblance pour le cas habituel entièrement observé, sauf à partir du premier terme r log λ au lieu de n log λ . L' écriture T pour la moyenne des observations ettempscensure, l'estimateur devraisemblance maximale de λ devient λ = r
l(λ)=rlogλλ(x1++xr+tr+1++tn)
rlogλnlogλTλ , que vous pouvez vous-même comparer avec le cas pleinement observé.λ^=rnT
 EDIT   

r=0

l(λ)=nTλ
λλ=0λλ

Mais, dans tous les cas, la véritable conclusion des données dans ce cas est que nous devrions attendre plus de temps pour obtenir certains événements ...

λeλnTpnp[p¯,1]λlogp=λT

p

P(X=n)=pn0.95    (say)
nlogplog0.95λ
λlog0.95nT.
kjetil b halvorsen
la source
1
xj>tj