Dans l'Analyse de survie, vous supposez que le temps de survie d'un rv est distribué de façon exponentielle. Considérant maintenant que j'ai "résultats" de de iid rv . Seule une partie de ces résultats est en fait "pleinement réalisée", c'est-à-dire que les observations restantes sont toujours "vivantes".x 1 , … , x n X i
Si je voulais effectuer une estimation ML pour le paramètre de taux de la distribution, comment puis-je utiliser les observations non réalisées de manière cohérente / appropriée? Je pense qu'ils contiennent encore des informations utiles pour l'estimation.
Quelqu'un pourrait-il me guider vers la littérature sur ce sujet? Je suis sûr que ça existe. J'ai cependant du mal à trouver de bons mots clés / termes de recherche pour le sujet.
la source
Réponses:
Vous pouvez toujours estimer les paramètres en utilisant directement la vraisemblance. Soit les observations avec la distribution exponentielle de taux λ > 0 et inconnue. La fonction de densité est f ( x ; λ ) = λ e - λ x , la fonction de distribution cumulative F ( x ; λ ) = 1 - e - λ x et la fonction de queue G ( x ; λX1, … , Xn λ > 0 F( x ; λ ) = λ e- λ x F( x ; λ ) = 1 - e- λ x . Supposons que les premières r observations sont pleinement observées, tandis que pour x r + 1 , … , x n, nous savons seulement que x j > t j pour certaines constantes positives connues t j . Comme toujours, la vraisemblance est la "probabilité des données observées", pour les observations censurées, donnée par P ( X j > t jG ( x ; λ ) = 1 - F( x ; λ ) = e- λ x r Xr + 1, … , Xn Xj> tj tj , donc la fonction de vraisemblance complète est
L ( λ ) = r ∏ i = 1 f ( x i ; λ ) ⋅ n ∏ i = r + 1 G ( t j ; λ )
La loglik vraisemblance devient alors
l ( λ ) = r log λ - λ ( xP( Xj> tj) = G ( tj; λ )
Mais, dans tous les cas, la véritable conclusion des données dans ce cas est que nous devrions attendre plus de temps pour obtenir certains événements ...
la source