Considérons des observations censurées à droite, avec des événements aux moments . Le nombre d'individus sensibles au temps est , et le nombre d'événements au moment est .n i i d i
L'estimateur de Kaplan-Meier ou produit apparaît naturellement comme un MLE lorsque la fonction de survie est une fonction échelon . La probabilité est alors et le MLE est .
OK, supposons maintenant que je veux devenir bayésien. J'ai besoin d'une sorte de `` naturel '' avant avec lequel je vais multiplier , non?
Googler les mots clés évidents J'ai trouvé que le processus Dirichlet est un bon avant. Mais pour autant que je sache, c'est aussi un a priori sur les points de discontinuité ?
C'est sûrement très intéressant et j'ai hâte d'en savoir plus, mais je me contenterais de quelque chose de plus simple. Je commence à soupçonner que ce n'est pas aussi facile que je le pensais, et il est temps de demander votre avis ...
Merci d'avance!
PS: Quelques précisions sur ce que j'espère être intéressé par (aussi simple que possible) des explications sur la façon de gérer le processus de Dirichlet avant, mais je pense qu'il devrait être possible d'utiliser simplement un a priori sur le - c'est-à-dire un a priori sur l'étape fonctionne avec des discontinuités dans .t i
Je pense que la "forme globale" des fonctions pas à pas échantillonnées dans le précédent ne devrait pas dépendre des - il devrait y avoir une famille sous-jacente de fonctions continues qui sont approximées par ces fonctions pas à pas.
Je ne sais pas si le doit être indépendant (j'en doute). S'ils le sont, je pense que cela implique que le précédent dépend de , et si nous désignons sa distribution par alors le produit d'un variable par une variable indépendante est une variable . Il semble ici que les variables log- peuvent être utiles.α i Δ t i = t i - t i - 1 A ( Δ t ) A ( Δ 1 ) A ( Δ 2 ) A ( Δ 1 + Δ 2 ) Γ
Mais ici, fondamentalement, je suis coincé. Je n'ai pas tapé ceci au début parce que je ne voulais pas orienter toutes les réponses dans cette direction. J'apprécierais particulièrement les réponses avec références bibliographiques pour m'aider à justifier mon choix final.
Réponses:
Notez que parce que votre fonction de vraisemblance est un produit des fonctions - les données vous indiquent qu'il n'y a aucune preuve de corrélation entre elles. Notez que les variables d i sont déjà mises à l'échelle pour tenir compte du temps. Une période plus longue signifie plus de chances pour les événements, ce qui signifie généralement une plus grande d i .αje réje réje
La façon la plus simple de "devenir bayésien" ici est d'utiliser des a priori uniformes indépendants . Notez que 0 < α i < 1 , il s'agit donc d'un a priori propre - donc postérieur est également approprié. Les distributions bêta indépendantes sont postérieures avec les paramètres p ( α i ) ∼ b e t a ( n i - d i + 1 , d i + 1 )p ( αje) = 1 0 < αje< 1 p ( αje) ∼ b e t a ( nje- dje+ 1 , dje+ 1 ) . Cela peut être facilement simulé pour générer la distribution postérieure de la courbe de survie, en utilisant la
rbeta ()
fonction dans R par exemple.Je pense que cela rejoint votre question principale sur une méthode "plus simple". Ci-dessous ne sont que les débuts d'une idée pour créer un meilleur modèle, qui conserve la forme flexible de KM pour la fonction de survie.
Je pense que le principal problème avec la courbe KM se situe dans la fonction Survie, et non dans le précédent. Par exemple, pourquoi les valeurs devraient-elles correspondre aux points temporels observés? Ne serait-il pas plus judicieux de les placer à des points correspondant à des temps d'événements significatifs basés sur le processus réel? Si les points temporels observés sont trop éloignés, la courbe KM sera "trop lisse". S'ils sont trop proches, la courbe KM sera "trop approximative" et pourrait présenter des changements brusques. Une façon de traiter le problème "trop grossier" consiste à placer un a priori corrélé sur α tel que α i ≈ α i + 1tje α αje≈ αi + 1 . L'effet de cet a priori sera de réduire les paramètres proches les uns des autres. Vous pouvez l'utiliser dans l'espace "log-odds" et utiliser une marche aléatoire d'ordre k avant surη. Pour une marche aléatoire de premier ordre, cela introduit des pénalités de la forme-τ(ηi-ηi-1)2dans la log-vraisemblance. Le logiciel BayesX possède une très bonne documentation de ce type de lissage. Fondamentalement, choisir l'ordre k revient à faire un polynôme local d'ordre k. Si vous aimez les splines, choisissez k = 3. Bien sûr, en utilisant une grille temporelle "fine", vous aurez des points temporels sans observations. Cependant, cela complique votre fonction de vraisemblance, car lesni,diηi=log(αi1−αi) η −τ(ηi−ηi−1)2 ni,di manquent pour certains . Par exemple, si ( t 0 , t 1 ) était divisé en 3 intervalles "plus fins" ( t 00 , t 01 , t 02 , t 10 ) alors vous ne savez pas n 02 , n 10 , d 01 , d 02 , d 10 mais seulement n 1 = n 01 et d 1 = d 01 + di (t0,t1) (t00,t01,t02,t10) n02,n10,d01,d02,d10 n1=n01 . Vous devrez donc probablement ajouter ces "données manquantes" et utiliser un algorithme EM ou peut-être VB (à condition que vous ne descendiez pas le chemin mcmc).d1=d01+d02+d10
J'espère que cela vous donnera un début.
la source
Pour les lecteurs confrontés au problème de recourir au bayésien pour estimer les fonctions de survie acceptant la censure à droite, je recommanderais l'approche bayésienne non paramétrique développée par F. Mangili, A. Benavoli et al. La seule spécification antérieure est un paramètre (précision ou force). Il évite d'avoir à préciser le processus Dirichlet en cas de manque d'informations préalables. Les auteurs proposent (1) - un estimateur robuste des courbes de survie et de ses intervalles crédibles pour la probabilité de survie (2) - Un test de la différence de survie des individus de 2 populations indépendantes qui présente divers avantages par rapport au test classique de log-rank ou d'autres tests non paramétriques. Voir le package R IDPsurvival et cette référence: Analyse de survie fiable basée sur le processus Dirichlet. F Mangili et al. Journal biométrique. 2014.
la source