Bayesian Survival Analysis: écrivez-moi un préalable pour Kaplan Meier!

20

Considérons des observations censurées à droite, avec des événements aux moments t1,t2, . Le nombre d'individus sensibles au temps est , et le nombre d'événements au moment est .n i i d ijenjejeje

L'estimateur de Kaplan-Meier ou produit apparaît naturellement comme un MLE lorsque la fonction de survie est une fonction échelon . La probabilité est alors et le MLE est .S(t)=je:tje<tαje

L(α)=je(1-αje)jeαjenje-je
α^je=1-jenje

OK, supposons maintenant que je veux devenir bayésien. J'ai besoin d'une sorte de `` naturel '' avant avec lequel je vais multiplier , non?L(α)

Googler les mots clés évidents J'ai trouvé que le processus Dirichlet est un bon avant. Mais pour autant que je sache, c'est aussi un a priori sur les points de discontinuité ?tje

C'est sûrement très intéressant et j'ai hâte d'en savoir plus, mais je me contenterais de quelque chose de plus simple. Je commence à soupçonner que ce n'est pas aussi facile que je le pensais, et il est temps de demander votre avis ...

Merci d'avance!

PS: Quelques précisions sur ce que j'espère être intéressé par (aussi simple que possible) des explications sur la façon de gérer le processus de Dirichlet avant, mais je pense qu'il devrait être possible d'utiliser simplement un a priori sur le - c'est-à-dire un a priori sur l'étape fonctionne avec des discontinuités dans .t iαjetje

Je pense que la "forme globale" des fonctions pas à pas échantillonnées dans le précédent ne devrait pas dépendre des - il devrait y avoir une famille sous-jacente de fonctions continues qui sont approximées par ces fonctions pas à pas.tje

Je ne sais pas si le doit être indépendant (j'en doute). S'ils le sont, je pense que cela implique que le précédent dépend de , et si nous désignons sa distribution par alors le produit d'un variable par une variable indépendante est une variable . Il semble ici que les variables log- peuvent être utiles.α i Δ t i = t i - t i - 1 A ( Δ t ) A ( Δ 1 ) A ( Δ 2 ) A ( Δ 1 + Δ 2 ) ΓαjeαjeΔtje=tje-tje-1UNE(Δt)UNE(Δ1)UNE(Δ2)UNE(Δ1+Δ2)Γ

Mais ici, fondamentalement, je suis coincé. Je n'ai pas tapé ceci au début parce que je ne voulais pas orienter toutes les réponses dans cette direction. J'apprécierais particulièrement les réponses avec références bibliographiques pour m'aider à justifier mon choix final.

Elvis
la source
Dans le , qu'est-ce quemi? Est-ce une faute de frappe? Voulez-vous direni? une^je=1-jemjemjenje
stachyra
Oui, c'est , bien sûr. Je corrige. nje
Elvis
1
De cette diapositive , j'ai trouvé cet article , dont l'auteur a également cette introduction . Si ceux-ci ne suffisent pas comme sources, leurs propres références le seront probablement. Aussi cette vidéo sur les processus hiérarchiques de Dirichlet.
Sean Easter
Notez que je comprends les caractérisations de base de DP mais je ne sais pas comment l'utiliser, concrètement, comme un préalable ... Aussi, avec quelle mesure de base, etc.
Elvis
Cette fonction de vraisemblance est-elle unique? Ou pouvez-vous obtenir le KM à partir d'autres probabilités?
Probabilogic

Réponses:

11

Notez que parce que votre fonction de vraisemblance est un produit des fonctions - les données vous indiquent qu'il n'y a aucune preuve de corrélation entre elles. Notez que les variables d i sont déjà mises à l'échelle pour tenir compte du temps. Une période plus longue signifie plus de chances pour les événements, ce qui signifie généralement une plus grande d i .αjejeje

La façon la plus simple de "devenir bayésien" ici est d'utiliser des a priori uniformes indépendants . Notez que 0 < α i < 1 , il s'agit donc d'un a priori propre - donc postérieur est également approprié. Les distributions bêta indépendantes sont postérieures avec les paramètres p ( α i ) b e t a ( n i - d i + 1 , d i + 1 )p(αje)=10<αje<1p(αje)betune(nje-je+1,je+1). Cela peut être facilement simulé pour générer la distribution postérieure de la courbe de survie, en utilisant la rbeta ()fonction dans R par exemple.

Je pense que cela rejoint votre question principale sur une méthode "plus simple". Ci-dessous ne sont que les débuts d'une idée pour créer un meilleur modèle, qui conserve la forme flexible de KM pour la fonction de survie.

Je pense que le principal problème avec la courbe KM se situe dans la fonction Survie, et non dans le précédent. Par exemple, pourquoi les valeurs devraient-elles correspondre aux points temporels observés? Ne serait-il pas plus judicieux de les placer à des points correspondant à des temps d'événements significatifs basés sur le processus réel? Si les points temporels observés sont trop éloignés, la courbe KM sera "trop ​​lisse". S'ils sont trop proches, la courbe KM sera "trop ​​approximative" et pourrait présenter des changements brusques. Une façon de traiter le problème "trop ​​grossier" consiste à placer un a priori corrélé sur α tel que α iα i + 1tjeααjeαje+1. L'effet de cet a priori sera de réduire les paramètres proches les uns des autres. Vous pouvez l'utiliser dans l'espace "log-odds" et utiliser une marche aléatoire d'ordre k avant surη. Pour une marche aléatoire de premier ordre, cela introduit des pénalités de la forme-τ(ηi-ηi-1)2dans la log-vraisemblance. Le logiciel BayesX possède une très bonne documentation de ce type de lissage. Fondamentalement, choisir l'ordre k revient à faire un polynôme local d'ordre k. Si vous aimez les splines, choisissez k = 3. Bien sûr, en utilisant une grille temporelle "fine", vous aurez des points temporels sans observations. Cependant, cela complique votre fonction de vraisemblance, car lesni,diηje=Journal(αje1-αje)η-τ(ηje-ηje-1)2nje,jemanquent pour certains . Par exemple, si ( t 0 , t 1 ) était divisé en 3 intervalles "plus fins" ( t 00 , t 01 , t 02 , t 10 ) alors vous ne savez pas n 02 , n 10 , d 01 , d 02 , d 10 mais seulement n 1 = n 01 et d 1 = d 01 + dje(t0,t1)(t00,t01,t02,t10)n02,n10,d01,d02,d10n1=n01 . Vous devrez donc probablement ajouter ces "données manquantes" et utiliser un algorithme EM ou peut-être VB (à condition que vous ne descendiez pas le chemin mcmc).d1=d01+d02+d10

J'espère que cela vous donnera un début.

probabilitéislogique
la source
αje
5

Pour les lecteurs confrontés au problème de recourir au bayésien pour estimer les fonctions de survie acceptant la censure à droite, je recommanderais l'approche bayésienne non paramétrique développée par F. Mangili, A. Benavoli et al. La seule spécification antérieure est un paramètre (précision ou force). Il évite d'avoir à préciser le processus Dirichlet en cas de manque d'informations préalables. Les auteurs proposent (1) - un estimateur robuste des courbes de survie et de ses intervalles crédibles pour la probabilité de survie (2) - Un test de la différence de survie des individus de 2 populations indépendantes qui présente divers avantages par rapport au test classique de log-rank ou d'autres tests non paramétriques. Voir le package R IDPsurvival et cette référence: Analyse de survie fiable basée sur le processus Dirichlet. F Mangili et al. Journal biométrique. 2014.

Pascal
la source