Comment comparer la survie médiane entre les groupes?

12

J'examine la survie médiane en utilisant Kaplan-Meier dans différents états pour un type de cancer. Il existe de grandes différences entre les États. Comment puis-je comparer la survie médiane entre tous les États et déterminer lesquels sont significativement différents de la survie médiane moyenne à travers le pays?

Misha
la source
Pourriez-vous nous donner des indications sur la taille des échantillons, la période, le pourcentage de survie, etc. afin que nous puissions avoir une meilleure idée de la conception de votre étude?
chl
y a-t-il des valeurs censurées dans les données - autres que pour les plus grandes valeurs?
ronaf
Il y a en effet des valeurs censurées dans les données et la population totale est d'environ 1 500, la survie globale médiane est de 18 mois (extrêmes 300 à 600 jours) ... la période est la période 2000-2007.
Misha

Réponses:

6

Une chose à garder à l'esprit avec la courbe de survie de Kaplan-Meier est qu'elle est essentiellement descriptive et non inférentielle . C'est juste une fonction des données, avec un modèle incroyablement flexible qui se cache derrière. C'est une force car cela signifie qu'il n'y a pratiquement pas d'hypothèses qui pourraient être brisées, mais une faiblesse car il est difficile de la généraliser, et qu'elle convient aussi bien au «bruit» qu'au «signal». Si vous voulez faire une inférence, vous devez essentiellement introduire quelque chose d'inconnu que vous souhaitez savoir.

Maintenant, une façon de comparer les temps de survie médians est de faire les hypothèses suivantes:

  1. J'ai une estimation du temps de survie médian pour chacun des i états, donnée par la courbe de kaplan meier.tjeje
  2. Je m'attends à ce que le vrai temps de survie médian, soit égal à cette estimation. E ( T i | t i ) = t iTjeE(Tje|tje)=tje
  3. Je suis certain à 100% que la vraie durée médiane de survie est positive. Pr(Tje>0)=1

Maintenant, la façon "la plus conservatrice" d'utiliser ces hypothèses est le principe d'entropie maximale, vous obtenez donc:

p(Tje|tje)=KeXp(-λTje)

et λ sont choisis de telle sorte que le PDF est normalisé et que la valeur attendue est t i . Maintenant nous avons:Kλtje

= K [ - e x p ( - λ T i )

1=0p(Tje|tje)Tje=K0eXp(-λTje)Tje
et maintenant nous avons E ( T i ) = 1
=K[-eXp(-λTje)λ]Tje=0Tje==KλK=λ
E(Tje)=1λλ=tje-1

Et vous avez donc un ensemble de distributions de probabilité pour chaque état.

p(Tje|tje)=1tjeeXp(-Tjetje)(je=1,,N)

Qui donnent une distribution de probabilité conjointe de:

p(T1,T2,,TN|t1,t2,,tN)=je=1N1tjeeXp(-Tjetje)

H0:T1=T2==TN=t¯t¯=1Nje=1NtjeHUNE:T1=t1,,TN=tN

O(HUNE|H0)=p(T1=t1,T2=t2,,TN=tN|t1,t2,,tN)p(T1=t¯,T2=t¯,,TN=t¯|t1,t2,,tN)
=[je=1N1tje]eXp(-je=1Ntjetje)[je=1N1tje]eXp(-je=1Nt¯tje)=eXp(N[t¯thunerm-1])

thunerm=[1Nje=1Ntje-1]-1t¯

est la moyenne harmonique. Notez que les probabilités favoriseront toujours l'ajustement parfait, mais pas beaucoup si les durées médianes de survie sont raisonnablement proches. De plus, cela vous donne un moyen direct d'énoncer les preuves de ce test d'hypothèse particulier:

O(HUNE|H0):1

Combinez cela avec une règle de décision, une fonction de perte, une fonction d'utilité, etc. qui indique à quel point il est avantageux d'accepter l'hypothèse plus simple, et vous avez votre conclusion!

H0

HS,je:Tje=tje,Tj=T=t¯(je)=1N-1jjetj

je

  • HUNEHS,je
  • H0HS,je
  • HS,kkje

Maintenant, une chose qui a été négligée ici est les corrélations entre les états - cette structure suppose que la connaissance du taux de survie médian dans un état ne vous dit rien sur le taux de survie médian dans un autre état. Bien que cela puisse sembler "mauvais", il n'est pas difficile de s'améliorer et les calculs ci-dessus sont de bons résultats initiaux faciles à calculer.

L'ajout de connexions entre les états modifiera les modèles de probabilité, et vous verrez effectivement une "mise en commun" des temps de survie médians. Une façon d'incorporer des corrélations dans l'analyse consiste à séparer les temps de survie réels en deux composantes, une "partie commune" ou "tendance" et une "partie individuelle":

Tje=T+Uje

Ujeσ

probabilitéislogique
la source
(+1) Très intéressant. Votre message m'a également fait insérer un commentaire dans ma réponse.
GaBorgulya
M1
@cardinal, mes excuses - c'est une faute de frappe. sera supprimé
probabilitéslogique
aucune excuse nécessaire. Je ne savais pas si je l'avais sauté pendant la lecture ou si je manquais simplement quelque chose d'évident.
Cardinal
4

Je pensais simplement ajouter à ce sujet que vous pourriez être intéressé par la régression quantile avec la censure. Bottai & Zhang 2010 ont proposé une "régression de Laplace" qui peut faire exactement cette tâche, vous pouvez trouver un PDF à ce sujet ici . Il existe un package pour Stata pour cela, il n'a pas encore été traduit en R bien que le package quantreg dans R ait une fonction de régression quantile censurée, crq , qui pourrait être une option.

Je pense que l'approche est très intéressante et pourrait être beaucoup plus intuitive pour les patients que les ratios de risques. Le fait de savoir, par exemple, que 50% du médicament survivent 2 mois de plus que ceux qui n'en prennent pas et que les effets secondaires vous obligent à rester 1 à 2 mois à l'hôpital pourraient faciliter le choix du traitement.

Max Gordon
la source
Je ne connais pas "Laplace Regression", mais concernant votre 2ème paragraphe je me demande si je le comprends bien. Habituellement, dans l'analyse de survie (en termes de temps d'échec accéléré), nous dirions quelque chose comme `` le 50e centile pour le groupe médicamenteux arrive 2 mois plus tard que le 50e% pour le groupe témoin ''. Est-ce bien ce que vous voulez dire ou la sortie de LR offre-t-elle une interprétation différente?
gung - Réintégrer Monica
@gung: Je pense que vous avez raison dans votre interprétation - changé le texte, mieux? Je n'ai pas utilisé les modèles de régression moi-même bien que je les ai rencontrés récemment dans un cours. C'est une alternative intéressante aux modèles Cox classiques que j'ai beaucoup utilisés. Bien que j'aie probablement besoin de passer plus de temps à digérer l'idée, je pense qu'il est probablement plus facile pour moi d'expliquer à mes patients car j'utilise souvent des courbes KM pour expliquer à mes patients. Les RH exigent que vous compreniez vraiment la différence entre les risques relatifs et absolus - un concept qui peut prendre un certain temps à expliquer ...
Max Gordon
Merci @Misha pour le lien. L'auteur a une réponse ici: onlinelibrary.wiley.com/doi/10.1002/bimj.201100103/abstract
Max Gordon
3

Tout d'abord, je visualisais les données: calculais les intervalles de confiance et les erreurs standard pour les survivances médianes dans chaque état et montrais les IC sur une parcelle forestière, les médianes et leurs SE en utilisant un graphique en entonnoir.

La «survie médiane moyenne dans tout le pays» est une quantité qui est estimée à partir des données et présente donc une incertitude, de sorte que vous ne pouvez pas la prendre comme valeur de référence précise pendant les tests de signification. Une autre difficulté de l'approche de la moyenne est que lorsque vous comparez une médiane d'état à celle-ci, vous comparez la médiane à une quantité qui inclut déjà cette quantité en tant que composant. Il est donc plus facile de comparer chaque état à tous les autres états combinés. Cela peut être fait en effectuant un test de classement de journal (ou ses alternatives) pour chaque état.
(Modifier après avoir lu la réponse de probabilités logiques: le test du rang de log compare la survie dans deux (ou plus) groupes, mais ce n'est pas strictement la médiane qu'il compare. Si vous êtes sûr que c'est la médiane que vous souhaitez comparer, vous pouvez vous fier à ses équations ou utiliser le rééchantillonnage ici aussi)

Vous avez étiqueté votre question [comparaisons multiples], donc je suppose que vous voulez également ajuster (augmenter) vos valeurs de p de telle sorte que si vous voyez au moins une valeur de p ajustée inférieure à 5%, vous pourriez conclure que «la survie médiane entre les états est pas égal »au niveau de signification de 5%. Vous pouvez utiliser des méthodes génériques et trop conservatrices comme Bonferroni, mais le schéma de correction optimal tiendra compte des corrélations des valeurs de p. Je suppose que vous ne voulez pas intégrer de connaissances a priori dans le schéma de correction, donc je vais discuter d'un schéma où l'ajustement multiplie chaque valeur p par la même constante C.

Comme je ne sais pas comment dériver la formule pour obtenir le multiplicateur C optimal, j'utiliserais le rééchantillonnage . Sous l'hypothèse nulle que les caractéristiques de survie sont les mêmes dans tous les états, vous pouvez donc permuter les étiquettes d'état des cas de cancer et recalculer les médianes. Après avoir obtenu de nombreux vecteurs rééchantillonnés de valeurs d'état p, je trouverais numériquement le multiplicateur C en dessous duquel moins de 95% des vecteurs ne comportent pas de valeurs p significatives et au-dessus desquels plus de 95%. Alors que la plage semble large, j'augmenterais à plusieurs reprises le nombre de rééchantillons d'un ordre de grandeur.

GaBorgulya
la source
Bon conseil pour visualiser les données. (+1)
probabilitéislogique
@probabilityislogic Merci! Je salue également les critiques, surtout si elles sont constructives.
GaBorgulya
la seule critique que j'ai est l'utilisation des valeurs de p, mais c'est plus une «puce sur mon épaule» que n'importe quoi dans votre réponse - il semble que si vous allez utiliser des valeurs de p, alors ce que vous recommandez est bon. Je ne pense pas que l'utilisation de valeurs p soit bonne. voir ici pour mon échange avec @eduardo dans les commentaires sur les valeurs p.
probabilitéislogic