Comment comparer la survie médiane entre les groupes?

12

J'examine la survie médiane en utilisant Kaplan-Meier dans différents états pour un type de cancer. Il existe de grandes différences entre les États. Comment puis-je comparer la survie médiane entre tous les États et déterminer lesquels sont significativement différents de la survie médiane moyenne à travers le pays?

multiple-comparisons survival Misha
la source

Pourriez-vous nous donner des indications sur la taille des échantillons, la période, le pourcentage de survie, etc. afin que nous puissions avoir une meilleure idée de la conception de votre étude?

chl

y a-t-il des valeurs censurées dans les données - autres que pour les plus grandes valeurs?

ronaf

Il y a en effet des valeurs censurées dans les données et la population totale est d'environ 1 500, la survie globale médiane est de 18 mois (extrêmes 300 à 600 jours) ... la période est la période 2000-2007.

Misha

6

Une chose à garder à l'esprit avec la courbe de survie de Kaplan-Meier est qu'elle est essentiellement descriptive et non inférentielle . C'est juste une fonction des données, avec un modèle incroyablement flexible qui se cache derrière. C'est une force car cela signifie qu'il n'y a pratiquement pas d'hypothèses qui pourraient être brisées, mais une faiblesse car il est difficile de la généraliser, et qu'elle convient aussi bien au «bruit» qu'au «signal». Si vous voulez faire une inférence, vous devez essentiellement introduire quelque chose d'inconnu que vous souhaitez savoir.

Maintenant, une façon de comparer les temps de survie médians est de faire les hypothèses suivantes:

J'ai une estimation du temps de survie médian pour chacun des états, donnée par la courbe de kaplan meier. $t_{i}$ $i$
Je m'attends à ce que le vrai temps de survie médian, soit égal à cette estimation. $T_{i}$ $E(T_{i}|t_{i})=t_{i}$
Je suis certain à 100% que la vraie durée médiane de survie est positive. $Pr(T_{i}>0)=1$

Maintenant, la façon "la plus conservatrice" d'utiliser ces hypothèses est le principe d'entropie maximale, vous obtenez donc:

p (T_{je} | t_{je}) = K e X p (- λ T_{je})

$p(T_{i}|t_{i})= K exp(-\lambda T_{i})$

Où et sont choisis de telle sorte que le PDF est normalisé et que la valeur attendue est . Maintenant nous avons: $K$ $\lambda$ $t_{i}$

1 = \int_{0}^{\infty} p (T_{je} | t_{je}) ré T_{je} = K \int_{0}^{\infty} e X p (- λ T_{je}) ré T_{je}

$1=\int_{0}^{\infty}p(T_{i}|t_{i})dT_{i} =K \int_{0}^{\infty}exp(-\lambda T_{i})dT_{i}$

et maintenant nous avons

= K {[- \frac{e X p (- λ T_{je})}{λ}]}_{T_{je} = 0}^{T_{je} = \infty} = \frac{K}{λ} ⟹ K = λ

$=K \left[-\frac{exp(-\lambda T_{i})}{\lambda}\right]_{T_{i}=0}^{T_{i}=\infty}=\frac{K}{\lambda}\implies K=\lambda$

E (T_{i}) = \frac{1}{λ} ⟹ λ = t_{i}^{- 1}

$E(T_{i})=\frac{1}{\lambda}\implies \lambda=t_{i}^{-1}$

Et vous avez donc un ensemble de distributions de probabilité pour chaque état.

p (T_{je} | t_{je}) = \frac{1}{t_{je}} e X p (- \frac{T_{je}}{t_{je}}) (je = 1, \dots, N)

$p(T_{i}|t_{i})= \frac{1}{t_{i}} exp\left(-\frac{T_{i}}{t_{i}}\right)\;\;\;\;\;(i=1,\dots,N)$

Qui donnent une distribution de probabilité conjointe de:

p (T_{1}, T_{2}, \dots, T_{N} | t_{1}, t_{2}, \dots, t_{N}) = \prod_{je = 1}^{N} \frac{1}{t_{je}} e X p (- \frac{T_{je}}{t_{je}})

$p(T_{1},T_{2},\dots,T_{N}|t_{1},t_{2},\dots,t_{N})= \prod_{i=1}^{N}\frac{1}{t_{i}} exp\left(-\frac{T_{i}}{t_{i}}\right)$

$H_{0}:T_{1}=T_{2}=\dots=T_{N}=\overline{t}$ $\overline{t}=\frac{1}{N}\sum_{i=1}^{N}t_{i}$ $H_{A}:T_{1}=t_{1},\dots,T_{N}=t_{N}$

O (H_{UNE} | H_{0}) = \frac{p (T_{1} = t_{1}, T_{2} = t_{2}, \dots, T_{N} = t_{N} | t_{1}, t_{2}, \dots, t_{N})}{p (T_{1} = \bar{t}, T_{2} = \bar{t}, \dots, T_{N} = \bar{t} | t_{1}, t_{2}, \dots, t_{N})}

$O(H_{A}|H_{0})=\frac{p(T_{1}=t_{1},T_{2}=t_{2},\dots,T_{N}=t_{N}|t_{1},t_{2},\dots,t_{N})}{ p(T_{1}=\overline{t},T_{2}=\overline{t},\dots,T_{N}=\overline{t}|t_{1},t_{2},\dots,t_{N})}$

= \frac{[\prod_{je = 1}^{N} \frac{1}{t_{je}}] e X p (- \sum_{je = 1}^{N} \frac{t_{je}}{t_{je}})}{[\prod_{je = 1}^{N} \frac{1}{t_{je}}] e X p (- \sum_{je = 1}^{N} \frac{\bar{t}}{t_{je}})} = e X p (N [\frac{\bar{t}}{t_{h une r m}} - 1])

$=\frac{ \left[\prod_{i=1}^{N}\frac{1}{t_{i}}\right] exp\left(-\sum_{i=1}^{N}\frac{t_{i}}{t_{i}}\right) }{ \left[\prod_{i=1}^{N}\frac{1}{t_{i}}\right] exp\left(-\sum_{i=1}^{N}\frac{\overline{t}}{t_{i}}\right) } =exp\left(N\left[\frac{\overline{t}}{t_{harm}}-1\right]\right)$

Où

t_{h une r m} = {[\frac{1}{N} \sum_{je = 1}^{N} t_{je}^{- 1}]}^{- 1} \leq \bar{t}

$t_{harm}=\left[\frac{1}{N}\sum_{i=1}^{N}t_{i}^{-1}\right]^{-1}\leq \overline{t}$

est la moyenne harmonique. Notez que les probabilités favoriseront toujours l'ajustement parfait, mais pas beaucoup si les durées médianes de survie sont raisonnablement proches. De plus, cela vous donne un moyen direct d'énoncer les preuves de ce test d'hypothèse particulier:

$O(H_{A}|H_{0}):1$

Combinez cela avec une règle de décision, une fonction de perte, une fonction d'utilité, etc. qui indique à quel point il est avantageux d'accepter l'hypothèse plus simple, et vous avez votre conclusion!

$H_{0}$

H_{S, je} : T_{je} = t_{je}, T_{j} = T = {\bar{t}}_{(je)} = \frac{1}{N - 1} \sum_{j \neq je} t_{j}

$H_{S,i}:T_{i}=t_{i},T_{j}=T=\overline{t}_{(i)}=\frac{1}{N-1}\sum_{j\neq i}t_{j}$

$i$

$H_{A}$ $H_{S,i}$
$H_{0}$ $H_{S,i}$
$H_{S,k}$ $k$ $i$

Maintenant, une chose qui a été négligée ici est les corrélations entre les états - cette structure suppose que la connaissance du taux de survie médian dans un état ne vous dit rien sur le taux de survie médian dans un autre état. Bien que cela puisse sembler "mauvais", il n'est pas difficile de s'améliorer et les calculs ci-dessus sont de bons résultats initiaux faciles à calculer.

L'ajout de connexions entre les états modifiera les modèles de probabilité, et vous verrez effectivement une "mise en commun" des temps de survie médians. Une façon d'incorporer des corrélations dans l'analyse consiste à séparer les temps de survie réels en deux composantes, une "partie commune" ou "tendance" et une "partie individuelle":

T_{je} = T + U_{je}

$T_{i}=T+U_{i}$

$U_{i}$ $\sigma$

probabilitéislogique
la source

(+1) Très intéressant. Votre message m'a également fait insérer un commentaire dans ma réponse.

GaBorgulya

M_{1}

$M_1$

@cardinal, mes excuses - c'est une faute de frappe. sera supprimé

probabilitéslogique

aucune excuse nécessaire. Je ne savais pas si je l'avais sauté pendant la lecture ou si je manquais simplement quelque chose d'évident.

Cardinal

4

Je pensais simplement ajouter à ce sujet que vous pourriez être intéressé par la régression quantile avec la censure. Bottai & Zhang 2010 ont proposé une "régression de Laplace" qui peut faire exactement cette tâche, vous pouvez trouver un PDF à ce sujet ici . Il existe un package pour Stata pour cela, il n'a pas encore été traduit en R bien que le package quantreg dans R ait une fonction de régression quantile censurée, crq , qui pourrait être une option.

Je pense que l'approche est très intéressante et pourrait être beaucoup plus intuitive pour les patients que les ratios de risques. Le fait de savoir, par exemple, que 50% du médicament survivent 2 mois de plus que ceux qui n'en prennent pas et que les effets secondaires vous obligent à rester 1 à 2 mois à l'hôpital pourraient faciliter le choix du traitement.

Max Gordon
la source

Je ne connais pas "Laplace Regression", mais concernant votre 2ème paragraphe je me demande si je le comprends bien. Habituellement, dans l'analyse de survie (en termes de temps d'échec accéléré), nous dirions quelque chose comme `` le 50e centile pour le groupe médicamenteux arrive 2 mois plus tard que le 50e% pour le groupe témoin ''. Est-ce bien ce que vous voulez dire ou la sortie de LR offre-t-elle une interprétation différente?

gung - Réintégrer Monica

@gung: Je pense que vous avez raison dans votre interprétation - changé le texte, mieux? Je n'ai pas utilisé les modèles de régression moi-même bien que je les ai rencontrés récemment dans un cours. C'est une alternative intéressante aux modèles Cox classiques que j'ai beaucoup utilisés. Bien que j'aie probablement besoin de passer plus de temps à digérer l'idée, je pense qu'il est probablement plus facile pour moi d'expliquer à mes patients car j'utilise souvent des courbes KM pour expliquer à mes patients. Les RH exigent que vous compreniez vraiment la différence entre les risques relatifs et absolus - un concept qui peut prendre un certain temps à expliquer ...

Max Gordon

econ.uiuc.edu/~roger/research/crq/note.pdf

Misha

Merci @Misha pour le lien. L'auteur a une réponse ici: onlinelibrary.wiley.com/doi/10.1002/bimj.201100103/abstract

Max Gordon

3

Tout d'abord, je visualisais les données: calculais les intervalles de confiance et les erreurs standard pour les survivances médianes dans chaque état et montrais les IC sur une parcelle forestière, les médianes et leurs SE en utilisant un graphique en entonnoir.

La «survie médiane moyenne dans tout le pays» est une quantité qui est estimée à partir des données et présente donc une incertitude, de sorte que vous ne pouvez pas la prendre comme valeur de référence précise pendant les tests de signification. Une autre difficulté de l'approche de la moyenne est que lorsque vous comparez une médiane d'état à celle-ci, vous comparez la médiane à une quantité qui inclut déjà cette quantité en tant que composant. Il est donc plus facile de comparer chaque état à tous les autres états combinés. Cela peut être fait en effectuant un test de classement de journal (ou ses alternatives) pour chaque état.
(Modifier après avoir lu la réponse de probabilités logiques: le test du rang de log compare la survie dans deux (ou plus) groupes, mais ce n'est pas strictement la médiane qu'il compare. Si vous êtes sûr que c'est la médiane que vous souhaitez comparer, vous pouvez vous fier à ses équations ou utiliser le rééchantillonnage ici aussi)

Vous avez étiqueté votre question [comparaisons multiples], donc je suppose que vous voulez également ajuster (augmenter) vos valeurs de p de telle sorte que si vous voyez au moins une valeur de p ajustée inférieure à 5%, vous pourriez conclure que «la survie médiane entre les états est pas égal »au niveau de signification de 5%. Vous pouvez utiliser des méthodes génériques et trop conservatrices comme Bonferroni, mais le schéma de correction optimal tiendra compte des corrélations des valeurs de p. Je suppose que vous ne voulez pas intégrer de connaissances a priori dans le schéma de correction, donc je vais discuter d'un schéma où l'ajustement multiplie chaque valeur p par la même constante C.

Comme je ne sais pas comment dériver la formule pour obtenir le multiplicateur C optimal, j'utiliserais le rééchantillonnage . Sous l'hypothèse nulle que les caractéristiques de survie sont les mêmes dans tous les états, vous pouvez donc permuter les étiquettes d'état des cas de cancer et recalculer les médianes. Après avoir obtenu de nombreux vecteurs rééchantillonnés de valeurs d'état p, je trouverais numériquement le multiplicateur C en dessous duquel moins de 95% des vecteurs ne comportent pas de valeurs p significatives et au-dessus desquels plus de 95%. Alors que la plage semble large, j'augmenterais à plusieurs reprises le nombre de rééchantillons d'un ordre de grandeur.

GaBorgulya
la source

Bon conseil pour visualiser les données. (+1)

probabilitéislogique

@probabilityislogic Merci! Je salue également les critiques, surtout si elles sont constructives.

GaBorgulya

la seule critique que j'ai est l'utilisation des valeurs de p, mais c'est plus une «puce sur mon épaule» que n'importe quoi dans votre réponse - il semble que si vous allez utiliser des valeurs de p, alors ce que vous recommandez est bon. Je ne pense pas que l'utilisation de valeurs p soit bonne. voir ici pour mon échange avec @eduardo dans les commentaires sur les valeurs p.

probabilitéislogic

Comment comparer la survie médiane entre les groupes?

Réponses: