Dans R, je fais l'analyse des données de survie des patients cancéreux.
J'ai lu des informations très utiles sur l'analyse de survie dans CrossValidated et dans d'autres endroits et je pense avoir compris comment interpréter les résultats de la régression de Cox. Cependant, un résultat me dérange toujours ...
Je compare la survie au sexe. Les courbes de Kaplan-Meier sont clairement en faveur des patientes (j'ai vérifié plusieurs fois que la légende que j'ai ajoutée est correcte, la patiente avec la survie maximale, 4856 jours, est bien une femme):
Et la régression de Cox revient:
Call:
coxph(formula = survival ~ gender, data = Clinical)
n= 348, number of events= 154
coef exp(coef) se(coef) z Pr(>|z|)
gendermale -0.3707 0.6903 0.1758 -2.109 0.035 *
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
exp(coef) exp(-coef) lower .95 upper .95
gendermale 0.6903 1.449 0.4891 0.9742
Concordance= 0.555 (se = 0.019 )
Rsquare= 0.012 (max possible= 0.989 )
Likelihood ratio test= 4.23 on 1 df, p=0.03982
Wald test = 4.45 on 1 df, p=0.03499
Score (logrank) test = 4.5 on 1 df, p=0.03396
Le Hazards Ratio (HR) pour les patients masculins ( gendermale
) est donc de 0,6903. La façon dont j'interpréterais cela (sans regarder la courbe de Kaplan-Meier) est la suivante: comme la FC est <1, être un patient de sexe masculin est protecteur. Ou plus précisément, une patiente est 1 / 0,6903 = exp (-coef) = 1,449 plus susceptible de mourir à un moment précis qu'un homme.
Mais cela ne ressemble pas à ce que disent les courbes de Kaplan-Meier! Quel est le problème avec mon interprétation?
la source
Réponses:
Il s'agit d'un très bon exemple de risques non proportionnels OU de l'effet de «déplétion» dans l'analyse de survie. Je vais essayer d'expliquer.
Regardez d'abord votre courbe de Kaplan-Meier (KM): vous pouvez voir dans la première partie (jusqu'à environ 3000 jours) la proportion de mâles encore en vie dans la population à risque au temps t est supérieure à la proportion de femelles (c'est-à-dire que la ligne bleue est «plus haute» que la ligne rouge). Cela signifie en effet que le sexe masculin est «protecteur» pour l'événement (décès) étudié. Par conséquent, le rapport de risque doit être compris entre 0 et 1 (et le coefficient doit être négatif).
Cependant, après 3000 jours, la ligne rouge est plus haute! Cela suggérerait en effet le contraire. Sur la base de ce seul graphique KM, cela suggérerait en outre un danger non proportionnel. Dans ce cas, «non proportionnel» signifie que l'effet de votre variable indépendante (sexe) n'est pas constant dans le temps. En d'autres termes, le rapport de risque est viable pour changer au fil du temps. Comme expliqué ci-dessus, cela semble être le cas. Le modèle Cox à risque proportionnel régulier ne tient pas compte de ces effets. En fait, l'une des principales hypothèses est que les dangers sont proportionnels! Maintenant, vous pouvez également modéliser des risques non proportionnels, mais cela dépasse le cadre de cette réponse.
Il y a un autre commentaire à faire: cette différence pourrait être due au fait que les vrais dangers sont non proportionnels oule fait qu'il y a beaucoup de variance dans les estimations de queue des courbes KM. Il est à noter qu'à ce stade, le groupe total de 348 patients aura diminué pour devenir une très petite population encore à risque. Comme vous pouvez le voir, les deux groupes de sexe ont des patients qui vivent l'événement et des patients censurés (les lignes verticales). À mesure que la population à risque diminue, les estimations de survie deviendront moins certaines. Si vous aviez tracé des intervalles de confiance à 95% autour des lignes KM, vous verriez la largeur de l'intervalle de confiance augmenter. Ceci est également important pour l'estimation des dangers. En termes simples, comme la population à risque et le nombre d'événements dans la dernière période de votre étude sont faibles, cette période contribuera moins aux estimations de votre modèle cox initial.
Enfin, cela expliquerait pourquoi le danger (supposé constant dans le temps) correspond davantage à la première partie de votre KM qu'au lieu du point final.
EDIT: voir le commentaire de @ Scrotchi sur la question initiale: Comme indiqué, l'effet des faibles nombres dans la dernière période de l'étude est que les estimations des dangers à ces moments sont incertaines. Par conséquent, vous êtes également moins certain que la violation apparente de l'hypothèse des risques proportionnels ne soit pas due au hasard. Comme le dit @ scrotchi, l'hypothèse de PH n'est peut-être pas si mauvaise.
la source
Vous êtes confus quant à la nature de votre sortie. Ces données indiquent: Si vous êtes un homme, vous êtes plus susceptible de vivre plus longtemps qu'une femme; Les femmes ont une survie pire que les hommes. Cela se reflète dans le résultat de la régression, car le fait d'être MALE a pour effet d'avoir un log ratio de risque négatif, par exemple, les hommes ont un risque plus faible que les femmes. A la plupart des événements (lorsque les courbes "marchent"), la courbe de survie des mâles est supérieure à celle des femelles, les résultats du modèle de Cox et le graphique s'accordent très bien. Les courbes KM le confirment, tout comme la sortie du modèle de régression. La "croix" est sans importance.
Les courbes KM se comportent mal dans les queues, surtout lorsqu'elles approchent de 0% et / ou s'effilent à plat. L'axe des Y est la proportion qui survit. Avec relativement peu de personnes qui survivent longtemps dans l'étude et peu de personnes qui meurent à ce moment-là, la fiabilité des estimations est terriblement intuitive et graphique. Je note, par exemple, qu'il y a visiblement moins de femmes dans votre cohorte que d'hommes et qu'après 2800 jours, il reste moins de 10 femmes dans la cohorte, comme en témoignent les étapes de la courbe de survie et le manque d'événements censurés.
Remarque intéressante, étant donné que les analyses de survie utilisant des courbes KM, les tests de log-rank et les modèles de Cox utilisent le temps de survie classé , la durée réelle de survie est quelque peu hors de propos. Votre plus longue femelle survivante aurait pu, en fait, survivre encore 100 ans et cela n'aurait aucun impact sur les analyses. En effet, la fonction de risque de base (n'ayant observé aucun événement au cours des 13 dernières années) supposerait qu'il n'y avait aucun risque de décès pour les 87 prochaines années puisque personne n'est décédé à ce moment-là.
Si vous voulez une HR robuste pour obtenir des IC et des valeurs de p corrects à 95% pour cela, spécifiez
robust=TRUE
dans le Cox-PH pour obtenir des erreurs standard en sandwich. Dans ce cas, la FC est une FC à moyenne temporelle comparant les hommes aux femmes à tous les moments d'échec.la source