Je suis un nouveau venu dans l'analyse de survie, même si j'ai quelques connaissances en classification et régression.
Pour la régression, nous avons des statistiques MSE et R au carré. Mais comment pouvons-nous dire que le modèle de survie A est supérieur au modèle de survie B en plus d'une sorte de graphiques (courbe KM)?
Si possible, veuillez expliquer la différence avec un exemple (par exemple, package rpart dans R). Comment pouvez-vous montrer qu'un arbre de survie CART est meilleur qu'un autre arbre de survie CART? Quelles métriques peuvent être utilisées?
regression
survival
goodness-of-fit
cart
rpart
inondation
la source
la source
Réponses:
Le principal problème avec les statistiques comme le modèle de CoxR2 (décrit dans une autre réponse) est qu'il est très dépendant de la distribution de censure de vos données. D'autres choses naturelles que vous pourriez regarder, comme le rapport de vraisemblance au modèle nul, ont également ce problème. (C'est essentiellement parce que la contribution d'un point de données censuré à la probabilité est très différente de la contribution d'un point de données où l'événement est observé, car l'un d'eux provient d'un PDF et l'autre d'un CDF.) Divers chercheurs ont des moyens proposés pour contourner ce problème, mais ceux que j'ai vus exigent généralement que vous ayez un modèle de distribution de la censure ou quelque chose de tout aussi impraticable. Je n'ai pas examiné à quel point cette dépendance est mauvaise dans la pratique, donc si votre censure est assez légère, vous pouvez toujours examiner les statistiques basées sur le rapport de vraisemblance. Pour les modèles CART de survie,
Pour les modèles de survie génériques, une statistique fréquemment utilisée est l' indice c de Harrell , un analogue du de Kendall ou de l'AUC ROC pour les modèles de survie. Essentiellement, c est la proportion, sur toutes les instances où vous savez qu'une instance a connu un événement plus tard que l'autre, que le modèle se classe correctement. (En d'autres termes, pour qu'une paire d'instances soit incluse dans le dénominateur ici, au plus une peut être censurée, et elle doit être censurée après que l'autre a connu un événement.) L' index c dépend également de la distribution de la censure, mais selon Harrell, la dépendance est plus douce que pour les autres statistiques que j'ai mentionnées ci-dessus. Malheureusement, Harrell's cτ est également moins sensible que les statistiques ci-dessus, donc vous ne voudrez peut-être pas choisir entre des modèles basés sur celui-ci si la différence entre eux est petite; il est plus utile comme indice interprétable des performances générales que pour comparer différents modèles.
(Enfin, bien sûr, si vous avez un objectif spécifique à l'esprit pour les modèles - c'est-à-dire, si vous savez quelle est votre fonction de perte de prédiction - vous pouvez toujours les évaluer en fonction de la fonction de perte! Mais je suppose que vous '' re pas si chanceux ...)
Pour une discussion plus approfondie des statistiques du rapport de vraisemblance et de Harrell's c , vous devriez consulter les excellentes stratégies de modélisation de la régression des manuels de Harrell . La section sur l'évaluation des modèles de survie est le §19.10, pp. 492-493. Je suis désolé, je ne peux pas vous donner une seule réponse définitive, mais je ne pense pas que ce soit un problème résolu!
la source
Les régressions des risques proportionnels de Cox pour les données de survie peuvent être considérées comme correspondant à bien des égards aux régressions standard. Par exemple, les régressions de Cox fournissent également des erreurs standard résiduelles et des statistiques R-carré. Voir la
coxph
fonction dans lesurvival
package R. (Vous pouvez considérer les courbes KM comme correspondant à des analyses non paramétriques dans les statistiques standard. Comment incorporeriez-vous un test non paramétrique dans CART?) En pratique avec les données cliniques, les erreurs standard résiduelles ont tendance à être élevées et les valeurs carrées R faibles dans la régression de Cox.Ainsi, les régressions standard et les régressions de Cox ont des exigences et des limites similaires. Vous devez vérifier que les données correspondent aux hypothèses sous-jacentes, ce qui, dans l'analyse de Cox, inclut en outre l'hypothèse que les dangers comparés sont proportionnels dans le temps. Vous devrez toujours éviter le sur-ajustement et vous devrez valider votre modèle. Et si je comprends bien CART, bien que je ne l'utilise pas moi-même, vous serez toujours confronté aux difficultés posées par la comparaison de modèles non imbriqués.
la source
rpart
autres packages et codes R.