J'ai appris le modèle de risque proportionnel de Cox. J'ai beaucoup d'expérience dans l'ajustement de modèles de régression logistique, et donc pour construire l'intuition, j'ai comparé des modèles ajustés à l'aide coxph
de la «survie» R avec des modèles de régression logistique ajustés à l'aide glm
de family="binomial"
.
Si je lance le code:
library(survival)
s = Surv(time=lung$time, event=lung$status - 1)
summary(coxph(s ~ age, data=lung))
summary(glm(status-1 ~ age, data=lung, family="binomial"))
J'obtiens des valeurs p pour l'âge de 0,0419 et 0,0254 respectivement. De même si j'utilise le sexe comme prédicteur, avec ou sans âge.
Je trouve cela déroutant car je pense que la prise en compte du temps écoulé lors de l'ajustement du modèle donnerait plus de puissance statistique que de simplement traiter la mort comme un résultat binaire, tandis que les valeurs de p sembleraient cohérentes avec une puissance statistique inférieure. Qu'est-ce qui se passe ici?
Réponses:
Le modèle de régression logistique suppose que la réponse est un essai de Bernoulli (ou plus généralement un binôme, mais pour simplifier, nous le garderons 0-1). Un modèle de survie suppose que la réponse est généralement un temps avant l'événement (encore une fois, il y a des généralisations de cela que nous allons ignorer). Une autre façon de dire que les unités passent par une série de valeurs jusqu'à ce qu'un événement se produise. Ce n'est pas qu'une pièce soit en fait discrètement retournée à chaque point. (Cela pourrait arriver, bien sûr, mais vous auriez alors besoin d'un modèle de mesures répétées, peut-être un GLMM.)
Votre modèle de régression logistique prend chaque décès comme un retournement de pièce qui s'est produit à cet âge et qui s'est produit. De même, il considère chaque donnée censurée comme un seul coup de pièce de monnaie qui s'est produit à l'âge spécifié et qui a surgi. Le problème ici est que cela ne correspond pas à ce que sont réellement les données.
Voici quelques tracés des données et la sortie des modèles. (Notez que je bascule les prédictions du modèle de régression logistique pour prédire être vivant afin que la ligne corresponde au tracé de densité conditionnelle.)
Il peut être utile de considérer une situation dans laquelle les données étaient appropriées pour une analyse de survie ou une régression logistique. Imaginez une étude pour déterminer la probabilité qu'un patient soit réadmis à l'hôpital dans les 30 jours suivant son congé en vertu d'un nouveau protocole ou d'une nouvelle norme de soins. Cependant, tous les patients sont suivis jusqu'à la réadmission, et il n'y a pas de censure (ce n'est pas terriblement réaliste), donc le temps exact de réadmission pourrait être analysé avec une analyse de survie (à savoir, un modèle de risques proportionnels de Cox ici). Pour simuler cette situation, je vais utiliser des distributions exponentielles avec des taux 0,5 et 1, et utiliser la valeur 1 comme seuil pour représenter 30 jours:
Dans ce cas, nous voyons que la valeur de p du modèle de régression logistique (
0.163
) était supérieure à la valeur de p d'une analyse de survie (0.005
). Pour approfondir cette idée, nous pouvons étendre la simulation pour estimer la puissance d'une analyse de régression logistique par rapport à une analyse de survie, et la probabilité que la valeur p du modèle de Cox soit inférieure à la valeur p de la régression logistique . Je vais également utiliser 1.4 comme seuil, afin de ne pas désavantager la régression logistique en utilisant un seuil sous-optimal:Ainsi, la puissance de la régression logistique est inférieure (environ 75%) à l'analyse de survie (environ 93%), et 90% des valeurs p de l'analyse de survie étaient inférieures aux valeurs p correspondantes de la régression logistique. La prise en compte des temps de latence, au lieu d'être juste inférieure ou supérieure à un certain seuil, donne plus de puissance statistique comme vous l'aviez prévu.
la source