J'ai étudié le modèle des risques proportionnels de Cox, et cette question est passée sous silence dans la plupart des textes.
Cox a proposé d'ajuster les coefficients de la fonction de danger en utilisant une méthode de vraisemblance partielle, mais pourquoi ne pas simplement ajuster les coefficients d'une fonction de survie paramétrique en utilisant la méthode du maximum de vraisemblance et un modèle linéaire?
Dans tous les cas où vous avez censuré des données, vous pouvez simplement trouver la zone sous la courbe. Par exemple, si votre estimation est de 380 avec un écart-type de 80 et qu'un échantillon est censuré> 300, alors il y a une probabilité de 84% pour cet échantillon dans le calcul de vraisemblance en supposant une erreur normale.
Réponses:
Si vous connaissez la distribution paramétrique que vos données suivent, alors utilisez une approche de vraisemblance maximale et la distribution est logique. Le véritable avantage de la régression des risques proportionnels de Cox est que vous pouvez toujours ajuster des modèles de survie sans connaître (ou supposer) la distribution. Vous donnez un exemple utilisant la distribution normale, mais la plupart des durées de survie (et d'autres types de données pour lesquels la régression de Cox PH est utilisée) ne sont pas proches de la suite d'une distribution normale. Certains peuvent suivre une distribution log-normale, ou Weibull, ou une autre distribution paramétrique, et si vous êtes prêt à faire cette hypothèse, alors l'approche paramétrique de probabilité maximale est excellente. Mais dans de nombreux cas du monde réel, nous ne savons pas quelle est la distribution appropriée (ou même une approximation suffisamment proche). Avec la censure et les covariables, nous ne pouvons pas faire un simple histogramme et dire "cela ressemble à une ... distribution pour moi". Il est donc très utile d'avoir une technique qui fonctionne bien sans avoir besoin d'une distribution spécifique.
Pourquoi utiliser l'aléa au lieu de la fonction de distribution? Considérez la déclaration suivante: "Les personnes du groupe A sont deux fois plus susceptibles de mourir à 80 ans que les personnes du groupe B". Maintenant, cela pourrait être vrai parce que les personnes du groupe B ont tendance à vivre plus longtemps que celles du groupe A, ou cela pourrait être dû au fait que les personnes du groupe B ont tendance à vivre moins longtemps et la plupart d'entre elles sont mortes bien avant l'âge de 80 ans, ce qui donne une très faible probabilité d'entre eux meurent à 80 ans alors que suffisamment de personnes dans le groupe A vivent à 80 ans qu'un bon nombre d'entre eux mourront à cet âge, ce qui donne une probabilité de décès beaucoup plus élevée à cet âge. Donc, la même affirmation pourrait signifier que le groupe A est meilleur ou pire que le groupe B. Ce qui est plus logique, c'est de dire, parmi les personnes (dans chaque groupe) qui ont vécu jusqu'à 80 ans, quelle proportion mourra avant d'avoir 81 ans. C'est le danger (et le danger est une fonction de la fonction de distribution / fonction de survie / etc.). Le danger est plus facile à utiliser dans le modèle semi-paramétrique et peut alors vous donner des informations sur la distribution.
la source
"Nous" ne le faisons pas nécessairement. La gamme d'outils d'analyse de survie va des modèles entièrement non paramétriques, comme la méthode Kaplan-Meier, aux modèles entièrement paramétriques où vous spécifiez la distribution du danger sous-jacent. Chacun a ses avantages et ses inconvénients.
Les méthodes semi-paramétriques, comme le modèle des risques proportionnels de Cox, vous permettent de ne pas spécifier la fonction de risque sous-jacente. Cela peut être utile, car nous ne connaissons pas toujours la fonction de risque sous-jacente et, dans de nombreux cas, nous ne nous en soucions pas non plus . Par exemple, de nombreuses études épidémiologiques veulent savoir "L'exposition X diminue-t-elle le temps jusqu'à l'événement Y?" Ce dont ils se soucient, c'est la différence entre les patients qui ont X et qui n'en ont pas. Dans ce cas, le danger sous-jacent n'a pas vraiment d'importance, et le risque de mal le spécifier est pire que les conséquences de ne pas le savoir.
Il y a des moments cependant où cela n'est pas vrai non plus. J'ai travaillé avec des modèles entièrement paramétriques parce que l'aléa sous-jacent était intéressant.
la source