Intuition pour la fonction de risque cumulatif (analyse de survie)

17

J'essaie d'avoir de l'intuition pour chacune des principales fonctions de la science actuarielle (en particulier pour le modèle des risques proportionnels de Cox). Voici ce que j'ai jusqu'à présent:

  • f(x) : à partir de l'heure de début, la distribution de probabilité de votre décès.
  • F(x) : juste la distribution cumulative. Au tempsT , quel% de la population sera morte?
  • S(x) :1F(x) . Au tempsT , quel% de la population sera en vie?
  • h(x) : fonction de danger. A un instant donnéT , des personnes encore en vie, cela peut être utilisé pour estimer combien de personnes mourront dans l'intervalle de temps suivant, ou si intervalle-> 0, la probabilité de décès «instantané».
  • H(x) : danger cumulatif. Aucune idée.

Quelle est l'idée derrière la combinaison des valeurs de danger, surtout lorsqu'elles sont continues? Si nous utilisons un exemple discret avec des taux de mortalité sur quatre saisons, et la fonction de risque est la suivante:

  • À partir du printemps, tout le monde est vivant et 20% mourront
  • Maintenant en été, parmi ceux qui restent, 50% mourront
  • Maintenant, à l'automne, parmi ceux qui restent, 75% mourront
  • La dernière saison est l'hiver. De ceux qui restent, 100% mourront

Le risque cumulatif est alors de 20%, 70%, 145%, 245% ?? Qu'est-ce que cela signifie et pourquoi est-ce utile?

Jon
la source
1
Vos T doivent être des x , ou vice versa.
Glen_b -Reinstate Monica
5
En ce qui concerne , vous avez une erreur (bien que ce soit une confusion très courante). Vous écrivez "intervalle-> 0, probabilité de mort" instantanée "". Une déclaration correcte serait « taux de mortalité instantané ». Cela ne peut pas être une probabilité car c'est une probabilité divisée par d t ; de plus, il pourrait être> 1. h(x)dt
gung - Rétablir Monica

Réponses:

6

Combiner les proportions de mourir comme vous ne vous donne pas de risque cumulatif. Le taux de risque en temps continu est une probabilité conditionnelle que pendant un intervalle très court un événement se produise:

h(t)=limΔt0P(t<Tt+Δt|T>t)Δt

Le danger cumulatif intègre le taux de danger (instantané) au fil des âges / du temps. C'est comme résumer les probabilités, mais comme est très faible, ces probabilités sont également de petits nombres (par exemple, le taux de risque de mourir peut être d'environ 0,004 à des âges d'environ 30 ans). Le taux de risque est subordonné au fait de ne pas avoir vécu l'événement avant t , donc pour une population, il peut totaliser plus de 1.Δtt

Vous pouvez rechercher une table de mortalité humaine, bien qu'il s'agisse d'une formulation à temps discret, et essayer d'accumuler .mx

Si vous utilisez R, voici un petit exemple d'approximation de ces fonctions à partir du nombre de décès à chaque intervalle d'âge d'un an:

dx <-  c(3184L, 268L, 145L, 81L, 64L, 81L, 101L, 50L, 72L, 76L, 50L, 
         62L, 65L, 95L, 86L, 120L, 86L, 110L, 144L, 147L, 206L, 244L, 
         175L, 227L, 182L, 227L, 205L, 196L, 202L, 154L, 218L, 279L, 193L, 
         223L, 227L, 300L, 226L, 256L, 259L, 282L, 303L, 373L, 412L, 297L, 
         436L, 402L, 356L, 485L, 495L, 597L, 645L, 535L, 646L, 851L, 689L, 
         823L, 927L, 878L, 1036L, 1070L, 971L, 1225L, 1298L, 1539L, 1544L, 
         1673L, 1700L, 1909L, 2253L, 2388L, 2578L, 2353L, 2824L, 2909L, 
         2994L, 2970L, 2929L, 3401L, 3267L, 3411L, 3532L, 3090L, 3163L, 
         3060L, 2870L, 2650L, 2405L, 2143L, 1872L, 1601L, 1340L, 1095L, 
         872L, 677L, 512L, 376L, 268L, 186L, 125L, 81L, 51L, 31L, 18L, 
         11L, 6L, 3L, 2L)

x <- 0:(length(dx)-1) # age vector

plot((dx/sum(dx))/(1-cumsum(dx/sum(dx))), t="l", xlab="age", ylab="h(t)", 
     main="h(t)", log="y")
plot(cumsum((dx/sum(dx))/(1-cumsum(dx/sum(dx)))), t="l", xlab="age", ylab="H(t)", 
     main="H(t)")

J'espère que cela t'aides.

Martin
la source
Est-il exact de dire que h (t) * dt est la probabilité qu'un événement se produise dans un intervalle de longueur dt autour de t? par conséquent, la valeur h (t) est la probabilité qu'un événement se produise dans 1 unité de temps centrée autour de t. Ce ne serait le cas que si h (t) <= 1
corbeau
10

Le livre "An Introduction to Survival Analysis Using Stata" (2nd Edition) de Mario Cleves contient un bon chapitre sur ce sujet.

Vous pouvez trouver le chapitre sur Google Books , p. 13-15. Mais je conseillerais de lire tout le chapitre 2.

Voici la forme courte:

  • "il mesure le montant total de risque qui s'est accumulé jusqu'au temps t" (p. 8)
  • compter l'interprétation des données: "il donne le nombre de fois que nous nous attendrions (mathématiquement) à observer des défaillances [ou d'autres événements] sur une période donnée, si seulement l'événement de défaillance était reproductible" (p. 13)
elevendollar
la source
5

Je dirais DANGER que c'est remarquable en raison de son utilisation dans les parcelles de diagnostic:

h(x)=eβTzh0(x)βzh0(x)logH(x)=βTz+H0(x)logH^(x)x

h(x)=αθ(xθ)α1θαlogH(x)=αlogxαlogθlogH^(x)logxα^α^logθ^, à condition que l'hypothèse de Weibull soit correcte. Et bien sûr, une pente proche de 1 suggère qu'un modèle exponentiel pourrait convenir.

H(x)x

Scortchi - Réintégrer Monica
la source
3

En paraphrasant ce que dit @Scortchi, je voudrais souligner que la fonction de risque cumulatif n'a pas une bonne interprétation, et en tant que telle, je n'essaierais pas de l'utiliser comme un moyen d'interpréter les résultats; dire à un chercheur non statistique que les risques cumulatifs sont différents entraînera très probablement une réponse "mm-hm" et ensuite il ne posera plus de questions sur le sujet, et pas dans le bon sens.

Cependant, la fonction de risque cumulatif s'avère très utile mathématiquement, comme un moyen général de relier la fonction de danger et la fonction de survie. Il est donc important de savoir quel est le danger cumulatif et comment il peut être utilisé dans diverses méthodes statistiques. Mais en général, je ne pense pas qu'il soit particulièrement utile de penser à des données réelles en termes de risques cumulatifs.

Cliff AB
la source