Pourquoi les temps de survie sont-ils supposés être distribués de manière exponentielle?

36

J'apprends l' analyse de survie de ce billet sur UCLA IDRE et je me suis fait avoir à la section 1.2.1. Le tutoriel dit:

... si on savait que les temps de survie étaient distribués de façon exponentielle , alors la probabilité d'observer un temps de survie ...

Pourquoi les temps de survie sont-ils supposés être distribués de manière exponentielle? Cela me semble très peu naturel.

Pourquoi pas normalement distribué? Supposons que nous étudions la durée de vie d'une créature dans certaines conditions (par exemple, le nombre de jours), devrait-elle être davantage centrée sur un nombre avec une certaine variance (par exemple, 100 jours avec une variance de 3 jours)?

Si nous voulons que le temps soit strictement positif, pourquoi ne pas faire une distribution normale avec une variance moyenne élevée et très faible (n'aura presque aucune chance d'obtenir un nombre négatif)?

Haitao Du
la source
9
Heuristiquement, je ne peux pas concevoir la distribution normale comme un moyen intuitif de modéliser le temps d’échec. Ce n'est jamais apparu dans aucun de mes travaux appliqués. Ils sont toujours biaisés très loin à droite. Je pense que les distributions normales se font de manière heuristique sous forme de moyennes, alors que les temps de survie se font de manière heuristique sous forme d'extrema, tels que l'effet d'un danger constant appliqué à une séquence de composants parallèles ou en série.
AdamO
6
Je suis d’accord avec @AdamO sur les distributions extrêmes inhérentes à la survie et au délai d’échec. Comme d'autres l'ont noté, les hypothèses exponentielles ont l'avantage d'être traitables. Le plus gros problème avec eux est l'hypothèse implicite d'un taux de dégradation constant. D'autres formes fonctionnelles sont possibles et sont proposées en tant qu'options standard en fonction du logiciel, par exemple, gamma généralisé. Des tests de qualité d'ajustement peuvent être utilisés pour tester différentes formes fonctionnelles et hypothèses. Le meilleur texte sur la modélisation de la survie est Survival Analysis Using SAS de Paul Allison , 2e éd. Oubliez SAS, c'est une excellente critique
Mike Hunter
8
Je tiens à noter que le tout premier mot de votre citation est " si "
Fomite

Réponses:

41

Les distributions exponentielles sont souvent utilisées pour modéliser les temps de survie, car ce sont les distributions les plus simples qui peuvent être utilisées pour caractériser les données de survie / fiabilité. En effet, ils sont dépourvus de mémoire et la fonction de risque est donc constante en temps w / r / t, ce qui rend l'analyse très simple. Ce type d’hypothèse peut être valable, par exemple, pour certains types de composants électroniques tels que les circuits intégrés de haute qualité. Je suis sûr que vous pouvez penser à plus d'exemples où l'effet du temps sur le risque peut sans risque être considéré comme négligeable.

Cependant, vous avez raison de noter que cela ne serait pas une hypothèse appropriée dans de nombreux cas. Des distributions normales peuvent convenir dans certaines situations, bien que des temps de survie négatifs ne soient évidemment pas significatifs. Pour cette raison, les distributions log-normales sont souvent considérées. Parmi les autres choix courants, citons Weibull, la plus petite valeur extrême, la plus grande valeur extrême, la logistique, etc. Un choix judicieux pour un modèle serait éclairé par l'expérience de la matière et le traçage des probabilités . Vous pouvez également, bien sûr, envisager une modélisation non paramétrique.

Une bonne référence pour la modélisation paramétrique classique en analyse de survie est: William Q. Meeker et Luis A. Escobar (1998). Méthodes statistiques pour les données de fiabilité , Wiley

klumbard
la source
Pourriez-vous en dire plus sur "la fonction de risque est constante w / r / t temps"?
Haitao Du
4
@ hxd1011: vraisemblablement par "fonction de risque", l'auteur fait référence à la fonction donnée par , où est le pdf de et est la queue de ( ). Cela s'appelle également le taux d'échec . L'observation est que pour , le taux d'échec est , qui est constant. De plus, il n’est pas difficile de montrer que seule la distribution exponentielle a cette propriété.r X ( t ) = f X ( t ) / ˉ F X ( t ) f X X ˉ F X X ˉ F X ( t ) = 1 - F X ( t ) = t f X ( x )rXrX(t)=fX(t)/F¯X(t)fXXF¯XXExp ( λ ) r ( t ) = ( λ e - λ t ) / ( e - λ t ) = λF¯X(t)=1FX(t)=tfX(x)dxExp(λ)r(t)=(λeλt)/(eλt)=λ
wchargin
22

Pour ajouter un peu d'intuition mathématique derrière la manière dont les exposants apparaissent dans les distributions de survie:

La densité de probabilité d'une variable de survie est , où est le danger actuel (le risque qu'une personne "décède" aujourd'hui) et est le probabilité qu'une personne a survécu jusqu'à . peut être étendu à la probabilité qu'une personne ait survécu au jour 1 et au jour 2 ... au jour . Alors: avec un risque faible et constant , on peut utiliser: pour approcher simplement f(t)=h(t)S(t)h(t)S(t)tS(t)t

P(survived day t)=1h(t)
λ e - λ1 - λ S ( t ) ( 1 - λ ) te - λ t f ( t ) = h ( t ) S ( t ) = λ e
P(survived days 1,2,...,t)=(1h(t))t
λ
eλ1λ
S(t)
(1λ)teλt
, et la densité de probabilité est alors
f(t)=h(t)S(t)=λeλt

Clause de non-responsabilité: il ne s’agit en aucun cas d’une tentative de dérivation correcte du fichier PDF - j’ai juste pensé que c’était une pure coïncidence, et je me réjouis de tout commentaire sur les raisons pour lesquelles cela est correct / incorrect.

EDIT: modification de l'approximation par conseil de @SamT, voir les commentaires pour discussion.

juod
la source
1
Cela m'a aidé à mieux comprendre les propriétés de la distribution exponentielle.
Haitao Du
1
Pourriez-vous expliquer votre avant-dernière ligne? Il dit , donc le côté gauche est fonction de ; de plus, tel est le droit. Cependant, les deux termes intermédiaires sont des fonctions de (comme c'est le cas du côté droit), mais pas des fonctions de . De plus, l'approximation ne vaut que pour . Ce n'est certainement pas vrai que - ce n'est même pas approximativement vrai pour les gros . Je suppose que c'est juste une erreur de notation que vous avez commise cependant ...? t λ t ( 1 + x / n ) n e x x = o ( S(t)=...tλt(1+x/n)n exx=o(n) tlimt(1λt/t)t=eλtt
Sam T
@ SamT - merci pour le commentaire, édité. Venant d'un fond appliqué, je me félicite de toute correction, en particulier. sur la notation. En passant à la limite wrt est certainement pas nécessaire, mais je crois encore l'approximation tient pour les petites , qui sont généralement rencontrées dans les modèles de survie. Ou diriez-vous qu'il y a autre chose qui empêche cette approximation de coïncider? λtλ
juod
1
Ça a l'air mieux maintenant :) - Le problème est que, bien que soit petit, ce n'est pas vrai que est nécessairement petit; en tant que tel, vous ne pouvez pas utiliser l'approximation (directement): ce n'est même pas "vous pouvez en mathématiques appliquées mais vous ne pouvez pas en pur"; ça ne tient pas du tout. Cependant , nous pouvons contourner ceci: nous avons que est petit, donc nous pouvons y arriver directement, en écrivantBien sûr, , on peut alors en déduire queλ t ( 1 + x / n ) ne x λ e - λ t = ( e - λ ) t( 1 - λ ) t . λ = λ t / t e - λ t( 1 - λ t / t ) t .λλt
(1+x/n)nex
λ
eλt=(eλ)t(1λ)t.
λ=λt/t
eλt(1λt/t)t.
Sam T
En vous appliquant, vous aurez peut-être l'impression que c'est un peu difficile, mais le fait est que le raisonnement n'était pas valable; des étapes non valides similaires peuvent ne pas être vraies. Bien sûr, en tant que candidat, vous serez peut-être heureux de franchir cette étape, de constater qu'elle est valable dans la majorité des cas et de ne pas vous soucier des détails! En tant que personne qui fait des mathématiques pures, cela est hors de question pour moi, mais je comprends que nous avons besoin à la fois de mathématiques pures et appliquées! (Et particulièrement dans les statistiques, il est bon de ne pas s'enliser dans des détails techniques.)
Sam T
11

Vous souhaiterez presque certainement examiner l'ingénierie de la fiabilité et les prévisions pour effectuer des analyses approfondies des temps de survie. Dans ce cadre, il existe quelques distributions qui s’utilisent souvent:

La distribution de Weibull (ou "baignoire") est la plus complexe. Il représente trois types de modes de défaillance, qui dominent à différents âges: la mortalité infantile (où les pièces défectueuses se détachent très tôt), les défaillances induites (où les pièces se cassent de manière aléatoire tout au long de la vie du système) et l’usure (où les utilisation). Tel qu'utilisé, il a un PDF qui ressemble à "\ __ /". Pour certains composants électroniques en particulier, vous pourriez entendre parler de "temps de rodage", ce qui signifie que ces pièces ont déjà été exploitées via la partie "\" de la courbe et que les premières défaillances ont été filtrées (idéalement). Malheureusement, l'analyse de Weibull tombe rapidement en pannesi vos pièces ne sont pas homogènes (y compris l'environnement d'utilisation!) ou si vous les utilisez à différentes échelles de temps (par exemple, si certaines pièces sont directement utilisées, et que d'autres pièces sont stockées en premier, le taux d '"échecs aléatoires" va atteindre être significativement différent, en raison de la combinaison de deux mesures de temps (heures de fonctionnement par rapport aux heures d’utilisation).

Les distributions normales sont presque toujours fausses. Chaque distribution normale a des valeurs négatives, aucune distribution de fiabilité n'en a. Cela peut parfois être une approximation utile, mais lorsque cela est vrai, vous regardez presque toujours un log-normal de toute façon, vous pouvez donc aussi bien utiliser la bonne distribution. Les distributions log-normales sont correctement utilisées lorsque vous rencontrez une sorte d'usure et de défaillances aléatoires négligeables, et en aucune autre circonstance! Comme la distribution Normal, ils sont suffisamment flexibles pour que vous puissiez les forcer à s'adapter à la plupart des données. vous devez résister à cette envie et vérifier que les circonstances ont un sens.

Enfin, la distribution exponentielle est le véritable bourreau de travail. Souvent, vous ne savez pas quel est le poids des pièces (par exemple, lorsque les pièces ne sont pas sérialisées et que leur date de mise en service est différente), toute distribution basée sur la mémoire est supprimée. En outre, de nombreuses pièces ont une durée d'usure tellement arbitrairement longue qu'elle est totalement dominée par des défaillances induites ou en dehors du laps de temps utile de l'analyse. Ainsi, même s’il n’est peut-être pas un modèle aussi parfait que les autres distributions, il se fiche des choses qui les dérangent. Si vous avez un MTTF (population temps / nombre d'échecs), vous avez une distribution exponentielle. En plus de cela, vous n'avez besoin d'aucune compréhension physique de votre système. Vous pouvez faire des estimations exponentielles justebasé sur une partie des MTTF observés (en supposant un échantillon assez grand), et ils sortent assez proches Il est également résistant aux causes: si tous les deux mois, quelqu'un s'ennuie et joue au croquet avec une partie jusqu'à ce qu'il se casse, cela rend compte de manière exponentielle (cela entre dans le MTTF). Exponential est également assez simple pour que vous puissiez effectuer des calculs d'arrière-plan pour déterminer la disponibilité des systèmes redondants et autres, ce qui augmente considérablement son utilité.

Monica sans fectine
la source
3
C'est une bonne réponse, mais notez que la distribution de Weibull n'est pas la distribution paramétrique la plus complexe pour les modèles de survie. Je ne suis pas sûr que cela puisse exister, mais il existe certainement une distribution généralisée Gamma et une distribution F généralisée , qui peuvent toutes deux prendre le Weibull comme cas particulier en réglant les paramètres sur 0.
gung - Réintégrer Monica
C’est le plus complexe couramment utilisé en ingénierie de la fiabilité (premier paragraphe :). Je ne suis pas en désaccord avec votre argument, mais je n’ai jamais vu non plus l’utiliser de la sorte. )
fectine - libre Monica
9

Pour répondre à votre question explicite, vous ne pouvez pas utiliser la distribution normale pour la survie car celle-ci va à l'infini négatif et la survie est strictement non négative. De plus, je ne pense pas qu'il soit vrai que "les temps de survie sont supposés être distribués de manière exponentielle" par quiconque en réalité.

Lorsque les temps de survie sont modélisés de manière paramétrique (c'est-à-dire lorsqu'une distribution nommée est invoquée), la distribution de Weibull est le lieu de départ typique. Notez que le Weibull a deux paramètres, shape et scale, et que lorsque shape = 1, le Weibull simplifie la distribution exponentielle. Une façon de penser à cela est que la distribution exponentielle est la distribution paramétrique la plus simple possible pour les temps de survie, raison pour laquelle elle est souvent discutée en premier lieu lorsque l’analyse de la survie est enseignée. (Par analogie, considérons que nous commençons souvent à enseigner les tests d'hypothèses en passant en revue le test un échantillon , dans lequel nous prétendons connaître la population SD à priori, puis que nous travaillons jusqu'au test .) tzt

La distribution exponentielle suppose que le risque est toujours exactement le même, quelle que soit la durée de vie d'une unité (considérez le chiffre dans la réponse de @ CaffeineConnoisseur ). En revanche, lorsque la forme est dans la distribution de Weibull, cela signifie que les aléas augmentent plus on survit longtemps (comme la "courbe humaine"). et quand il est , cela signifie que les risques diminuent (l'arbre). < 1>1<1

Le plus souvent, les distributions de survie sont complexes et ne correspondent à aucune distribution nommée. Généralement, les gens ne se donnent même pas la peine d'essayer de déterminer quelle distribution il pourrait s'agir. C’est ce qui rend le modèle de Cox à risques proportionnels si populaire: il est semi-paramétrique en ce sens que le risque de base peut être laissé complètement non précisé, mais le reste du modèle peut être paramétrique en ce qui concerne sa relation avec le niveau de référence non spécifié.

gung - Rétablir Monica
la source
4
"De plus, je ne pense pas qu'il soit vrai que" les temps de survie soient supposés être distribués de manière exponentielle "par quiconque en réalité." En fait, je l’ai trouvé assez courant en épidémiologie, généralement de manière implicite.
Fomite
1
@gung, pourriez-vous bien vouloir expliquer - il est semi-paramétrique en ce sens que l'aléa de base peut être laissé complètement indéterminé, mais le reste du modèle peut être paramétrique en ce qui concerne sa relation avec le niveau de base non spécifié
Gaurav Singhal le
7

Une certaine écologie pourrait aider à répondre au "Pourquoi" derrière cette question.

La distribution exponentielle est utilisée pour modéliser la survie en raison des stratégies de vie impliquées dans les organismes vivant dans la nature. Il existe essentiellement deux extrêmes en ce qui concerne la stratégie de survie avec une marge de manœuvre pour le terrain d'entente.

Voici une image qui illustre ce que je veux dire (courtoisie de Khan Academy):

https://www.khanacademy.org/science/biology/ecology/population-ecology/a/life-tables-survivorship-age-sex-structure

Ce graphique trace les individus survivants sur l'axe des Y et le "pourcentage d'espérance de vie maximale" (approximation de l'âge de l'individu) sur l'axe des X.

Le type I concerne les humains, organismes modèles qui prennent très au sérieux les soins de leur progéniture, ce qui garantit une très faible mortalité infantile. Souvent, ces espèces ont très peu de progénitures, car chacune demande beaucoup de temps et d’efforts aux parents. La majorité de ce qui tue les organismes de type I est le type de complications survenant à un âge avancé. La stratégie consiste ici en un investissement élevé pour des retombées élevées dans des vies longues et productives, même si cela se fait au prix de nombreuses personnes.

Inversement, le type III est modélisé par des arbres (mais peut également être du plancton, des coraux, des poissons en frai, de nombreux types d’insectes, etc.) dans lequel le parent investit relativement peu dans chaque progéniture, mais en produit une tonne dans l’espoir que survivre. La stratégie ici est "pulvériser et prier" en espérant que, si la plupart des enfants seront détruits assez rapidement par les prédateurs profitant de cueillettes faciles, les rares survivants qui auront assez longtemps pour grandir deviendront de plus en plus difficiles à tuer, pour finalement devenir (pratiquement) impossibles à être mangé. Pendant tout ce temps, ces individus produisent un nombre énorme de progénitures en espérant que quelques-uns survivront à leur âge.

Le type II est une stratégie moyenne avec un investissement parental modéré pour une capacité de survie modérée à tous les âges.

J'ai eu un professeur d'écologie qui l'a dit de cette façon:

"Le type III (arbres) est la" courbe de l'espoir ", car plus un individu survit longtemps, plus il est probable qu'il continuera à survivre. Le type I (humain) est la" courbe du désespoir ", car vous vivez, plus il est probable que vous mourrez. "

CaféineConnoisseur
la source
C'est intéressant, mais notons que pour les humains, avant la médecine moderne (et encore dans certains endroits du monde aujourd'hui), la mortalité infantile est très élevée. La survie humaine de base est souvent modélisée avec le " danger de la baignoire ".
gung - Réintégrer Monica
@gung Absolument, c'est une large généralisation et il y a des variations chez les humains de différentes régions et périodes. La différence principale est plus nette lorsque vous comparez les extrêmes, c'est-à-dire les familles humaines occidentales (environ 2,5 enfants par paire, dont la plupart ne meurent pas en bas âge) par rapport aux coraux ou aux poissons en frai (des millions d'œufs libérés par cycle de reproduction, dont la plupart mourir à cause de la consommation, de la famine, de la chimie de l'eau, ou tout simplement de ne pas se perdre dans une destination habitable)
CaffeineConnoisseur
1
Bien que je sois pour des explications d'ordre écologique, je noterai que des hypothèses telles que celle-ci sont également formulées pour des éléments tels que les disques durs et les moteurs d'avion.
Fomite
6

Cela ne répond pas directement à la question, mais je pense qu'il est très important de noter, et ne correspond pas bien à un seul commentaire.

Alors que la distribution exponentielle a une très bonne dérivation théorique, et suppose donc que les données produites suivent les mécanismes supposés dans la distribution exponentielle, elle devrait théoriquement donner des estimations optimales. En pratique, je n'ai pas encore rencontré de jeu de données où la distribution exponentielle produit même des résultats proches des résultats acceptables (bien sûr, cela dépend des types de données que j'ai analysées, presque toutes les données biologiques). Par exemple, je viens d’envisager d’adapter un modèle avec une variété de distributions en utilisant le premier jeu de données que je pouvais trouver dans mon paquet R Pour la vérification du modèle de la distribution de base, nous comparons généralement le modèle semi-paramétrique. Regardez les résultats.

Courbes de survie

Parmi la distribution log-logistique et log-normale de Weibull, il n’ya pas de vainqueur absolu en termes d’ajustement approprié. Mais il y a un perdant évident: la distribution exponentielle! D'après mon expérience, cette magnitude de la mauvaise adaptation n'est pas exceptionnelle, mais plutôt la norme pour la distribution exponentielle.

Pourquoi? Parce que la distribution exponentielle est une famille à paramètre unique. Ainsi, si je spécifie la moyenne de cette distribution, j’ai spécifié tous les autres moments de la distribution. Ces autres familles sont toutes deux familles de paramètres. Ainsi, ces familles ont beaucoup plus de flexibilité pour s’adapter aux données elles-mêmes.

Gardez maintenant à l’esprit que la distribution de Weibull a la distribution exponentielle comme cas particulier (c’est-à-dire lorsque le paramètre de forme = 1). Ainsi, même si les données sont vraiment exponentielles, nous ajoutons un peu plus de bruit à nos estimations en utilisant une distribution de Weibull sur une distribution exponentielle. En tant que tel, je ne recommanderais jamais de ne jamais utiliser la distribution exponentielle pour modéliser des données réelles (et je suis curieux de savoir si certains lecteurs ont un exemple de ce qui est réellement une bonne idée).

Cliff AB
la source
1
Je ne suis pas convaincu de cette réponse: 1) "en utilisant le premier jeu de données que j'ai pu trouver dans mon paquet R" ... vraiment? ... sur stats.stackexchange? Un échantillon aléatoire et nous tirons des conclusions générales? 1b) Pour les modèles où le temps d'échec a tendance à être réparti autour d'une valeur donnée (comme la vie des personnes), il est clair que les répartitions telles que Gamma, Weibull, etc. sont plus adaptées; lorsque les événements sont également probables, une distribution exponentielle est plus adaptée. Je parie que votre "premier ensemble de données" ci-dessus est du premier type. 2) Tous les autres modèles ont 2 paramètres, il convient par exemple d'utiliser le facteur Bayes pour comparer les modèles.
Luca Citi
2
@LucaCiti: "le premier jeu de données de mon paquet R" désigne le premier jeu de données du paquet R que j'ai publié (icenReg). Et j’ai remarqué que mon expérience avec la distribution exponentielle ayant toujours un mauvais ajustement dépendait du type de données que j’avais analysées; presque exclusivement des données biologiques. Enfin, comme je l’ai dit à la fin, je suis très curieux d’entendre des exemples réels appliqués dans lesquels il existe une raison convaincante d’utiliser la distribution exponentielle. Si vous en avez un, partagez-le.
Cliff AB
1
Si vous souhaitez utiliser la distribution exponentielle, vous pouvez par exemple utiliser (a) de nombreuses données historiques montrant que les données étaient réellement bien approximées avec une distribution exponentielle et (b) vous deviez faire une inférence avec de petits échantillons ( ie n <10). Mais je ne connais aucune application réelle comme celle-ci. Peut-être dans une sorte de problème de contrôle de la qualité de fabrication?
Cliff AB
1
Bonjour Cliff, merci d'avoir pris le temps de répondre à mon commentaire. Je pense qu'en gros, une distribution comme celle de Weibull correspond à de meilleures situations correspondant à des questions telles que "quelle est la durée de vie de l'individu x dans mon échantillon" ou "quand le neurone x va-t-il se déclencher à nouveau" ou "quand la luciole x va-t-elle clignoter à nouveau ". Inversement, une distribution exponentielle modélise des questions telles que "quand la prochaine mort devrait-elle se produire dans ma population", "quand le prochain neurone va-t-il brûler" ou "quand une luciole de l'essaim va-t-elle se déclencher"
Luca Citi
@LucaCiti; ha, tu viens de comprendre que ton premier coup de coude était une blague sur la possibilité de faire une inférence avec n = 1. Je ne sais pas comment je l’ai manquée la première fois. Pour ma défense, si nous avons une théorie qui dit que l'estimateur devrait être asymptotiquement normal alors qu'il se trouve à plus de 4 écarts-types par rapport aux autres estimations asymptotiquement normales, alors nous le pouvons! Mais ce qui est sérieux, ce n’est pas ce complot qui m’a convaincu, mais le même niveau de déviation. Je peux être bloqué si je spamme plus de 20 parcelles de mauvais ajustements exponentiels.
Cliff AB
4

Voici une autre raison pour laquelle la distribution exponentielle apparaît souvent afin de modéliser l'intervalle entre les événements.

Il est bien connu que, sous certaines hypothèses, la somme d’un grand nombre de variables aléatoires indépendantes sera proche d’une distribution gaussienne. Un théorème similaire est valable pour les processus de renouvellement , à savoir les modèles stochastiques pour les événements qui se produisent de manière aléatoire dans le temps avec des intervalles inter-événements IID. En fait, le théorème de Palm-Khintchine stipule que la superposition d'un grand nombre de processus de renouvellement (pas nécessairement poissoniens) se comporte de manière asymptotique comme un processus de Poisson . Les intervalles inter-événements d'un processus de Poisson sont distribués de manière exponentielle.

Luca Citi
la source
3

tl; dr - Une distribution expontentielle équivaut à supposer que des individus sont aussi susceptibles de mourir à un moment donné que n'importe quel autre.

Dérivation

  1. Supposons qu'un individu vivant soit aussi susceptible de mourir à un moment donné qu'à un autre.

  2. Ainsi, le taux de mortalité est proportionnelle à la population, . PdPdtP

dPdt  P
  1. Résoudre sur WolframAlpha montre:

P(t)=c1et

La population suit donc une distribution exponentielle.

Note mathématique

Le calcul ci - dessus est une réduction d'un premier ordre équation différentielle ordinaire (ODE) . Normalement, nous résolvons aussi pour en notant la condition limite que la population commence à une valeur donnée, , au moment du début . P ( t 0 ) t 0c0P(t0)t0

Alors l'équation devient:

P(t)=etP(t0).

Vérification de la réalité

La distribution exponentielle suppose que les membres de la population ont tendance à mourir au même rythme avec le temps. En réalité, les taux de mortalité auront tendance à varier pour des populations finies.

Venir avec de meilleures distributions implique des équations différentielles stochastiques . Ensuite, nous ne pouvons pas dire qu’il existe une probabilité de décès constante; nous devons plutôt établir une distribution des chances de décès de chaque individu à un moment donné, puis combiner ces différents arbres de possibilités pour l'ensemble de la population, puis résoudre cette équation différentielle au fil du temps.

Je ne me souviens pas avoir déjà vu cela dans quelque chose en ligne, vous ne risquez donc pas de le rencontrer; mais c'est la prochaine étape de la modélisation si vous voulez améliorer la distribution exponentielle.

Nat
la source
3

(Notez que dans la partie que vous avez citée, la déclaration était conditionnelle; la phrase elle-même ne supposait pas une survie exponentielle, elle expliquait une conséquence. Néanmoins, les hypothèses de survie exponentielle sont courantes, il est donc utile de traiter de la question exponentiel "et" pourquoi pas normal "- puisque le premier est déjà assez bien couvert, je vais me concentrer davantage sur la deuxième chose)

Les temps de survie distribués normalement n'ont pas de sens car ils ont une probabilité non nulle que le temps de survie soit négatif.

Si vous limitez ensuite votre analyse aux distributions normales qui n'ont presque aucune chance d'être proches de zéro, vous ne pouvez pas modéliser des données de survie présentant une probabilité raisonnable d'une durée de survie courte:

distributions de temps de survie - moyenne normale 100 SD 10 par rapport à une distribution particulière avec une moyenne de 100 et SD 42 qui présente une probabilité de survie de plus de 20% entre 0 et 50

Il serait peut-être raisonnable de prévoir de temps en temps des périodes de survie qui n’ont pratiquement aucune chance d’être brèves, mais vous avez besoin de distributions qui aient un sens dans la pratique. répartition des temps de survie). Une distribution normale non modifiée sera rarement utile dans la pratique.

[Une normale tronquée pourrait être plus souvent une approximation approximative raisonnable qu'une normale, mais d'autres distributions feront souvent mieux.]

Le risque constant de l'exponentielle est parfois une approximation raisonnable des durées de survie. Par exemple, si des "événements aléatoires" tels que les accidents contribuent fortement au taux de mortalité, la survie exponentielle fonctionnera assez bien. (Parmi les populations animales, par exemple, la prédation et la maladie peuvent parfois agir au moins grossièrement comme un processus aléatoire, laissant quelque chose comme une exponentielle en tant que première approximation raisonnable des temps de survie.)


Une question supplémentaire liée à la normale tronquée: si la normale n'est pas appropriée, pourquoi pas la normale au carré (chi carré avec df 1)?

En effet, cela pourrait être un peu mieux ... mais notez que cela correspondrait à un risque infini à 0, donc cela ne serait utile que de temps en temps. Bien qu’il puisse modéliser des cas avec une très forte proportion de temps très courts, il a le problème inverse de ne pouvoir modéliser que des cas avec une survie généralement beaucoup plus courte que la moyenne (25% des temps de survie sont inférieurs à 10,15% du temps de survie moyen et la moitié des temps de survie est inférieure à 45,5% de la moyenne, c'est-à-dire que la survie médiane est inférieure à la moitié de la moyenne.)

Regardons un mis à l'échelle (c'est-à-dire un gamma avec le paramètre de forme ):χ1212

Tracé similaire à celui d’avant, mais aussi avec une densité de variate égale à 100 fois le chi-carré (1);  il a un sommet élevé à 0 et une queue très lourde - la moyenne est de 100, mais la SD est d'environ 141 et la médiane est d'environ 45.

[Peut-être que si vous additionnez deux de ces variables ... ou peut-être que si vous considérez non- vous obtiendrez des possibilités convenables. En dehors des exponentielles, les choix courants des distributions paramétriques pour les temps de survie incluent Weibull, lognormal, gamma, log-logistic parmi beaucoup d'autres ... notez que Weibull et le gamma incluent l'exponentielle comme cas spécial.] χ 2χ12χ2

Glen_b -Reinstate Monica
la source
merci, j'attends votre réponse depuis hier :). Une question supplémentaire liée à la normale tronquée: si la normale n'est pas appropriée, pourquoi pas la normale au carré (chi carré avec df 1)?
Haitao Du
En effet, cela pourrait être un peu mieux ... mais notez que cela correspondrait à un risque infini à 0 - donc cela ne serait utile que de temps en temps. Il a le problème inverse de ne présenter que des cas de modélisation avec une survie généralement beaucoup plus courte que la moyenne (25% des temps de survie sont inférieurs à 10,15% de la durée de survie moyenne et la moitié des temps de survie sont inférieurs à 45,5% de la moyenne). deux de ces variables pourraient vous une fonction de hasard moins surprenante. . .; Pχ12
Glen_b -Reinstate Monica
encore merci pour l'éducation mon intuition derrière les choses. J'ai vu trop de tutoriels de niveau recette et de gens qui font des choses sans savoir pourquoi. CV est un bon endroit pour apprendre.
Haitao Du
1

Si nous voulons que le temps soit strictement positif, pourquoi ne pas faire une distribution normale avec une variance moyenne élevée et très faible (n'aura presque aucune chance d'obtenir un nombre négatif)?

Car

  1. cela a toujours une probabilité non nulle d'être négatif, donc ce n'est pas strictement positif;

  2. vous pouvez mesurer la moyenne et la variance à partir de la population que vous essayez de modéliser. Si votre population a une moyenne 2 et une variance 1 et que vous modélisez avec une distribution normale, cette distribution normale aura une masse importante inférieure à zéro; Si vous le modélisez avec une distribution normale avec une moyenne de 5 et une variance de 0,1, votre modèle a évidemment des propriétés très différentes de ce qu'il est censé modéliser.

La distribution normale a une forme particulière, et cette forme est symétrique par rapport à la moyenne. La seule façon d'ajuster la forme est de la déplacer de droite à gauche (augmenter ou diminuer la moyenne) ou de l'étendre plus ou moins (augmenter ou diminuer la variance). Cela signifie que le seul moyen d'obtenir une distribution normale où la majeure partie de la masse est comprise entre deux et dix et où seule une infime quantité de la masse est inférieure à zéro, vous devez donc définir votre moyenne à six (le milieu de la plage). ) et définissez la variance suffisamment faible pour que seule une infime fraction des échantillons soit négative. Mais vous constaterez probablement que la plupart de vos échantillons sont composés de 5, 6 ou 7, alors que vous étiez censé avoir beaucoup de 2, 3, 4, 8, 9 et 10.

David Richerby
la source