Application appropriée de l'analyse de survie

J'ai une expérience qui produira des observations du temps jusqu'à ce qu'un événement se produise. Certaines propriétés de base sont que

Nous comptons le nombre d'événements qui se sont produits à un moment donné . $t_1,...,t_n$
Les heures des événements sont censurées par intervalles, entre , $(t-1,t]$
Les individus ne quitteront pas le procès entre , c'est-à-dire qu'un individu a vécu l'événement par ou ne l'a pas fait, auquel cas il est censuré, $t_1,...t_n$ $t_1$
Une grande partie des individus ne recevront pas l'événement avant , lorsque nous terminerons l'expérience, et $t_n$
Je ne peux supposer aucun modèle de désintégration paramétrique sous-jacent.

Cela semble être une application naturelle pour l'analyse de survie. Cependant, il est compliqué par le fait qu'il est trivial de répéter l'expérience à partir de la même configuration initiale plusieurs fois. En effet, nous aurons un ensemble de dénombrements d'événements (où est le nombre d'échantillons) pour chaque temps d'observation . Je suis relativement nouveau dans les statistiques et j'ai du mal à voir comment appliquer l'analyse de survie à ces données (si elles sont même applicables et qu'il n'y a pas de méthodes plus appropriées pour mesurer ce type de données de temps sur événement). Mon inclination est de construire la fonction de survie autour du nombre moyen d'événements observés à chaque intervalle (ie $m_{1,...,s}$ $s$ $t_i$ $\bar{m}_{1,...,n}$ ), qui devrait mieux se rapprocher du nombre prévu d'événements à chaque intervalle dans la population, mais je n'ai aucune idée si cela est approprié ou de ses implications.

J'ai cherché en vain sur Google Scholar, si quelqu'un pouvait me diriger vers plus de matériel (ou me donner la nomenclature correcte pour ce que j'essaie de faire), ce serait apprécié.

Éditer

Étant donné que les intervalles sont uniformes dans tous les échantillons, disons que j'avais la matrice suivante décrivant le nombre cumulé d'individus pour lesquels un événement s'est produit dans chaque intervalle $(t-1, t]$

$M = \left(\begin{array}{ccc} 0 & 24 & 35 & 52 & 60 & 71 \\ 0 & 22 & 38 & 57 & 64 & 75 \\ 0 & 26 & 34 & 55 & 62 & 72 \\ 0 & 21 & 32 & 52 & 61 & 73 \end{array}\right)$

où chaque ligne donne le nombre d'événements pour le même ensemble d'individus à risque à dans tous les échantillons (c'est-à-dire plusieurs instances de l'expérience), et chaque colonne est un intervalle d'observation. Je suppose qu'en prenant le nombre moyen d'événements pour chaque intervalle, je peux obtenir une meilleure estimation de la survie de la population attendue, alors soit le nombre d'intervalles de temps, le nombre d'échantillons (instances d'expérience), puis le vecteur $t=0$ $n$ $s$

$\bar{M} = \left[ {{\sum_{i=1}^{s}M_{it}}\over{s}} \right]_{t=1...n}$

sera le nombre moyen d'événements observés pour chaque intervalle de temps.

Mon objectif est donc de l'utiliser comme entrée pour l'estimation de la survie. Soit le nombre d'individus à risque lorsque . En utilisant l'estimateur naïf (pour l'instant, étant donné que les intervalles d'événements sont uniformes dans tous les échantillons et qu'il n'y a pas de censure avant ), la fonction de survivant pourrait être estimée comme: $f$ $t=0$ $t_n$

$S(t) = {{f - \bar{M}_t}\over{f}}$

Ce qui (espérons-le) serait une meilleure estimation de la survie de la population que n'importe quel échantillon individuel (une seule ligne de ). Pour reformuler ma question: $M$

Est une entrée appropriée à une estimation de la fonction de survie? Je n'ai vu cette approche dans aucun des documents que j'ai lus. $\bar{M}$
Comme je suis vraiment, douloureusement novice en statistiques, quelqu'un peut-il m'indiquer du matériel (articles universitaires, manuels, wikis, etc., ça irait) pour estimer l'intervalle de confiance et la variance pour cette estimation de la fonction de survie? Je suppose que ce ne sera pas identique aux formulations standard.

Toutes mes excuses si ma question d'origine était déroutante, je n'ai probablement pas inclus suffisamment d'informations.

survival Joachim Ziemssen
la source

Je ne suis pas tout à fait en train de suivre ce qui vous embrouille. Pourquoi craignez-vous que l'analyse de survie ne soit pas appropriée ici? Est-ce que vous ne regardez que des intervalles de temps discrets?

gung - Rétablir Monica

Je suis vraiment confus d'avoir plusieurs comptes d'événements observés pour chaque intervalle. Tous les livres que j'ai lus, en particulier (Kleinbaum et Klein, 2012), s'attendent à ce que vous construisiez votre fonction de survie pour un seul échantillon. En effet, je prends plusieurs échantillons de la population et j'essaie d'estimer la véritable fonction de survie de la population, que je comparerai ensuite entre les populations sous différents traitements en utilisant le test de logrank (car je n'introduis pas encore de variables explicatives). Pour chaque échantillon, afficheront des taux de désintégration légèrement différents pour les mêmes individus.

m_{1}, . . ., s

$m_1,...,s$

Joachim Ziemssen

Réponses:

J'ai récemment eu un ensemble de données de survie censurées par intervalles, donc je sais exactement ce dont vous avez besoin. Si vous en avez déjà utilisé R, cela devrait vous aider.

Si vous ne voulez pas assumer une forme paramétrique, que diriez-vous d'un modèle à risques proportionnels de Cox censuré par intervalles? Le intcoxpackage qui ferait cela n'est plus dans le Rréférentiel. Je suggérerais d'imputer les temps de survie, puis d'utiliser la coxphfonction de la survivalbibliothèque. Gardez à l'esprit que vos erreurs standard seront trop faibles en utilisant cette méthode; vous n'avez pas tenu compte de l'incertitude de ne pas connaître le temps de survie exact. Si vous voulez des estimations de survie à intervalle censuré, utilisez la icfitfonction du intervalpackage.

Une autre façon d'analyser l'effet des covariables sur le temps de survie consiste à utiliser une régression non paramétrique censurée par intervalles. Voir le Rpackage ICE: http://cran.r-project.org/web/packages/ICE/ICE.pdf . Vous devez d'abord imputer les points médians du temps de survie, puis vous effectuez une régression linéaire locale en utilisant la locpolyfonction du nppackage. Ce n'est pas aussi difficile qu'il y paraît.

wcampbell
la source

Merci, j'utilise R / Mathematica, et je finirai probablement par utiliser ces packages (et je n'avais pas entendu parler d'Intcox!) Pour ce faire. Pour l'instant, cependant, mon problème (que j'ai ajouté à la question) est d'avoir plusieurs échantillons de la désintégration des mêmes individus au cours de la même période. Pensez-y comme la répétition d' une expérience les temps, je suis en train d'utiliser ces données pour mieux estimer la fonction de survie.

s

$s$

Joachim Ziemssen

Je pense que nous sommes aussi confus - comment un même individu peut-il avoir des taux de désintégration multiples? Une observation ne peut pas avoir plusieurs valeurs pour une seule variable dépendante. Je pense que vous devriez les traiter comme des observations distinctes. Quoi qu'il en soit, il ne devrait y avoir aucun problème à utiliser comme estimation de survie pour cette observation.

\bar{M}

$\bar{M}$

wcampbell

Problème intéressant ... J'utiliserais comme données de survie mais vous voulez probablement parler de la variance des temps de décroissance pour le même ordinateur.

\bar{M}

$\bar{M}$

wcampbell

C'est problématique que ce soit un problème intéressant! Je vais continuer à travailler là-dessus et regarder la variance, merci beaucoup pour les conseils.

Joachim Ziemssen

La fonction de survie est généralement continue car il s'agit d'une fonction de distribution, j'utiliserai comme intervalle. $a_k:=[t_{k-1}, t_k),k=1,2,\cdots,n$

Soit et les temps de survie et de censure continus réels pour le sujet dans l'échantillon , respectivement. Les deux variables peuvent ne pas être observées directement, mais uniquement dans l'un des intervalles . De plus, considérons l'intervalle dans lequel tombe , essentiellement un temps de survie discret, et de même pour . L'indicateur de censure est alors donné par . $T_{ij}$ $C_{ij}$ $j$ $i$ $a_1,a_2,\cdots$ $X_{ij}$ $T_{ij}$ $\mathcal{C}_{ij}$ $C_{ij}$ $\delta_{ij}=\mathbf{1}(X_{ij} \le \mathcal{C}_{ij})$

La fonction de risque pour le temps de survie discret est définie comme la probabilité conditionnelle que l'événement se produise dans le ème intervalle de temps étant donné qu'il ne s'est pas produit avant le ème intervalle, c'est-à-dire $h_{ij}(x)$ $x$ $x-1$

h_{i j} (x) = P (X_{i j} = x | X_{i j} \geq x)

$h_{ij}(x)=P(X_{ij}=x | X_{ij} \ge x)$

et la fonction de survie correspondante peut être écrite récursivement en utilisant la loi de produit conditionnelle: $S_{ij}=P(X>x)$

S_{i j} (x) = P (X_{i j} > x | X_{i j} \geq x) \dots P (X_{i j} > 1 | X_{i j} \geq 1) = \prod_{m = 1}^{x} (1 - h_{i j} (m))

$S_{ij}(x)=P(X_{ij}>x | X_{ij}\ge x)\cdots P(X_{ij}>1 | X_{ij} \ge 1)=\prod_{m=1}^x (1-h_{ij}(m))$

La fonction de vraisemblance de la paire peut être construite comme le produit de deux types de sujets, à savoir ceux qui ont vécu un événement à ( ) et ceux qui ont été censurés à ( ): $(x_{ij},\delta_{ij})$ $x_{ij}$ $X_{ij}=x_{ij},\delta_{ij}=1$ $x_{ij}$ $X_{ij}>x_{ij},\delta_{ij}=0$

\begin{aligned} L & = \prod_{i = 1}^{s} \prod_{j = 1}^{n_{i}} [P (X_{i j} = x_{i j})]^{δ_{i j}} [P (X_{i j} > x_{i j})]^{1 - δ_{i j}} \\ = \prod_{i = 1}^{s} \prod_{j = 1}^{n_{i}} {{(h_{i j} (x_{i j}) \prod_{m = 1}^{x_{i j} - 1} [1 - h_{i j} (m)])}^{δ_{i j}} {(\prod_{m = 1}^{x_{i j}} [1 - h_{i j} (m)])}^{1 - δ_{i j}}} \\ = \prod_{i = 1}^{s} \prod_{j = 1}^{n_{i}} {{[\frac{h_{i j} (x_{i j})}{1 - h_{i j} (x_{i j})}]}^{δ_{i j}} \prod_{m = 1}^{x_{i j}} [1 - h_{i j} (m)]} . \end{aligned}

$\begin{split} \mathcal{L} &= \prod_{i=1}^{s}\prod_{j=1}^{n_{i}}[P(X_{ij}=x_{ij})]^{\delta_{ij}}[P(X_{ij}>x_{ij})]^{1-\delta_{ij}}\\ & = \prod_{i=1}^{s}\prod_{j=1}^{n_{i}}\left\{\left(h_{ij}(x_{ij})\prod_{m=1}^{x_{ij}-1}[1-h_{ij}(m)]\right)^{\delta_{ij}}\left( \prod_{m=1}^{x_{ij}}[1-h_{ij}(m)]\right)^{1-\delta_{ij}}\right\}\\ & = \prod_{i=1}^{s}\prod_{j=1}^{n_{i}}\left\{\left[\frac{h_{ij}(x_{ij})}{1-h_{ij}(x_{ij})}\right]^{\delta_{ij}}\prod_{m=1}^{x_{ij}}[1-h_{ij}(m)]\right\}. \end{split}$ et la fonction de vraisemblance de log correspondante est:

ℓ = \sum_{i = 1}^{M} \sum_{j = 1}^{n_{i}} {δ_{i j} \log [\frac{h_{i j} (x_{i j})}{1 - h_{i j} (x_{i j})}] + \sum_{m = 1}^{x_{i j}} \log [1 - h_{i j} (m)]}

$\ell=\sum_{i=1}^{M}\sum_{j=1}^{n_{i}}\left\{\delta_{ij}\log[\frac{h_{ij}(x_{ij})}{1-h_{ij}(x_{ij})}]+\sum_{m=1}^{x_{ij}}\log[1-h_{ij}(m)]\right\}$

Maintenant, si nous reconstruisons nos données en structure d'historique d'événements, c'est-à-dire enregistrant à chaque intervalle, une variable d'indicateur d'événement pour le ème intervalle du ème sujet de l'échantillon , nous pouvons voir que dans ce qui précède réécrit en (résumant essentiellement tous les 0 jusqu'au dernier intervalle observé de ce sujet, s'il a un événement, ce sera 1, si censuré 0). Ensuite, nous pouvons réécrire notre log-vraisemblance $y_{ijk}$ $k$ $j$ $i$ $\delta_{ij}\log[h_{ij}(x_{ij})/(1-h_{ij}(x_{ij})]$ $\sum_{k=1}^{x_{ij}}y_{ijk} \log[h_{ij}(k)/(1-h_{ij}(k))]$

ℓ = \sum_{i = 1}^{s} \sum_{j = 1}^{n_{i}} \sum_{k = 1}^{x_{i j}} {y_{i j k} \log h_{i j} (k) + (1 - y_{i j k}) \log [1 - h_{i j} (k)]} .

$\ell=\sum_{i=1}^s \sum_{j=1}^{n_i} \sum_{k=1}^{x_{ij}} \left\{ y_{ijk} \log h_{ij}(k) + (1 - y_{ijk}) \log [1 - h_{ij}(k)] \right\}.$ Ceci est identique à la vraisemblance logarithmique pour une variable aléatoire binaire , mais maintenant avec la proportion pour un événement dans l'intervalle défini par .

y_{i j k}

$y_{ijk}$

p_{i j k}

$p_{ijk}$

k

$k$

h_{i j} (k)

$h_{ij}(k)$

Maintenant, nous pouvons enfin répondre à votre question. Si nous supposons qu'au même intervalle, est iid pour un sujet différent dans l'échantillon , et également pour un échantillon différent, alors est l'estimateur approprié pour . $y_{ijk}$ $j$ $i$ $\bar{M_j}=(\sum_i n_i)^{-1}\sum_{i=1}^{s}\sum_{j=1}^{n_i}y_{ijk}$ $h_{ij}(k)=h(k)$

Et l'estimateur approprié pour est donc . $S(x)$ $\hat{S}(x)=\prod_{k=1}^{x}(1-\bar{M}_j)$

jujae
la source