J'ai une expérience qui produira des observations du temps jusqu'à ce qu'un événement se produise. Certaines propriétés de base sont que
- Nous comptons le nombre d'événements qui se sont produits à un moment donné .
- Les heures des événements sont censurées par intervalles, entre ,
- Les individus ne quitteront pas le procès entre , c'est-à-dire qu'un individu a vécu l'événement par ou ne l'a pas fait, auquel cas il est censuré,
- Une grande partie des individus ne recevront pas l'événement avant , lorsque nous terminerons l'expérience, et
- Je ne peux supposer aucun modèle de désintégration paramétrique sous-jacent.
Cela semble être une application naturelle pour l'analyse de survie. Cependant, il est compliqué par le fait qu'il est trivial de répéter l'expérience à partir de la même configuration initiale plusieurs fois. En effet, nous aurons un ensemble de dénombrements d'événements (où est le nombre d'échantillons) pour chaque temps d'observation . Je suis relativement nouveau dans les statistiques et j'ai du mal à voir comment appliquer l'analyse de survie à ces données (si elles sont même applicables et qu'il n'y a pas de méthodes plus appropriées pour mesurer ce type de données de temps sur événement). Mon inclination est de construire la fonction de survie autour du nombre moyen d'événements observés à chaque intervalle (ie), qui devrait mieux se rapprocher du nombre prévu d'événements à chaque intervalle dans la population, mais je n'ai aucune idée si cela est approprié ou de ses implications.
J'ai cherché en vain sur Google Scholar, si quelqu'un pouvait me diriger vers plus de matériel (ou me donner la nomenclature correcte pour ce que j'essaie de faire), ce serait apprécié.
Éditer
Étant donné que les intervalles sont uniformes dans tous les échantillons, disons que j'avais la matrice suivante décrivant le nombre cumulé d'individus pour lesquels un événement s'est produit dans chaque intervalle
où chaque ligne donne le nombre d'événements pour le même ensemble d'individus à risque à dans tous les échantillons (c'est-à-dire plusieurs instances de l'expérience), et chaque colonne est un intervalle d'observation. Je suppose qu'en prenant le nombre moyen d'événements pour chaque intervalle, je peux obtenir une meilleure estimation de la survie de la population attendue, alors soit le nombre d'intervalles de temps, le nombre d'échantillons (instances d'expérience), puis le vecteur
sera le nombre moyen d'événements observés pour chaque intervalle de temps.
Mon objectif est donc de l'utiliser comme entrée pour l'estimation de la survie. Soit le nombre d'individus à risque lorsque . En utilisant l'estimateur naïf (pour l'instant, étant donné que les intervalles d'événements sont uniformes dans tous les échantillons et qu'il n'y a pas de censure avant ), la fonction de survivant pourrait être estimée comme:
Ce qui (espérons-le) serait une meilleure estimation de la survie de la population que n'importe quel échantillon individuel (une seule ligne de ). Pour reformuler ma question:
- Est une entrée appropriée à une estimation de la fonction de survie? Je n'ai vu cette approche dans aucun des documents que j'ai lus.
- Comme je suis vraiment, douloureusement novice en statistiques, quelqu'un peut-il m'indiquer du matériel (articles universitaires, manuels, wikis, etc., ça irait) pour estimer l'intervalle de confiance et la variance pour cette estimation de la fonction de survie? Je suppose que ce ne sera pas identique aux formulations standard.
Toutes mes excuses si ma question d'origine était déroutante, je n'ai probablement pas inclus suffisamment d'informations.
Réponses:
J'ai récemment eu un ensemble de données de survie censurées par intervalles, donc je sais exactement ce dont vous avez besoin. Si vous en avez déjà utilisé
R
, cela devrait vous aider.Si vous ne voulez pas assumer une forme paramétrique, que diriez-vous d'un modèle à risques proportionnels de Cox censuré par intervalles? Le
intcox
package qui ferait cela n'est plus dans leR
référentiel. Je suggérerais d'imputer les temps de survie, puis d'utiliser lacoxph
fonction de lasurvival
bibliothèque. Gardez à l'esprit que vos erreurs standard seront trop faibles en utilisant cette méthode; vous n'avez pas tenu compte de l'incertitude de ne pas connaître le temps de survie exact. Si vous voulez des estimations de survie à intervalle censuré, utilisez laicfit
fonction duinterval
package.Une autre façon d'analyser l'effet des covariables sur le temps de survie consiste à utiliser une régression non paramétrique censurée par intervalles. Voir le
R
packageICE
: http://cran.r-project.org/web/packages/ICE/ICE.pdf . Vous devez d'abord imputer les points médians du temps de survie, puis vous effectuez une régression linéaire locale en utilisant lalocpoly
fonction dunp
package. Ce n'est pas aussi difficile qu'il y paraît.la source
La fonction de survie est généralement continue car il s'agit d'une fonction de distribution, j'utiliserai comme intervalle.ak:=[tk−1,tk),k=1,2,⋯,n
Soit et les temps de survie et de censure continus réels pour le sujet dans l'échantillon , respectivement. Les deux variables peuvent ne pas être observées directement, mais uniquement dans l'un des intervalles . De plus, considérons l'intervalle dans lequel tombe , essentiellement un temps de survie discret, et de même pour . L'indicateur de censure est alors donné par .Tij Cij j i a1,a2,⋯ Xij Tij Cij Cij δij=1(Xij≤Cij)
La fonction de risque pour le temps de survie discret est définie comme la probabilité conditionnelle que l'événement se produise dans le ème intervalle de temps étant donné qu'il ne s'est pas produit avant le ème intervalle, c'est-à-direhij(x) x x−1
et la fonction de survie correspondante peut être écrite récursivement en utilisant la loi de produit conditionnelle:Sij=P(X>x)
La fonction de vraisemblance de la paire peut être construite comme le produit de deux types de sujets, à savoir ceux qui ont vécu un événement à ( ) et ceux qui ont été censurés à ( ):(xij,δij) xij Xij=xij,δij=1 xij Xij>xij,δij=0
Maintenant, si nous reconstruisons nos données en structure d'historique d'événements, c'est-à-dire enregistrant à chaque intervalle, une variable d'indicateur d'événement pour le ème intervalle du ème sujet de l'échantillon , nous pouvons voir que dans ce qui précède réécrit en (résumant essentiellement tous les 0 jusqu'au dernier intervalle observé de ce sujet, s'il a un événement, ce sera 1, si censuré 0). Ensuite, nous pouvons réécrire notre log-vraisemblanceyijk k j i δijlog[hij(xij)/(1−hij(xij)] ∑xijk=1yijklog[hij(k)/(1−hij(k))]
Maintenant, nous pouvons enfin répondre à votre question. Si nous supposons qu'au même intervalle, est iid pour un sujet différent dans l'échantillon , et également pour un échantillon différent, alors est l'estimateur approprié pour .yijk j i Mj¯=(∑ini)−1∑si=1∑nij=1yijk hij(k)=h(k)
Et l'estimateur approprié pour est donc .S(x) S^(x)=∏xk=1(1−M¯j)
la source