J'essaie de faire face à une analyse du temps sur événement en utilisant des résultats binaires répétés. Supposons que le temps écoulé soit mesuré en jours, mais pour le moment, nous discrétisons le temps en semaines. Je veux approximer un estimateur de Kaplan-Meier (mais tenir compte des covariables) en utilisant des résultats binaires répétés. Cela semblera un chemin détourné, mais j'explore comment cela s'étend aux résultats ordinaux et aux événements récurrents.
Si vous créez une séquence binaire qui ressemble à 000 pour quelqu'un censuré à 3 semaines, 0000 pour quelqu'un censuré à 4w et 000011111111111111 .... pour un sujet qui a échoué à 5w (les 1 s'étendent jusqu'au point où le dernier sujet a été suivi dans l'étude), lorsque vous calculez des proportions de 1 spécifiques à la semaine, vous pouvez obtenir des incidences cumulatives ordinaires (jusqu'à ce que vous arriviez à des temps de censure variables, où cela ne fait qu'approximer mais n'égale pas les estimations d'incidence cumulée de Kaplan-Meier).
Je peux adapter les observations binaires répétées avec un modèle logistique binaire en utilisant GEE, au lieu de rendre le temps discret comme ci-dessus mais en utilisant plutôt une spline dans le temps. L'estimateur de covariance sandwich en grappes fonctionne assez bien. Mais j'aimerais obtenir une inférence plus exacte en utilisant un modèle d'effets mixtes. Le problème est que les 1 après le premier 1 sont redondants. Quelqu'un connaît-il un moyen de spécifier des effets aléatoires ou de spécifier un modèle qui prend en compte les redondances afin que les erreurs standard ne soient pas dégonflées?
Notez que cette configuration diffère de celle d' Efron car il utilisait des modèles logistiques pour estimer les probabilités conditionnelles dans les ensembles de risques. J'évalue les probabilités inconditionnelles.
la source
GLMMadaptive
package semble formidable pour la configuration plus générale.Quelques réflexions à ce sujet:
Il semble qu'un modèle à effets mixtes soit fondamentalement un modèle de probabilité «conditionnel», c'est-à-dire quelle est la probabilité d'un événement pour un sujet à risque pour cet événement.
Nous savons que la probabilité d'un «1» après le premier «1» est de un. Ainsi, il n'y a aucune information supplémentaire dans les valeurs «1» suivantes.
Il semble que, comme les valeurs «1» suivantes ne contiennent aucune information supplémentaire, elles ne devraient pas avoir d'impact sur la fonction de vraisemblance, et donc pas d'impact sur les erreurs-types des estimateurs basés sur la vraisemblance, ni sur les estimations elles-mêmes. En effet, il n'y aurait pas d'impact sur les valeurs «1» suivantes si p (y = «1» | x) = 1 quelles que soient les valeurs des paramètres du modèle, comme il se doit.
Nous pourrions être en mesure de forcer ce comportement (c'est-à-dire, p (y = '1' | x) = 1), et de conserver la fonction moyenne souhaitée, en ajoutant une covariable d'indicateur au modèle qui marque les suivantes, et en forçant son coefficient être très grand pour que effectivement p (y = '1' | x) = 1.
Comme vous l'avez mentionné, il peut également y avoir un moyen de forcer le premier «1» et les réponses suivantes à avoir une corrélation de 100%. Mais dans un modèle binomial, c'est la même chose que p (y = '1' | x) = 1 pour les réponses suivantes.
la source
Je ne sais pas exactement ce que vous essayez de faire, mais pouvez-vous adapter un modèle de régression logistique groupé ( https://www.ncbi.nlm.nih.gov/pubmed/2281238 )? Dans ce cas, vous ne devez inclure que 1 pendant l'intervalle de l'événement terminal - il ne se répéterait pas après que l'événement s'est produit. Vous devez inclure le temps dans le modèle de manière flexible (par exemple, développé à l'aide de splines).
la source