J'ai les données suivantes, représentant l'état binaire de quatre sujets à quatre reprises, notez qu'il n'est possible que pour chaque sujet de passer de mais pas de :
testdata <- data.frame(id = c(1,2,3,4,1,2,3,4,1,2,3,4,1,2,3,4,1,2,3,4),
day = c(1,1,1,1,8,8,8,8,16,16,16,16,24,24,24,24,32,32,32,32),
obs = c(0,0,0,0,0,1,0,0,0,1,1,0,0,1,1,1,1,1,1,1))
Je peux le modéliser avec une régression logistique:
testmodel <- glm(formula(obs~day, family=binomial), data=testdata)
> summary(testmodel)
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -0.018890 0.148077 -0.128 0.899907
day 0.032030 0.007555 4.240 0.000493 ***
Premièrement, comment puis-je tenir compte des mesures répétées sur le même individu dans le modèle?
Deuxièmement, comment estimer, avec incertitude, le jour où la moitié des sujets auront fait la transition de ?
logistic
censoring
interval-censoring
David LeBauer
la source
la source
Réponses:
Comme il est devenu évident dans les commentaires à la question, les données ne comprennent que quatre observations du délai d'éclosion des bourgeons. (Ce serait une erreur de les analyser comme s'il s'agissait de 16 valeurs indépendantes.) Elles consistent en des intervalles de temps plutôt qu'en des temps exacts:
Il existe plusieurs approches. Un appel, très général, est de prendre ces intervalles au mot: le vrai moment du débourrement pourrait être n'importe quoi dans chaque intervalle. Nous sommes donc amenés à représenter «l'incertitude» sous deux formes distinctes: l'incertitude d'échantillonnage (nous avons un échantillon vraisemblablement représentatif de l'espèce cette année) et l' incertitude d'observation (reflétée par les intervalles).
L'incertitude d'échantillonnage est gérée avec des techniques statistiques connues: on nous demande d'estimer la médiane et nous pouvons le faire de plusieurs façons, en fonction d'hypothèses statistiques, et nous pouvons fournir des intervalles de confiance pour l'estimation. Pour simplifier, supposons que le temps de débourrement ait une distribution symétrique. Parce qu'il est (vraisemblablement) non négatif, cela implique qu'il a une variance et suggère également que la moyenne de seulement quatre observations peut être distribuée approximativement normalement. De plus, la symétrie implique que nous pouvons utiliser la moyenne comme substitut de la médiane (ce qui est recherché dans la question d'origine). Cela nous donne accès à des méthodes standard, simples, d'estimation et d'intervalle de confiance.
L'incertitude d'observation peut être gérée avec les principes de l'arithmétique d'intervalle (souvent appelés «analyse des limites de probabilité» ): effectuer tous les calculs en utilisant toutes les configurations possibles de données cohérentes avec les observations. Voyons comment cela fonctionne dans un cas simple: l'estimation de la moyenne. Il est intuitivement clair que la moyenne ne peut être inférieure à = , obtenue en utilisant les plus petites valeurs dans chaque intervalle, et également que la moyenne ne peut être supérieure à = . Nous concluons:(1+8+16+24)/4 10.25 (8+16+24+32) 18
Cela représente un intervalle entier d'estimations: un résultat approprié d'un calcul avec des entrées d'intervalle!
Une limite de confiance supérieure à (unilatérale) de la moyenne de quatre valeurs est calculée à partir de leur moyenne et d'écart-type avec le Student t- distribution en tant que1−α x=(x1,x2,x3,x4) m s
Contrairement au calcul de la moyenne, il n'est plus généralement le cas que l'intervalle des ucl soit limité par les ucl des valeurs limites. En effet, notez que l'ucl des limites d'intervalle inférieures, , est égal à , tandis que est encore plus petit. En maximisant et en minimisant l'ucl parmi toutes les combinaisons possibles de valeurs cohérentes avec les observations, nous constatons (par exemple) queucl((1,8,16,24),.025) 28.0758 ucl((8,11.676,16,24),.025)=25.8674
(c'est un intervalle de nombres représentant un ucl évalué par intervalle , pas un intervalle de confiance!) et, pour la limite de confiance inférieure,
(Ces valeurs ont été arrondies vers l'extérieur. Le est une valeur négative qui a été tronquée à en partant du principe que le temps médian des bourgeons ne peut pas être négatif.)0 0
En mots, on pourrait dire que
Ce que l'on doit en faire relève de la réflexion individuelle et dépend de l'application. Si l'on veut être raisonnablement sûr que le débourrement se produit avant 40 jours, alors ce résultat donne une certaine satisfaction (sous réserve des hypothèses sur la distribution du débourrement et l'indépendance des observations ). Si l'on veut estimer le débourrement au jour le plus proche, alors il est clair que davantage de données sont nécessaires. Dans d'autres circonstances, cette conclusion statistique en termes de limites de confiance à intervalles peut être frustrante. Par exemple, dans quelle mesure pouvons-nous être sûrs que le débourrement se produit dans 50% des spécimens avant 30 jours? C'est difficile à dire, car les réponses seront des intervalles.
Il existe d'autres façons de gérer ce problème. Je préfère particulièrement utiliser les méthodes du maximum de vraisemblance. (Pour les appliquer ici, nous aurions besoin d'en savoir plus sur la façon dont les seuils d'intervalle ont été établis. Il importe qu'ils aient été déterminés indépendamment des données ou non.) La présente question semble être une bonne occasion d'introduire des méthodes basées sur l'intervalle car elles ne semblent pas bien connues, même si dans certaines disciplines (évaluation des risques et analyse des algorithmes) elles ont été chaleureusement défendues par certains.
la source
Voici une approche simple qui n'utilise pas de régression logistique, mais tente d'utiliser les suggestions ci-dessus. Le calcul des statistiques récapitulatives suppose, peut-être naïvement, que la date est normalement distribuée.
Veuillez pardonner le code inélégant
écrire une fonction pour estimer le jour du débourrement pour chaque individu: utiliser le jour de l'année à mi-chemin entre la dernière observation de 0 et la première observation de 1 pour chaque individu.
Calculer des statistiques sommaires
la source
Nous savons que le temps de transition (de l'état 0 à l'état 1) du sujet était entre deux limites: . Une approximation consiste à supposer que peut avoir pris des valeurs dans cette plage avec une probabilité uniforme . En rééchantillonnant les valeurs de , nous pouvons obtenir une distribution approximative de :t1 24<t1<32 t1 ti median(ti)
id=1
Résultat (répété):
Ainsi, une approximation avec un intervalle de confiance à 95% de cette médiane est de 16 (5 - 28).
EDIT: Voir le commentaire de whuber sur la limitation de cette méthode lorsque le nombre d'observations est petit (y compris n = 4 lui-même).
la source
Vous pouvez utiliser un modèle d'aléa temporel discret avec régression logistique (en utilisant un ensemble de données de période-personne). Voir Analyse des données longitudinales appliquées - logiciel et chapitres 10-12 du livre .
Allison discute également
Cependant, votre ensemble de données est minuscule.
la source
En supposant que vous disposerez de plus de données de la même structure, vous pourrez utiliser la méthode actuarielle (table de mortalité) pour estimer la survie médiane.
la source