J'ai un ensemble de données qui contient environ 7 500 analyses de sang d'environ 2 500 personnes. J'essaie de savoir si la variabilité des tests sanguins augmente ou diminue avec le temps entre deux tests. Par exemple - je prélève votre sang pour le test de base, puis je tire immédiatement un deuxième échantillon. Six mois plus tard, je tire un autre échantillon. On pourrait s'attendre à ce que la différence entre la ligne de base et les tests répétés immédiats soit inférieure à la différence entre la ligne de base et le test de six mois.
Chaque point du graphique ci-dessous reflète la différence entre deux tests. X est le nombre de jours entre deux tests; Y est la taille de la différence entre les deux tests. Comme vous pouvez le voir, les tests ne sont pas distribués également le long de X - l'étude n'a pas été conçue pour répondre à cette question, vraiment. Parce que les points sont si fortement empilés à la moyenne, j'ai inclus des lignes de quantile à 95% (bleu) et 99% (rouge), basées sur des fenêtres de 28 jours. Ceux-ci sont évidemment tirés par les points les plus extrêmes, mais vous avez l'idée.
texte de remplacement http://a.imageshack.us/img175/6595/diffsbydays.png
Il me semble que la variabilité est assez stable. Si quoi que ce soit, il est plus élevé lorsque le test est répété sur une courte période - c'est terriblement contre-intuitif. Comment puis-je résoudre ce problème de manière systématique, en tenant compte de la variation de n à chaque instant (et de certaines périodes sans aucun test)? Vos idées sont grandement appréciées.
À titre indicatif, il s'agit de la répartition du nombre de jours entre le test et le retest:
texte alternatif http://a.imageshack.us/img697/6572/testsateachtimepoint.png
la source
Réponses:
D'après votre description, je ne vois aucune raison de distinguer le "test de base" du "deuxième échantillon" immédiatement tiré. Ce sont simplement 2 mesures de référence et la variance (au niveau de référence) peut être calculée sur cette base. Il serait préférable de tracer la moyenne des deux mesures de base par rapport au troisième échantillon "six mois".
Le problème vient de l'échantillon de 6 mois. Étant donné qu'un seul échantillon est prélevé à ce stade, il n'y a aucun moyen d'estimer la "variabilité" à ce stade, ou plutôt de séparer la variation d'échantillonnage du changement longitudinal (réel) de la lecture de la tuberculose.
Si nous considérons cela comme un problème d'analyse de données longitudinales, nous choisirions probablement une interception aléatoire (TB de base) et une pente aléatoire (pour s'adapter à la TB à 6 mois). La variabilité d'échantillonnage serait estimée à partir des deux mesures de référence et de la pente à partir de la troisième mesure de 6 mois. Nous ne pouvons pas estimer la variabilité à 6 mois sans de fortes hypothèses de distribution sur le chnage au cours de ces six mois, comme en supposant aucun changement.
la source