J'ai les résultats d'un test sanguin administré à 2500 personnes quatre fois à six mois d'intervalle. Les résultats consistent principalement en deux mesures de la réponse immunitaire - une en présence de certains antigènes de la tuberculose, une en l'absence. Actuellement, chaque test est évalué comme positif ou négatif en fonction de la différence entre la réponse antigénique et la réponse nulle (l'idée étant que si votre système immunitaire répond aux antigènes TB, vous avez probablement été exposé à la bactérie elle-même à un moment donné ). Essentiellement, le test suppose que les distributions d'un individu non exposé de réponses nulles et TB devraient être fondamentalement identiques, alors qu'une personne exposée à la TB aura des réponses TB tirées d'une distribution différente (de valeurs plus élevées). Caveat: les réponses sont très, très anormales, et les valeurs s'agglutinent à la fois au sol naturel et au plafond tronqué par l'instrument.
Cependant, il semble assez clair dans ce contexte longitudinal que nous obtenons des «faux positifs» (pas d'étalon-or réel pour la tuberculose latente, je le crains) qui sont causés par des fluctuations (généralement faibles) des réponses antigènes et nulles. Bien que cela puisse être difficile à éviter dans certaines situations (vous ne pouvez avoir qu'une seule chance de tester quelqu'un), il existe de nombreuses situations dans lesquelles les gens sont systématiquement testés pour la tuberculose chaque année environ - aux États-Unis, cela est courant pour les professionnels de la santé, les militaires, les sans-abri logés dans des abris, etc. Il semble dommage d'ignorer les résultats des tests antérieurs car les critères existants se trouvent être transversaux.
Je pense que ce que j'aimerais faire, c'est ce que je conçois grossièrement comme une analyse longitudinale des mélanges. Tout comme les critères transversaux, j'aimerais pouvoir estimer la probabilité que les réponses TB et nul d'un individu soient tirées de la même distribution - mais que cette estimation intègre les résultats des tests antérieurs, ainsi que les informations de l'échantillon comme un ensemble (par exemple, puis-je utiliser la distribution à l'échelle de l'échantillon des variabilités intraindividuelles pour améliorer mes estimations de la distribution de zéro ou de la tuberculose d'un individu spécifique). La probabilité estimée devrait pouvoir évoluer au fil du temps, bien entendu, pour tenir compte de la possibilité d'une nouvelle infection.
Je me suis complètement tordu en essayant de penser à cela de manière inhabituelle, mais j'ai l'impression que cette conceptualisation est aussi bonne que celle que je vais proposer. Si quelque chose n'a pas de sens, n'hésitez pas à demander des éclaircissements. Si ma compréhension de la situation semble erronée, n'hésitez pas à me le dire. Je vous remercie beaucoup pour votre aide.
En réponse à Srikant: C'est un cas de classification latente (infectée ou non par la tuberculose) en utilisant les deux résultats des tests continus (mais non normaux et tronqués). À l'heure actuelle, cette classification est effectuée à l'aide d'un seuil (dans sa forme simplifiée, TB - néant> 0,35 -> positif). Avec les résultats des tests présentés comme (néant, TB, résultat), les archétypes de base * sont:
Négatif probable: (0,06, 0,15, -) (0,24, 0,23, -) (0,09, 0,11, -) (0,16, 0,15, -)
Positif probable: (0,05, 3,75, +) (0,05, 1,56, +) (0,06 , 5,02, +) (0,08, 4,43, +)
Wobbler: (0,05, 0,29, -) (0,09, 0,68, +) (0,08, 0,31, -) (0,07, 0,28, -)
Le positif du deuxième test pour le Wobbler est clairement une aberration, mais comment modéliseriez-vous cela? Bien qu'une ligne de ma pensée consiste à estimer la "vraie différence" entre la tuberculose et la néant à chaque point dans le temps en utilisant un modèle à plusieurs niveaux de mesures répétées, il m'est venu à l'esprit que ce que je veux vraiment savoir, c'est si la réponse nulle et la réponse TB de la personne sont issus de la même distribution, ou si leur système immunitaire reconnaît les antigènes TB et s'active, produisant une réponse accrue.
Quant à ce qui pourrait provoquer un test positif autre que l'infection: je ne suis pas sûr. Je soupçonne que ce n'est généralement qu'une variation intra-personne des résultats, mais il y a certainement une possibilité d'autres facteurs. Nous avons des questionnaires à chaque instant, mais je ne les ai pas encore trop examinés.
* Données fabriquées mais illustratives
la source
Réponses:
Ce n'est pas une réponse complète, mais j'espère qu'elle vous donnera quelques idées sur la manière de modéliser la situation de manière cohérente.
Hypothèses
Les valeurs à l'extrémité inférieure de l'échelle suivent une distribution normale tronquée d'en bas.
Les valeurs à l'extrémité supérieure de l'échelle suivent une distribution normale tronquée d'en haut.
(Remarque: je sais que vous avez dit que les données ne sont pas normales mais je suppose que vous faites référence à la distribution de toutes les valeurs alors que les hypothèses ci-dessus se rapportent aux valeurs à l'extrémité inférieure et à l'extrémité supérieure de l'échelle.)
L'état sous-jacent d'une personne (qu'elle ait ou non la tuberculose) suit une chaîne de Markov de premier ordre.
Modèle
Laisser:
Les points 4 et 5 reflètent l'idée que la réponse d'une personne au test NILL ne dépend pas de l'état de la maladie.
Les points 6, 7 et 8 illustrent l'idée que la réponse d'une personne au test TB dépend du statut de la maladie.
En d'autres termes,
Vos critères de test indiquent que:
Cependant, comme vous le voyez dans la structure du modèle, vous pouvez réellement paramétrer les seuils et changer tout le problème en celui de quels devraient être vos seuils pour diagnostiquer avec précision les patients. Ainsi, le problème de wobbler semble être plus un problème avec votre choix de seuils que n'importe quoi d'autre.
J'espère que c'est utile.
la source
Tricky Matt, comme beaucoup de problèmes de statistiques dans le monde réel!
Je commencerais à définir les buts / objectifs de votre étude.
Sans connaître le véritable statut des sujets, il sera difficile de définir les distributions de probabilité pour les tests TB + et TB-. Avez-vous des questions sur les antécédents d'infection tuberculeuse (ou mieux, les antécédents médicaux). De plus, je teste toujours TB + en raison d'une vaccination dans l'enfance - il y a plusieurs décennies - donc les vaccinations précédentes doivent être prises en compte.
Il me semble que votre question intrinsèque est la suivante: les tests de tuberculose répétés affectent-ils les résultats des tests?
Il vaudrait la peine d'obtenir une copie de l'analyse des données longitudinales de Peter Diggle .
Faire une analyse exploratoire des données, en particulier des matrices de nuage de points des résultats du test nul à chaque fois les uns par rapport aux autres, et les résultats des tests TB à chaque fois les uns par rapport aux autres; et les diagrammes de dispersion TB vs nil (à chaque fois). Prenez également les différences (test TB - test Nil) et faites les matrices du nuage de points. Essayez les transformations des données et refaites celles-ci - j'imagine log (TB) - log (Nil) peut aider si les résultats de TB sont très importants par rapport à Nil. Recherchez des relations linéaires dans la structure des corrélations.
Une autre approche consisterait à prendre le résultat de test défini (positif / négatif) et à le modéliser logitudinalement en utilisant un modèle à effets mixtes non linéaire (lien logit). Certaines personnes basculent-elles entre les tests TB + et TB- et est-ce lié à leur test Nil, test TB, TB - Nil ou à une transformation des résultats du test?
la source